parallel inference for multiple requests #10329

ooaykac · 2024-11-16T05:43:09Z

ooaykac
Nov 16, 2024

What should I do to enable multiple users to ask questions to the language model simultaneously and receive responses? Does llama.cpp support parallel inference for concurrent operations?

How can we ensure that requests made to the language model are processed and inferred in parallel, rather than sequentially, to serve multiple users simultaneously?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

parallel inference for multiple requests #10329

{{title}}

Replies: 0 comments

Select a reply

parallel inference for multiple requests #10329

ooaykac Nov 16, 2024

Replies: 0 comments

ooaykac
Nov 16, 2024