介绍 Workflow Defined Engine, 针对不同架构的模型实现不同的模块,并按需加载所需的模块。 Asynchronous scheduling, 异步调度,提高GPU利用率,增加吞吐降低延迟 Microservices linked by Zeromq,减少序列化反序列化和io开销,进一步增加吞吐降低延迟 文档 配环境&安装 支持的模型 对 prefill only models 推理性能调优 对 Decoding (chat) models 推理性能调优 实现 prefix caching 应用 快速入门 chat_client multi-agent 与 ollama 和 openai 兼容的 webserver Acknowledgement vLLM