介绍

Workflow Defined Engine, 针对不同架构的模型实现不同的模块，并按需加载所需的模块。
Asynchronous scheduling, 异步调度，提高GPU利用率，增加吞吐降低延迟
Microservices linked by Zeromq，减少序列化反序列化和io开销，进一步增加吞吐降低延迟

文档

应用

Acknowledgement

vLLM