퀀텀플로우

🚀 下一代分布式大模型推理平台 — 让千亿参数模型跑在每台机器上

「像调度 Kubernetes Pods 一样调度 AI 推理任务」

영어 | 中文

✨ 特性

🎯 核心能力	🌟 差异化亮点	🔧 技术优势	状态
智能调度	갱/팩/自适应多策略	自动选择最优执行路径	✅ 已完成
分布式部署	Redis队列 + Worker节点	Controller与Worker完全解耦	✅ 已完成
多后端支持	vLLM / HF / TGI / SGLang	统一接口，灵活切换	✅ 已完成
GPU 최적화	배치 누산기 / 청크된 프리필 / 블록 VRAM	单卡利用率 99%，显存精细管理	✅ 已完成
本地/分布式自适应	单GPU자동 本地推理	多Worker自动分布式调度	✅ 已完成
国产硬件	昇腾NPU深度适配	打破 NVIDIA 垄断	📋 规划中
企业级	~~제한流~~ / SDK / ~~다租户~~ / 容灾	开箱即用的生产特性	🔄 部分完成
多租户	API Key认证 + 资源配额隔离	租户级别限流/调度/显存管理	✅ 已完成
SDK	Python Sync/Async 客户端	原生多租户支持 (X-Tenant-ID)	✅ 已完成
gRPC API	高性能 RPC 接口	降低延迟，提升吞吐	✅ 已完成

✅ 已完成 🔄 开发中 📋 规划中

浏览器打开 ` 进入前端。

以下图表基于真实运行数据生成,展示了不同并发压力下的 GPU 성능表现:

测试配置

以下 6 个场景从 10 个

🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.