Python
zimingttkx / QuantumFlow
QuantumFlow - 다중 백엔드 지원(vLLM, TGI, SGLang), 적응형 스케줄링 전략 및 클러스터 관리를 갖춘 분산 LLM 추론 스케줄링 프레임워크.
24
0
약 1개월 전
이 프로젝트에 대해
zimingttkx 님의 QuantumFlow 프로젝트는 GitHub에서 24개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
Python 96%HTML 4%Shell 0%
🇰🇷 한국어 번역 README
캐시 히트퀀텀플로우
🚀 下一代分布式大模型推理平台 — 让千亿参数模型跑在每台机器上
「像调度 Kubernetes Pods 一样调度 AI 推理任务」
영어 | 中文
✨ 特性
| 🎯 核心能力 | 🌟 差异化亮点 | 🔧 技术优势 | 状态 |
|---|---|---|---|
| 智能调度 | 갱/팩/自适应多策略 | 自动选择最优执行路径 | ✅ 已完成 |
| 分布式部署 | Redis队列 + Worker节点 | Controller与Worker完全解耦 | ✅ 已完成 |
| 多后端支持 | vLLM / HF / TGI / SGLang | 统一接口,灵活切换 | ✅ 已完成 |
| GPU 최적화 | 배치 누산기 / 청크된 프리필 / 블록 VRAM | 单卡利用率 99%,显存精细管理 | ✅ 已完成 |
| 本地/分布式自适应 | 单GPU자동 本地推理 | 多Worker自动分布式调度 | ✅ 已完成 |
| 国产硬件 | 昇腾NPU深度适配 | 打破 NVIDIA 垄断 | 📋 规划中 |
| 企业级 | 开箱即用的生产特性 | 🔄 部分完成 | |
| 多租户 | API Key认证 + 资源配额隔离 | 租户级别限流/调度/显存管理 | ✅ 已完成 |
| SDK | Python Sync/Async 客户端 | 原生多租户支持 (X-Tenant-ID) | ✅ 已完成 |
| gRPC API | 高性能 RPC 接口 | 降低延迟,提升吞吐 | ✅ 已完成 |
✅ 已完成 🔄 开发中 📋 规划中
🔥 왜 선택 QuantumFlow?
🚀 快速开始
📦 安装
💻 启动
浏览器打开 ` 进入前端。
🛠️ CLI
🏗️ 系统架构
🎯 调度策略
Gang调度 — 大模型的专属武器
Pack调度 — 小模型的效率之王
📊 GPU 성능키准
实测数据 — RTX 4080 노트북 GPU (12GB)
以下图表基于真实运行数据生成,展示了不同并发压力下的 GPU 성능表现:
测试配置
- 하드웨어: NVIDIA GeForce RTX 4080 노트북 GPU (12GB)
- 模型: Qwen2.5-1.5B-Instruct (FP16, HuggingFace Transformers)
- 优化: BatchAccumulator (max_batch_size=8, max_delay=50ms) + torch.compile
- 测试文件: tests/quick_benchmark.py(10 场景全路径覆盖)
- 图表생성: 테스트/regenerate_chart.py
实测 결과 — HuggingFace + BatchAccumulator(6 대표场景)
以下 6 个场景从 10 个
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
zimingttkx/QuantumFlow GitHub 원문 바로가기 →