트렌딩 목록으로
Python

zimingttkx / QuantumFlow

QuantumFlow - 다중 백엔드 지원(vLLM, TGI, SGLang), 적응형 스케줄링 전략 및 클러스터 관리를 갖춘 분산 LLM 추론 스케줄링 프레임워크.

24
0
약 1개월 전
GitHub에서 보기

이 프로젝트에 대해

zimingttkx 님의 QuantumFlow 프로젝트는 GitHub에서 24개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.

Language Breakdown

Python 96%HTML 4%Shell 0%

🇰🇷 한국어 번역 README

캐시 히트

퀀텀플로우

🚀 下一代分布式大模型推理平台 — 让千亿参数模型跑在每台机器上

「像调度 Kubernetes Pods 一样调度 AI 推理任务」

영어 | 中文


✨ 特性

🎯 核心能力🌟 差异化亮点🔧 技术优势状态
智能调度갱/팩/自适应多策略自动选择最优执行路径✅ 已完成
分布式部署Redis队列 + Worker节点Controller与Worker完全解耦✅ 已完成
多后端支持vLLM / HF / TGI / SGLang统一接口,灵活切换✅ 已完成
GPU 최적화배치 누산기 / 청크된 프리필 / 블록 VRAM单卡利用率 99%,显存精细管理✅ 已完成
本地/分布式自适应单GPU자동 本地推理多Worker自动分布式调度✅ 已完成
国产硬件昇腾NPU深度适配打破 NVIDIA 垄断📋 规划中
企业级제한流 / SDK / 다租户 / 容灾开箱即用的生产特性🔄 部分完成
多租户API Key认证 + 资源配额隔离租户级别限流/调度/显存管理✅ 已完成
SDKPython Sync/Async 客户端原生多租户支持 (X-Tenant-ID)✅ 已完成
gRPC API高性能 RPC 接口降低延迟,提升吞吐✅ 已完成

✅ 已完成    🔄 开发中    📋 规划中

🔥 왜 선택 QuantumFlow?


🚀 快速开始

📦 安装

💻 启动

浏览器打开 ` 进入前端。

🛠️ CLI


🏗️ 系统架构


🎯 调度策略

Gang调度 — 大模型的专属武器

Pack调度 — 小模型的效率之王


📊 GPU 성능키准

实测数据 — RTX 4080 노트북 GPU (12GB)

以下图表基于真实运行数据生成,展示了不同并发压力下的 GPU 성능表现:

测试配置

  • 하드웨어: NVIDIA GeForce RTX 4080 노트북 GPU (12GB)
  • 模型: Qwen2.5-1.5B-Instruct (FP16, HuggingFace Transformers)
  • 优化: BatchAccumulator (max_batch_size=8, max_delay=50ms) + torch.compile
  • 测试文件: tests/quick_benchmark.py(10 场景全路径覆盖)
  • 图表생성: 테스트/regenerate_chart.py

实测 결과 — HuggingFace + BatchAccumulator(6 대표场景)

以下 6 个场景从 10 个


🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.

이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.

zimingttkx/QuantumFlow GitHub 원문 바로가기 →