vllm-project / vllm
LLM을 위한 고처리량 및 메모리 효율적인 추론 및 서비스 엔진
이 프로젝트에 대해
vllm-project 님의 vllm 프로젝트는 GitHub에서 83.1K개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
🇰🇷 한국어 번역 README
AI 실시간 번역모두를 위한 쉽고 빠르며 저렴한 LLM 서비스
| 문서 | 블로그 | 논문 | 트위터/X | 사용자 포럼 | 개발자 슬랙 |
🔥 우리는 vLLM을 시작하는 데 도움을 주기 위해 vLLM 웹사이트를 만들었습니다. 더 알아보려면 vllm.ai를 방문하세요. 행사에 참여하려면 vllm.ai/events를 방문하세요.
소개
vLLM은 LLM 추론 및 서비스를 위한 빠르고 사용하기 쉬운 라이브러리입니다.
원래 UC Berkeley의 Sky Computing Lab에서 개발된 vLLM은 2000명 이상의 기여자와 수십 개의 학술 기관 및 기업으로 구성된 다양한 커뮤니티에 의해 구축되고 유지되는 가장 활발한 오픈소스 AI 프로젝트 중 하나로 성장했습니다.
vLLM의 속도 특징:
- 최첨단 서빙 처리량
- PagedAttention을 이용한 효율적인 attention key/value 메모리 관리
- 들어오는 요청의 연속적인 배치, 청크 사전 채우기, 접두사 캐싱
- 부분 및 전체 CUDA/HIP 그래프를 통한 빠르고 유연한 모델 실행
- 양자화: FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF, 압축 텐서, ModelOpt, TorchAO 등
- FlashAttention, FlashInfer, TRTLLM-GEN, FlashMLA, Triton 등 최적화된 attention 커널
- CUTLASS, TRTLLM-GEN, CuTeDSL을 이용한 다양한 정밀도의 최적화된 GEMM/MoE 커널
- n-gram, 접미사, EAGLE, DFlash 등 추측적 디코딩
- torch.compile을 이용한 자동 커널 생성 및 그래프 수준 변환
- 분리된 사전 채우기, 디코드, 인코드
vLLM의 유연성과 사용 편의성:
- 인기 있는 Hugging Face 모델과의 원활한 통합
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
🔗 유사한 프로젝트
theogravity/dual-rtx-6000-blackwell-Gemma-4-31B-IT-NVFP4
Optimized vLLM setup for Gemma 4 31B NVFP4 with MTP on dual RTX PRO 6000 Blackwell using vllm and docker: native FP4 Tensor Cores, Multi-Token Prediction (96.5% acceptance rate), and prefix caching. Includes benchmark results and replication scripts.
tangweigang-jpg/doramagic-vllm-pack
Vllm AI context pack for Claude Code, Codex, Cursor, and Aider: AGENTS.md, CLAUDE.md, prompts, evals, pitfalls, and verification notes for vllm-project/vllm.
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
vllm-project/vllm GitHub 원문 바로가기 →