트렌딩 목록으로
Python
amdblackwellcudadeepseek

vllm-project / vllm

LLM을 위한 고처리량 및 메모리 효율적인 추론 및 서비스 엔진

83.1K
18.1K
4일 전
GitHub에서 보기

이 프로젝트에 대해

vllm-project 님의 vllm 프로젝트는 GitHub에서 83.1K개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.

Language Breakdown

Python 84%Rust 5%Cuda 5%C++ 4%Shell 1%CMake 0%

🇰🇷 한국어 번역 README

AI 실시간 번역

모두를 위한 쉽고 빠르며 저렴한 LLM 서비스

| 문서 | 블로그 | 논문 | 트위터/X | 사용자 포럼 | 개발자 슬랙 |

🔥 우리는 vLLM을 시작하는 데 도움을 주기 위해 vLLM 웹사이트를 만들었습니다. 더 알아보려면 vllm.ai를 방문하세요. 행사에 참여하려면 vllm.ai/events를 방문하세요.


소개

vLLM은 LLM 추론 및 서비스를 위한 빠르고 사용하기 쉬운 라이브러리입니다.

원래 UC Berkeley의 Sky Computing Lab에서 개발된 vLLM은 2000명 이상의 기여자와 수십 개의 학술 기관 및 기업으로 구성된 다양한 커뮤니티에 의해 구축되고 유지되는 가장 활발한 오픈소스 AI 프로젝트 중 하나로 성장했습니다.

vLLM의 속도 특징:

  • 최첨단 서빙 처리량
  • PagedAttention을 이용한 효율적인 attention key/value 메모리 관리
  • 들어오는 요청의 연속적인 배치, 청크 사전 채우기, 접두사 캐싱
  • 부분 및 전체 CUDA/HIP 그래프를 통한 빠르고 유연한 모델 실행
  • 양자화: FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF, 압축 텐서, ModelOpt, TorchAO 등
  • FlashAttention, FlashInfer, TRTLLM-GEN, FlashMLA, Triton 등 최적화된 attention 커널
  • CUTLASS, TRTLLM-GEN, CuTeDSL을 이용한 다양한 정밀도의 최적화된 GEMM/MoE 커널
  • n-gram, 접미사, EAGLE, DFlash 등 추측적 디코딩
  • torch.compile을 이용한 자동 커널 생성 및 그래프 수준 변환
  • 분리된 사전 채우기, 디코드, 인코드

vLLM의 유연성과 사용 편의성:

  • 인기 있는 Hugging Face 모델과의 원활한 통합

🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.

🔗 유사한 프로젝트

이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.

vllm-project/vllm GitHub 원문 바로가기 →