트렌딩 목록으로
Python
blackwelldeepseekgpt-osskimi

lightseekorg / tokenspeed

TokenSpeed는 빛의 속도 LLM 추론 엔진입니다.

76
3
약 1개월 전
GitHub에서 보기

이 프로젝트에 대해

lightseekorg 님의 tokenspeed 프로젝트는 GitHub에서 76개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.

Language Breakdown

Python 90%C++ 9%Shell 1%CMake 0%Dockerfile 0%

🇰🇷 한국어 번역 README

캐시 히트

TokenSpeed는 에이전트 워크로드를 위해 설계된 빛의 속도 LLM 추론 엔진으로, TensorRT-LLM 수준의 성능과 vLLM 수준의 사용성을 갖추고 있습니다. 우리의 목표는 생산 에이전트 작업에서 가장 성능이 뛰어난 추론 엔진이 되는 것입니다.

핵심 구성 요소:

  • 모델링 계층: 정적 컴파일러를 생성하는 로컬 SPMD 설계 모듈-경계 배치 주석에서 얻은 집단 통신, 즉 사용자 병렬 논리를 손으로 작성하지 마세요.
  • 스케줄러: C++ 제어 평면과 Python 실행 평면. 요청 라이프사이클, KV 캐시 소유권, 오버랩 타이밍은 다음과 같이 인코딩됩니다. 컴파일 시점에 타입 시스템에 의해 안전한 KV 자원 재사용이 강제되는 유한 상태 기계입니다.
  • Kernels: 플러그 가능한 계층 커널 시스템으로, 이식 가능한 공개 API를 제공하고, 중앙집중식 등록부로, 가장 빠른 MLA 중 하나를 포함합니다 (다중 헤드 잠재적 주의) 블랙웰의 에이전트 작업 부담 구현.
  • Entrypoint: 저오버헤드 CPU 측 요청을 위한 SMG 통합 AsyncLLM 핸들링.

성과 비교

미리보기 상태

이 버전은 B200에서 Kimi K2.5를 재현하기 위한 미리보기입니다. B200의 TokenSpeed MLA 결과는 TokenSpeed 블로그에서 발췌합니다. 주요 PR은 다음과 같습니다. 아직 진행 중이며 통합되지 않았습니다.

현재 진행 중인 작업에는 다음이 포함됩니다:

  • 모델 커버리지: Qwen 3.6, DeepSeek V4, MiniMax M2.7.
  • 런타임 기능: PD, EPLB, KV 스토어, 맘바 캐시, VLM, 메트릭.
  • 플랫폼 최적화: 호퍼 최적화, MI350 최적화 및 관련 런타임 임프

🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.

🔗 유사한 프로젝트

이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.

lightseekorg/tokenspeed GitHub 원문 바로가기 →