Python
deepseek-ai / TileKernels
타일랭으로 작성된 커널 라이브러리
1.3K
104
약 2개월 전
이 프로젝트에 대해
deepseek-ai 님의 TileKernels 프로젝트는 GitHub에서 1.3K개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
Python 100%
🇰🇷 한국어 번역 README
캐시 히트타일 커널스
TileLang으로 구축된 LLM 연산을 위한 최적화된 GPU 커널. TileLang은 파이썬으로 고성능 GPU 커널을 표현하기 위한 도메인 전용 언어로, 쉬운 마이그레이션, 애자일 개발, 자동 최적화를 특징으로 합니다.
이 프로젝트의 대부분의 커널은 컴퓨팅 집약도와 메모리 대역폭 측면에서 하드웨어 성능 한계에 근접합니다. 이 중 일부는 이미 내부 훈련과 추론 시나리오에서 사용된 바 있습니다. 하지만 이들은 모범 사례를 대표하지 않으며, 코드 품질과 문서 개선을 위해 적극적으로 노력하고 있습니다.
특징
- Gating — 전문가 조합 경로에 대한 상위 k 전문가 선택 및 점수 매기기
- MoE 라우팅 — 토큰-전문가 매핑, 융합 확장/감소 및 가중치 정규화
- 양자화 — 토큰별, 블록별, 채널별 FP8/FP4/E5M6 캐스팅과 융합된 SwiGLU+양자화 연산
- 전조 — 배치 전위 연산
- Engram — 융합된 RMSNorm, 전진/후방 패스, 무게 구배 감소를 가진 Engram 게이팅 커널
- Manifold HyperConnection — Sinkhorn 정규화 및 혼합 분할/적용을 포함한 하이퍼커네이션 커널
- 모델링 — 저수준 커널을 훈련 가능한 계층(엔그램 게이트, mHC 파이프라인)으로 합성하는 고수준 'torch.autograd.Function' 래퍼입니다
요구 사항
- Python 3.10 이상
- PyTorch 2.10 이상
- 타일랭 0.1.9 이상
- NVIDIA SM90 또는 SM100 아키텍처 GPU
- CUDA 툴킷 13.1 이상
설치
설치해
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
deepseek-ai/TileKernels GitHub 원문 바로가기 →