타일 커널스

TileLang으로 구축된 LLM 연산을 위한 최적화된 GPU 커널. TileLang은 파이썬으로 고성능 GPU 커널을 표현하기 위한 도메인 전용 언어로, 쉬운 마이그레이션, 애자일 개발, 자동 최적화를 특징으로 합니다.

이 프로젝트의 대부분의 커널은 컴퓨팅 집약도와 메모리 대역폭 측면에서 하드웨어 성능 한계에 근접합니다. 이 중 일부는 이미 내부 훈련과 추론 시나리오에서 사용된 바 있습니다. 하지만 이들은 모범 사례를 대표하지 않으며, 코드 품질과 문서 개선을 위해 적극적으로 노력하고 있습니다.

특징

Gating — 전문가 조합 경로에 대한 상위 k 전문가 선택 및 점수 매기기
MoE 라우팅 — 토큰-전문가 매핑, 융합 확장/감소 및 가중치 정규화
양자화 — 토큰별, 블록별, 채널별 FP8/FP4/E5M6 캐스팅과 융합된 SwiGLU+양자화 연산
전조 — 배치 전위 연산
Engram — 융합된 RMSNorm, 전진/후방 패스, 무게 구배 감소를 가진 Engram 게이팅 커널
Manifold HyperConnection — Sinkhorn 정규화 및 혼합 분할/적용을 포함한 하이퍼커네이션 커널
모델링 — 저수준 커널을 훈련 가능한 계층(엔그램 게이트, mHC 파이프라인)으로 합성하는 고수준 'torch.autograd.Function' 래퍼입니다

요구 사항

Python 3.10 이상
PyTorch 2.10 이상
타일랭 0.1.9 이상
NVIDIA SM90 또는 SM100 아키텍처 GPU
CUDA 툴킷 13.1 이상

설치

설치해

🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.

deepseek-ai / TileKernels

이 프로젝트에 대해

Language Breakdown

🇰🇷 한국어 번역 README

타일 커널스

특징

요구 사항

설치

설치해