Cuda
attentionblackwellcudaflash-attentiondjeday123 / fa-blackwell-fp8
NVIDIA Blackwell 소비자 GPU(sm_120a, 예: RTX PRO 6000)용 생산 등급 FlashAttention FP8 e4m3 순방향 커널. hd=128, sl=8192에서 647–652 TFLOPS. 멀티 커널 디스패처, Go 및 Python 바인딩이 있는 C 라이브러리
2
0
방금 전
이 프로젝트에 대해
djeday123 님의 fa-blackwell-fp8 프로젝트는 GitHub에서 2개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Cuda 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
Cuda 59%C 16%Python 11%Go 6%C++ 5%Makefile 3%
🇰🇷 한국어 번역 README
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
djeday123/fa-blackwell-fp8 GitHub 원문 바로가기 →