TurboQuant+

시작 가이드 | 구성 권장 사항 | llama.cpp 포크 | Swift MLX 포크

🍎 Apple Silicon에서 가장 빠른 경로를 원하시나요? ekryski/mlx-swift-lm을 사용하세요 — 제가 적극적으로 협업한 Eric Kryski의 Swift MLX 구현입니다. 네이티브 Swift로, Python mlx-lm보다 약 2.5배 빠른 디코드 속도, turbo4v2(4-bit K + 2-bit V)를 포함한 완전한 TurboQuant+ 지원. M5 Max에서 Qwen3.5-35B-A3B MoE 4K 기준 144 토큰/초. 이 llama.cpp 저장소는 크로스 플랫폼 배포(CUDA, ROCm, CPU, Metal)를 위한 것입니다.

TurboQuant(ICLR 2026) 구현과 구현 작업, 실험, 기본 논문을 넘어선 후속 발견물. 로컬 LLM 추론을 위한 KV 캐시 압축.

주의

이 저장소는 llama.cpp를 대상으로 한 TurboQuant 관련 작업을 위한 실험적 통합 및 연구 워크스페이스입니다. 목표는 접근 방식을 비교하고, 재현 가능한 벤치마크 및 품질 데이터를 수집하며, 하드웨어와 백엔드 전반에 걸쳐 구현 세부 사항을 공유하기 쉽게 만드는 것입니다. 별도의 장기 포크나 브랜치를 통합하자는 제안이 아닙니다.

개별 요소가 유용하고 안정적인 경우, 의도는 llama.cpp의 일반적인 기여 프로세스에 따라 작은 검토 가능한 패치로 점진적으로 메인 저장소에 업스트림하는 것입니다.

이 브랜치의 내용

llama.cpp용 TurboQuant 관련 실험적 통합
모델, 컨텍스트, 하드웨어별 벤치마크 및 품질 검증
백엔드별 구현 작업 및 성능 실험
문서

🚀 가벼운 미리보기 모드: 페이지 속도를 위해 핵심 도입부만 AI로 번역되었습니다. 전체 코드는 원문 GitHub에서 확인하세요!

TheTom / turboquant_plus

이 프로젝트에 대해

Language Breakdown

📝 AI 한국어 핵심 요약

🇰🇷 한국어 번역 README

TurboQuant+

시작 가이드 | 구성 권장 사항 | llama.cpp 포크 | Swift MLX 포크

주의

이 브랜치의 내용