deepseek-ai / DeepSeek-V3
설명이 제공되지 않았습니다.
이 프로젝트에 대해
deepseek-ai 님의 DeepSeek-V3 프로젝트는 GitHub에서 103.0K개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
🇰🇷 한국어 번역 README
캐시 히트논문 링크👁️
목차
- 소개
- 모델 요약
- 모델 다운로드
- 평가 결과
- 채팅 웹사이트 및 API 플랫폼
- 로컬 실행 방법
- 라이선스
- 인용
- 연락처
1. 소개
우리는 총 671B 파라미터를 가진 강력한 Mixture-of-Experts(MoE) 언어 모델인 DeepSeek-V3를 소개합니다. 각 토큰에 대해 37B가 활성화됩니다. 효율적인 추론과 비용 효율적인 학습을 달성하기 위해, DeepSeek-V3는 DeepSeek-V2에서 철저히 검증된 멀티헤드 잠재 주의(Multi-head Latent Attention, MLA) 및 DeepSeekMoE 아키텍처를 채택합니다. 또한 DeepSeek-V3는 부하 균형을 위한 보조 손실 없는 전략을 개척하고, 더 강력한 성능을 위해 다중 토큰 예측 학습 목표를 설정합니다. 우리는 DeepSeek-V3를 14.8조 개의 다양하고 고품질 토큰으로 사전 학습한 후, 지도 학습(Supervised Fine-Tuning) 및 강화 학습(Reinforcement Learning) 단계를 거쳐 그 능력을 최대한 활용합니다. 종합적인 평가 결과, DeepSeek-V3는 다른 오픈소스 모델을 능가하며, 선도적인 폐쇄형 모델과 비교 가능한 성능을 달성합니다. 뛰어난 성능에도 불구하고, DeepSeek-V3는 전체 학습에 단 2.788M H800 GPU 시간이 필요합니다. 또한 학습 과정은 매우 안정적입니다. 전체 학습 과정 동안 회복 불가능한 손실 급등이나 롤백 없이 진행되었습니다.
2. 모델 요약
아키텍처: 혁신적인 부하 균형 전략 및 학습 목표
- DeepSeek-V2의 효율적인 아키텍처 위에, 우리는 pio
🚀 가벼운 미리보기 모드: 페이지 속도를 위해 핵심 도입부만 번역되었습니다. 전체 코드는 원문 GitHub에서 확인하세요!
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
deepseek-ai/DeepSeek-V3 GitHub 원문 바로가기 →