트렌딩 목록으로
Python

deepseek-ai / DeepSeek-V3

설명이 제공되지 않았습니다.

103.0K
16.7K
약 2개월 전
GitHub에서 보기

이 프로젝트에 대해

deepseek-ai 님의 DeepSeek-V3 프로젝트는 GitHub에서 103.0K개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.

Language Breakdown

Python 100%

🇰🇷 한국어 번역 README

캐시 히트

논문 링크👁️

목차

  1. 소개
  2. 모델 요약
  3. 모델 다운로드
  4. 평가 결과
  5. 채팅 웹사이트 및 API 플랫폼
  6. 로컬 실행 방법
  7. 라이선스
  8. 인용
  9. 연락처

1. 소개

우리는 총 671B 파라미터를 가진 강력한 Mixture-of-Experts(MoE) 언어 모델인 DeepSeek-V3를 소개합니다. 각 토큰에 대해 37B가 활성화됩니다. 효율적인 추론과 비용 효율적인 학습을 달성하기 위해, DeepSeek-V3는 DeepSeek-V2에서 철저히 검증된 멀티헤드 잠재 주의(Multi-head Latent Attention, MLA) 및 DeepSeekMoE 아키텍처를 채택합니다. 또한 DeepSeek-V3는 부하 균형을 위한 보조 손실 없는 전략을 개척하고, 더 강력한 성능을 위해 다중 토큰 예측 학습 목표를 설정합니다. 우리는 DeepSeek-V3를 14.8조 개의 다양하고 고품질 토큰으로 사전 학습한 후, 지도 학습(Supervised Fine-Tuning) 및 강화 학습(Reinforcement Learning) 단계를 거쳐 그 능력을 최대한 활용합니다. 종합적인 평가 결과, DeepSeek-V3는 다른 오픈소스 모델을 능가하며, 선도적인 폐쇄형 모델과 비교 가능한 성능을 달성합니다. 뛰어난 성능에도 불구하고, DeepSeek-V3는 전체 학습에 단 2.788M H800 GPU 시간이 필요합니다. 또한 학습 과정은 매우 안정적입니다. 전체 학습 과정 동안 회복 불가능한 손실 급등이나 롤백 없이 진행되었습니다.

2. 모델 요약


아키텍처: 혁신적인 부하 균형 전략 및 학습 목표

  • DeepSeek-V2의 효율적인 아키텍처 위에, 우리는 pio

🚀 가벼운 미리보기 모드: 페이지 속도를 위해 핵심 도입부만 번역되었습니다. 전체 코드는 원문 GitHub에서 확인하세요!

이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.

deepseek-ai/DeepSeek-V3 GitHub 원문 바로가기 →