LaurenceLungo / GPT-from-Scratch
처음부터 GPT를 구현한 PyTorch
이 프로젝트에 대해
LaurenceLungo 님의 GPT-from-Scratch 프로젝트는 GitHub에서 0개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Jupyter Notebook 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
🇰🇷 한국어 번역 README
AI 실시간 번역GPT-처음부터 만들기
멀티 헤드 어텐션 (DALL.E 3으로 생성됨)
GPT 아키텍처를 처음부터 단계별로 유도하고 구현한 내용으로, 원래 GPT 논문: Generative Pre-Training으로 언어 이해 향상 (Radford et al., 2018)과 트랜스포머 모델: Attention is All You Need (Vaswani et al., 2017)을 기반으로 합니다. 주로 멀티 헤드 자기 어텐션, 트랜스포머, 인과 언어 모델링 및 비지도 사전학습에 대한 이해를 깊게 하기 위한 개인적인 연습이지만, 원칙부터 GPT 아키텍처를 유도하고자 하는 사람들에게도 가이드로 활용될 수 있습니다.
종속성
- PyTorch>=2.1.0
사용법
전체 유도 과정은 Jupyter 노트북 derive-gpt-from-scratch.ipynb에 있습니다.
유도 과정이 끝나면 셰익스피어 스타일의 연극(또는 의미 없는 글)을 쓸 수 있는 GPT 모델을 얻을 수 있습니다.
CPU에서 20000 스텝으로 학습된 샘플 출력:
감사
이 프로젝트는 다음 자료를 참고했습니다:
- Generative Pre-Training으로 언어 이해 향상 (Radford et al., 2018)
- Attention is All You Need (Vaswani et al., 2017)
- Andrej Karpathy의 GPT 가이드
라이선스
이 프로젝트는 MIT 라이선스하에 배포됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
🔗 유사한 프로젝트
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
LaurenceLungo/GPT-from-Scratch GitHub 원문 바로가기 →