google / langextract
정확한 출처 근거와 인터랙티브 시각화를 통해 LLM을 사용하여 비정형 텍스트에서 구조화된 정보를 추출하는 파이썬 라이브러리.
이 프로젝트에 대해
google 님의 langextract 프로젝트는 GitHub에서 36.9K개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
🇰🇷 한국어 번역 README
AI 실시간 번역LangExtract
목차
- 소개
- 왜 LangExtract인가?
- 빠른 시작
- 설치
- 클라우드 모델을 위한 API 키 설정
- 사용자 정의 모델 제공자 추가
- OpenAI 모델 사용하기
- Ollama를 이용한 로컬 LLM 사용
- 더 많은 예제
- 로미오와 줄리엣 전체 텍스트 추출
- 약물 정보 추출
- 방사선 보고서 구조화: RadExtract
- 커뮤니티 제공자
- 기여
- 테스트
- 면책 조항
소개
LangExtract는 사용자가 정의한 지침에 따라 비정형 텍스트 문서에서 구조화된 정보를 추출하기 위해 LLM을 사용하는 Python 라이브러리입니다. 임상 기록이나 보고서와 같은 자료를 처리하며, 핵심 세부 정보를 식별하고 조직화하는 동시에 추출된 데이터가 원본 텍스트와 일치하도록 보장합니다.
왜 LangExtract인가?
- 정확한 소스 기반: 모든 추출을 원본 텍스트의 정확한 위치에 매핑하여 추적과 검증이 용이하도록 시각적 강조 기능을 제공합니다.
- 신뢰할 수 있는 구조화 출력: 몇 가지 예제를 기반으로 일관된 출력 스키마를 적용하며, Gemini와 같이 지원되는 모델에서 제어된 생성 방식을 활용하여 견고하고 구조화된 결과를 보장합니다.
- 대용량 문서에 최적화: 텍스트 청크 분할, 병렬 처리, 다중 패스 전략을 사용하여 대용량 문서에서 '바늘 속 건초' 문제를 극복하고 높은 회수를 달성합니다.
- 인터랙티브 시각화: 자체 포함형 인터랙티브 HTML 파일을 즉시 생성하여 시각화 및 검토를 할 수 있습니다.
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
🔗 유사한 프로젝트
su-kaka/gcli2api
将 GeminiCLI 和 Antigravity 转换为 OpenAI 、GEMINI 和 Claude API 接口
micz/ThunderAI
ThunderAI is a Thunderbird Addon that uses the capabilities of ChatGPT, Gemini, Claude or Ollama to enhance email management.
Coding-Meet/Gemini-AI-KMP-App
Gemini AI Kotlin Multiplatform project designed to target Android, iOS, Windows, macOS, Linux, and Web platforms.
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
google/langextract GitHub 원문 바로가기 →