chiefautism / privacy-parser
OpenAI 개인정보 보호 필터의 역순: 동일한 1.5B 모델, 마스킹 대신 구조화된 범위로 PII를 반환합니다.
이 프로젝트에 대해
chiefautism 님의 privacy-parser 프로젝트는 GitHub에서 356개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
🇰🇷 한국어 번역 README
캐시 히트OpenAI 프라이버시 파서
OpenAI는 프라이버시 필터를 출시했습니다 — 텍스트 내에서 PII를 숨기는 모델. 수비자들은 데이터가 유출되지 않도록 이 기능을 사용합니다.
하지만 모든 방어에는 두 번째 면이 있습니다. 공격자들도 개인 정보 정보를 필요로 합니다. 로그에서, 덤프, 버려진 S3 버킷, 도난당한 받은 편지함. 같은 임무: 모든 것을 찾아야 합니다 텍스트 더미 속에 개인적인 것들.
프라이버시 필터 마스크. 프라이버시 파서 추출문.
같은 모델, 같은 라벨 분류, 같은 무게. '너' 대신 구조화된 스팬 — 무엇을, 어디서, 어떤 유형을 구분하세요.
방어 측: 데이터가 유출되기 전에 감사하세요. 모욕: 그 후에 다른 사람의 글을 해석하는 것.
도구는 자신이 어느 편인지 모릅니다. 그냥 좋은 파서일 뿐이에요.
설치
첫 번째 실행은 opf 1.5B 체크포인트(3 GB)를 '/.opf/privacy_filter/'로 다운로드합니다.
사용
CLI
세 개의 백엔드
| 백엔드 | 가중치 | 속도 | F1 |
|---|---|---|---|
| 'PIIParser' | 없음 | μs | 1.000 |
| '모델PIIParser' | 1.5B | 500ms CPU | 0.733 |
| '하이브리드PIIParser' | 1.5B | 600ms CPU | 0.929 |
하이브리드 = 모델 + span-merge + regex 백스톱. 이 작품을 출품하세요.
레이블
OPF V2 분류학 — 8개 범주:
'private_person' · 'private_email' · 'private_phone' · 'private_address' · 'private_url' · 'private_date' · 'account_number' · '비밀'
건축
벤치마크
면허증
아파치-2.0.
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
chiefautism/privacy-parser GitHub 원문 바로가기 →