Python
yaojingang / geo-citation-lab
AI 검색 엔진이 인용문을 선택하고 사용하는 방식을 연구하기 위한 데이터셋 및 분석 파이프라인.
83
17
약 2개월 전
이 프로젝트에 대해
yaojingang 님의 geo-citation-lab 프로젝트는 GitHub에서 83개의 별을 받으며 많은 개발자들의 주목을 받고 있습니다. 특히 Python 환경에서 유용하게 활용될 수 있으며, 최근 오픈소스 커뮤니티에서 활발한 기여와 토론이 이루어지고 있는 트렌딩 레포지토리입니다.
Language Breakdown
Python 69%HTML 31%
🇰🇷 한국어 번역 README
캐시 히트해외 지질 연구
一套面向 'ChatGPT', 'Google AI Overview / Gemini', 'Perplexity' 的 GEO 연구자료库,用来回答三个实际问题:
- 뭐样的问题最容易触发 AI 去联网搜索?
- AI 搜索最爱选什么样的출처网站?
- 什么样的页面会被 AI 深度흡수,而不只是"挂名引用"?
这份仓库不是泛泛而谈的 GEO 观点集,而是一份基于真实问答、真实引用、真实页面抓取结果做出来的研究快照。
여기서 시작해
作者与贡献:
- 张凯:提出연구想法与需求,定义分析目标与相关规则;微信号:'seermartech'
- 贺欣悦:负责源代码实现、数据采集与清洗、初稿撰写;清华大学本科,清华大学与华盛顿大学 'GIX' 项目的双学位硕士生;GitHub 주页:shirley-goose
- 姚金刚:负责开源整理、二次报告解读与应用场景梳理;라이브 사이트:
仓库首页建议先从这五个入口进入:
| 入口 | 文件 | 适合谁 |
|---|---|---|
| 장판 HTML 报告 | 04-repet/final_report.html | 想快速浏览完整内容、适合本地或浏览器阅读 |
| 장판 Markdown 报告 | 04-repet/final_report.md | 想在 GitHub 里 直接按章节阅读正文 |
| PDF 版报告 | 04-반복/final_report.pdf | 想下载、分享或打印 |
| 3 分钟摘要 | QUICK_REPORT.md | 想先快速判断这份研究讲了什么,再决定是否进入长版 |
| arXiv 论文 | 초록 / PDF 논문 | 想直接查看论文原文、引用学术版本或下载论文 PDF |
스냅샷
| 项目 | 数字 |
|---|---|
| 설계 프롬프트 总수 | 602 |
| A/B/C/D 四层实验 | 432 / 60 / 60 / 50 |
| 平台数量 | 3 |
| 搜索层原始结果行数(清洗后) | 21,181 |
| 搜索层有效引用行数 | 21,143 |
| 引用影响力特征行数 | 23,745 |
| 特征维度 | 72 |
| 成功抓取的引用页面 | 18,151 |
| 抓取成功率 | 76.44% |
为什么这份仓库值得看
- 它同时研究了“触发搜索”和“引用吸收”两条链路,而不只是统计谁被引用了多少次。
- 它把 GEO 拆成了可验证변수:Prompt 설계, 站点权威度、页面结构、语义对齐、内容类型、平台差异。
- 它保留了原始 Prompt, 原始 CSV、처리脚本、完整报告、可视化 PDF,可以直接复查每个结论的来源.
研究逻辑
这套实验的核心设计分成四层:
- 'A 层':432 条主实验 Prompt,系统控制任务类型、触发强度、时效性、行业与子任务。
- 'B 层':60 条风格对照 Prompt,比较自然问法、요구출처, 专家角色三种包装方式。
- 'C 층':60 条中英双语对照 Prompt,观察不同语言环境下的搜索强度与信源偏好。
- 'D 层':50 条极端与真实场景 Prompt,覆盖高风险、模糊、多约束和长决策型问题。
平台差异,先看结论
| 平台 | 搜索触发率 | 평균 每条 Prompt 引用数 | 单条引用平均影响力 | | --- | ---:
🌐 본 텍스트는 빠른 이해를 돕기 위한 요약 번역본입니다. 정확한 기술 정보 및 전체 코드는 GitHub 원문에서 확인하실 수 있습니다.
이 정보는 AI가 자동으로 분석한 결과입니다. 정확한 내용은 원문을 확인하세요.
yaojingang/geo-citation-lab GitHub 원문 바로가기 →