项目级 RAG 与大仓库优化：索引、召回与错误控制

这一篇专门聊“项目级 RAG”：在一个大仓库上做跨文件问答和导航时，索引怎么建、怎么召回，才能既有用又不乱说。

什么是项目级 RAG，在 IDE 里要解决什么？

和传统“全网搜索 + LLM 问答”的 RAG 不同，项目级 RAG 只关心一个或少数几个代码仓库：

本质上，项目级 RAG 是在 IDE 的语义层面做一个“项目导航 + 问答服务”，但必须：

一个实用的项目级 RAG 通常不只靠向量索引，而是三类索引结合：

符号索引
- LSP/编译器生成的符号表：函数/类/方法/变量/类型定义；
- 调用关系、继承/实现关系；
- 适合做“精确跳转”：找定义、找引用、找实现。
结构索引
- 基于 AST 的切块：按函数/类/模块为单位；
- 存储：文件路径、所在类/模块、导入/导出信息、依赖列表；
- 适合作为构建向量索引的基础单元。
向量索引（Embedding Index）
- 对每个“结构化切块”（例如函数体+注释）计算 embedding；
- 支持按语义相似度召回“长得像”的代码片段；
- 用于回答更开放的问题（例如“有没有类似的缓存实现？”）。

三者组合可以简单理解为：

在构建向量索引之前，必须先决定“切多大的一块”和“附带哪些元数据”：

这些信息后面会用于：

在中小项目里，全量索引一次也许还可以接受，但在大仓库（几万文件）场景下，需要更多工程手段：

分层索引
- 第一层：按 module/包/服务维度建粗粒度索引；
- 第二层：在选中的 module 里按文件和函数切块建细粒度索引；
- 查询时先定位模块，再在对应模块里做精细向量检索。
增量更新
- 利用 git diff 或 IDE 文件事件，只对变化的文件重建切块和向量；
- 周期性做一次“全局健康检查”，清理已经删除的条目。
异步加载
- IDE 打开项目时，不必等整个索引建完才可用；
- 先对“当前模块 + 最近编辑模块”优先建索引；
- 其余部分在后台慢慢补齐，状态在 UI 中可见（例如“索引构建中 60%”）。

这些优化既是“性能工程”，也是“用户体验工程”：
能让项目级 RAG 在大仓库上可用，而不是只在 demo 仓库里好看。

“RAG 如何避免错误召回？”是一个非常实际的问题：
错误召回不仅浪费 Token，更会让模型在错误前提下继续“合理发挥”。

一些减轻错误召回的策略包括：

多阶段检索
- 先用关键词/符号约束一个候选集（例如限定在某模块/语言）；
- 再在候选集上做向量相似度排序，而不是在全仓库乱搜。
混合打分
- 结合多种信号：embedding 相似度、同一模块/文件的加分、最近修改时间权重等；
- 对“语义有点像但模块完全不对”的片段降权或丢弃。
召回数量与类型的控制
- 严格限制 Top-K（例如 5～10 个），而不是一口气塞几十个；
- 对不同类型（代码/文档/配置）设定配额，比如“最多 2 个文档片段”。
让模型知道“参考了什么”
- 在 prompt 中为每个片段加上 File/Function 标头，让模型可以引用而不是编造；
- 在回答中暴露“这次参考了哪些文件”，方便用户肉眼判断。

最终目标不是“绝对不出错”，而是：

项目级 RAG 也是 Token 大户之一，因此和 Token 策略必须联动：

换句话说，先问清“真的需要全仓库视角吗？”，再决定要不要动用 RAG。

站在 IDE 工程师视角，项目级 RAG 的定位可以是：

那几个问题的简短回答可以概括为：

5️⃣ RAG 如何避免错误召回？
- 用多阶段检索 + 混合打分 + 严格的 Top-K 控制，并在回答中暴露引用来源。
1️⃣ 如何设计一个企业级 AI IDE？（与其它篇一起看）
- 把项目级 RAG 当成模型和 IDE 之间的“中间层存储/记忆服务”，而不是直接塞到插件里。