微调第一问:什么时候该调,什么时候做 RAG
聊微调之前,最容易犯的错是:先问“怎么调”,而不是先问“该不该调”。
这篇先把决策边界讲清楚,核心只回答三件事:微调到底在解决什么问题、它和 RAG/Prompt 的分工是什么、以及在项目里怎么做一个可执行的选型判断。
微调到底在改什么?
微调主要改“模型行为分布”,不是直接补最新知识。
- 它擅长让模型在特定任务上更稳定:输出风格、格式约束、术语习惯、拒答边界;
- 它不擅长单独解决“知识时效性”问题(昨天更新的条款,今天就要生效)。
所以你可以先记一条:
- 行为一致性问题优先想微调;知识新鲜度问题优先想检索。
为什么很多场景更适合先做 RAG?
RAG 的核心价值是“把答案建立在可更新外部知识上”:
- 文档变更后可快速生效,不用每次重训;
- 回答可附引用,审计更友好;
- 成本通常低于持续训练和多版本模型维护。
在企业场景里,如果问题是:
- “最新制度是什么?”
- “这个条款本周有没有更新?”
这类都更像 检索问题,不是微调问题。
什么时候微调是顺理成章的?
可以优先考虑微调的典型信号:
- 输出格式强约束:固定 JSON schema、严格字段语义;
- 领域表达一致性:术语、口吻、模板长期稳定;
- 复杂任务习惯化:同类任务高频重复,靠 Prompt 难稳定;
- 基座模型理解不足:即便有检索,推理与归纳方式仍不达标。
换句话说:你想让模型“长期像同一个团队成员那样说话和做事”时,微调价值会变大。
一个常见误区:把微调当知识库
把大量事实知识硬塞进权重,通常会遇到几件事:
- 更新慢:知识一变就要重新训练;
- 可解释性差:很难追溯某个结论来自哪条原始证据;
- 维护重:版本管理、回滚、评估都更复杂。
工程上更稳的组合一般是:
- RAG 负责“知道什么”;
- 微调负责“怎么说、怎么做”。
一个够用的决策树(可直接套用)
先问四个问题:
- 你的问题是不是强依赖最新外部知识?
- 你的输出是不是有稳定格式和风格要求?
- 仅靠 Prompt + 检索是否已经能达到目标?
- 你能否承担数据标注、训练、评估和版本维护成本?
这 4 个问题里,职责不一样:
- Q1/Q2 是“路线选择题”(选 RAG、微调还是组合);
- Q3/Q4 是“开工门槛题”(现在要不要上微调)。
可以按两步走:
第一步:先看要不要“现在就做微调”(Q3/Q4)
- Q3=是(Prompt + 检索已达标):先不做微调,优先把评测和稳定性做扎实;
- Q4=否(当前扛不起训练与维护成本):先不做微调,继续走 Prompt/RAG 路线;
- 只有当 Q3=否 且 Q4=是,才进入第二步做技术路线选择。
第二步:在可做微调的前提下,用 Q1/Q2 选路线
- Q1=是,Q2=否:优先 RAG;
- Q1=是,Q2=是:RAG + 轻量微调;
- Q1=否,Q2=是:优先微调;
- Q1=否,Q2=否:先别微调,先做 Prompt 与流程优化。
小结:先判定问题类型,再选技术手段
- 微调擅长的是行为与输出一致性;
- RAG擅长的是知识更新与可追溯;
- 大多数真实项目里,最终不是二选一,而是分工组合。
把这条判断线先立住,后面再谈 SFT、LoRA、上线评测,才不会陷入“为了微调而微调”。