微调第一问：什么时候该调，什么时候做 RAG

聊微调之前，最容易犯的错是：先问“怎么调”，而不是先问“该不该调”。
这篇先把决策边界讲清楚，核心只回答三件事：微调到底在解决什么问题、它和 RAG/Prompt 的分工是什么、以及在项目里怎么做一个可执行的选型判断。

微调到底在改什么？

微调主要改“模型行为分布”，不是直接补最新知识。

它擅长让模型在特定任务上更稳定：输出风格、格式约束、术语习惯、拒答边界；
它不擅长单独解决“知识时效性”问题（昨天更新的条款，今天就要生效）。

所以你可以先记一条：

行为一致性问题优先想微调；知识新鲜度问题优先想检索。

为什么很多场景更适合先做 RAG？

RAG 的核心价值是“把答案建立在可更新外部知识上”：

文档变更后可快速生效，不用每次重训；
回答可附引用，审计更友好；
成本通常低于持续训练和多版本模型维护。

在企业场景里，如果问题是：

“最新制度是什么？”
“这个条款本周有没有更新？”

这类都更像 检索问题，不是微调问题。

什么时候微调是顺理成章的？

可以优先考虑微调的典型信号：

输出格式强约束：固定 JSON schema、严格字段语义；
领域表达一致性：术语、口吻、模板长期稳定；
复杂任务习惯化：同类任务高频重复，靠 Prompt 难稳定；
基座模型理解不足：即便有检索，推理与归纳方式仍不达标。

换句话说：你想让模型“长期像同一个团队成员那样说话和做事”时，微调价值会变大。

一个常见误区：把微调当知识库

把大量事实知识硬塞进权重，通常会遇到几件事：

更新慢：知识一变就要重新训练；
可解释性差：很难追溯某个结论来自哪条原始证据；
维护重：版本管理、回滚、评估都更复杂。

工程上更稳的组合一般是：

RAG 负责“知道什么”；
微调负责“怎么说、怎么做”。

一个够用的决策树（可直接套用）

先问四个问题：

你的问题是不是强依赖最新外部知识？
你的输出是不是有稳定格式和风格要求？
仅靠 Prompt + 检索是否已经能达到目标？
你能否承担数据标注、训练、评估和版本维护成本？

这 4 个问题里，职责不一样：

Q1/Q2 是“路线选择题”（选 RAG、微调还是组合）；
Q3/Q4 是“开工门槛题”（现在要不要上微调）。

可以按两步走：

第一步：先看要不要“现在就做微调”（Q3/Q4）

Q3=是（Prompt + 检索已达标）：先不做微调，优先把评测和稳定性做扎实；
Q4=否（当前扛不起训练与维护成本）：先不做微调，继续走 Prompt/RAG 路线；
只有当 Q3=否且 Q4=是，才进入第二步做技术路线选择。

第二步：在可做微调的前提下，用 Q1/Q2 选路线

Q1=是，Q2=否：优先 RAG；
Q1=是，Q2=是：RAG + 轻量微调；
Q1=否，Q2=是：优先微调；
Q1=否，Q2=否：先别微调，先做 Prompt 与流程优化。

小结：先判定问题类型，再选技术手段

微调擅长的是行为与输出一致性；
RAG擅长的是知识更新与可追溯；
大多数真实项目里，最终不是二选一，而是分工组合。

把这条判断线先立住，后面再谈 SFT、LoRA、上线评测，才不会陷入“为了微调而微调”。