AI 微调成本核算:一张表算清训练与维护投入

很多团队讨论微调时,容易卡在一句话:
“感觉能做,但不知道值不值。”
这篇就做一件事:把微调成本拆成可计算项,给你一个能直接套用的核算框架,避免只凭感觉拍板。

微调成本至少包含五块:

  • 算力成本:训练、评测、推理额外资源;
  • 数据成本:采集、清洗、标注、质检;
  • 人力成本:算法、工程、产品/运营协同;
  • 上线运维成本:灰度、监控、回滚、版本管理;
  • 机会成本:同样资源如果做 Prompt/RAG 优化,收益可能更快。

所以你要问的不是:

  • “训练单次花费多少?”

而是:

  • “全生命周期投入和收益是否匹配?”

可以先用这个公式:

月度总成本 = 一次性摊销成本 + 月度持续成本

其中:

  • 一次性摊销成本:首轮数据建设 + 首轮训练验证 + 首次上线改造;
  • 月度持续成本:增量数据回流、周期训练、线上监控、故障与回滚演练。

再展开成:

C_total = (C_data_init + C_train_init + C_release_init)/N + C_data_month + C_train_month + C_ops_month + C_people_month

  • N:一次性成本按多少期摊销(常用 6 或 12 个月)。

可粗估为:

C_train = GPU单价(元/小时) × GPU数量 × 训练时长(小时) × 训练轮次

你还要加两个常被忽略的系数:

  • 试错系数:首轮通常不是一次成功,建议乘 1.5~3
  • 排队与空转系数:资源等待、失败重跑带来的额外时长。
  • 离线评测、回归集回放也占 GPU/CPU;
  • 若包含长上下文或多模型对比,成本会明显放大。

即便是 LoRA,也可能带来:

  • 模型加载与切换开销;
  • 更复杂编排导致 token 或调用次数上升。

微调数据成本常见结构:

  • 数据收集与脱敏;
  • 标注与复核;
  • 去重、清洗、标签一致性检查;
  • badcase 归因与再标注。

可以用:

C_data = 样本数 × 单样本处理单价

单样本处理单价不要只算“标注一分钟多少钱”,还要加:

  • 质检返工;
  • 标注规范维护;
  • 多轮迭代中旧样本重审。

微调不是算法单兵任务,至少涉及:

  • 模型/算法:训练方案、评测设计;
  • 平台/后端:数据管道、任务调度、模型服务;
  • 应用工程:灰度策略、回滚开关、埋点;
  • 业务方:验收标准、badcase 标注协作。

可以用一个简单口径:

C_people_month = Σ(角色月人天 × 人天单价)

这块往往是总成本的大头,不能漏算。

持续成本通常来自:

  • 周期回训(例如双周/月度);
  • 监控告警与故障处理;
  • 版本管理(模型、数据、Prompt 一致性);
  • 合规审计与权限治理。

如果你的场景有强监管或高风险输出,这部分可能不低于训练成本。

你可以先用这个模板(示意):

  • 数据建设
    • 样本 20,000 条,单条全流程 3 元 -> 60,000 元
  • 首轮训练与评测
    • GPU 8 卡,20 元/卡小时,40 小时,试错系数 2 -> 12,800 元
  • 上线改造
    • 工程与平台 25 人天,2,000 元/人天 -> 50,000 元
  • 月度持续
    • 回流标注 8,000 元 + 周期训练 6,000 元 + 运维与监控 10,000 元 -> 24,000 元/月

如果一次性成本按 12 个月摊销:

  • 月摊销约 (60,000 + 12,800 + 50,000)/12 = 10,233 元/月
  • 月总成本约 10,233 + 24,000 = 34,233 元/月

这个数字不一定精准,但足够支持“做/不做”的业务决策。

建议用一个最小 ROI 判断:

ROI = (微调带来的月度收益 - 月度总成本) / 月度总成本

收益侧可量化为:

  • 人工审核工时下降;
  • 转化率或任务成功率提升;
  • 客诉率/返工率下降;
  • SLA 提升带来的业务损失减少。

如果收益长期不覆盖成本,就要回到上一层:
是不是该优先做 RAG、Prompt、流程治理,而不是继续加训练预算。

  • 不要只算训练账,要算全生命周期;
  • 成本要和替代方案放在同一张表比较;
  • 每次迭代都更新核算,防止“技术惯性”驱动投入。

当你能把微调投入和业务收益放进同一个公式里,团队讨论就会从“感觉”变成“决策”。