上线不是结束:监控、评估、优化与闭环
High Contrast
Dark Mode
Light Mode
Sepia
Forest
4 min read891 words

上线不是结束:监控、评估、优化与闭环

传统项目很容易把“上线”当成一个句号。AI 产品不行。上线只是从假设验证进入真实环境,很多真正的问题只会在真实使用中出现。

所以,PM 在上线后要做的不是庆祝,而是进入第二阶段的经营。

上线后要看什么

维度 关键指标
用户效果 任务完成率、满意度、转人工率
质量表现 正确率、误答率、拒答率
系统表现 延迟、成功率、异常率
经营表现 成本、人工节省、转化改善

一个最小监控闭环

graph LR A["真实用户使用"] --> B["日志与反馈回收"] B --> C["错误分类"] C --> D["知识/Prompt/流程优化"] D --> E["再次上线验证"]

AI 产品为什么更依赖反馈闭环

因为 AI 的错误不是同一种:

如果不分类,你只会得到一句“效果不好”,没有任何优化价值。

一个错误分类模板

error_buckets = {
"知识问题": ["知识过期", "知识缺漏"],
"检索问题": ["没召回", "召回不准"],
"生成问题": ["回答偏题", "格式错误"],
"流程问题": ["没转人工", "没记录日志"],
}
for bucket, samples in error_buckets.items():
print(bucket, samples)

上线后 2 周最该做的事

  1. 看高频错误,不急着扩范围
  2. 看人工接管点是否合理
  3. 看高价值场景是否真的改善指标
  4. 看成本和延迟有没有超预期

教学流程图:上线后的优化闭环

graph TD A["版本上线"] --> B["用户使用与日志积累"] B --> C["错误分类与样本整理"] C --> D["知识/Prompt/流程修正"] D --> E["复测与再上线"] E --> B

课堂案例:电商客服上线后为什么效果反而变差

案例背景

某电商客服 AI 上线后一周,使用量很高,但投诉量也上升。团队一开始以为是模型不够聪明。

教学拆解

复盘后发现真正问题是:

课堂结论

问题不一定出在模型,很多时候出在知识、流程和兜底机制。

练习题

  1. 为什么“效果差”不能直接等于“模型差”
  2. 上线后最应该先看哪三类数据
  3. 为什么错误分类比简单看总体准确率更重要

标准答案提示

常见误区

误区 表现 后果
上线即结束 没人持续盯指标 问题堆积
只看使用量 用户用了不等于有效 容易自我安慰
不做错误分类 全部都叫“模型不准” 无法精准优化

本章 checklist

本章小结

下一节02-AI产品监控仪表盘设计 — 从零搭建 AI 产品监控体系:指标选择、看板设计与告警阈值设定。