4 min read891 words

上线不是结束：监控、评估、优化与闭环

传统项目很容易把“上线”当成一个句号。AI 产品不行。上线只是从假设验证进入真实环境，很多真正的问题只会在真实使用中出现。

所以，PM 在上线后要做的不是庆祝，而是进入第二阶段的经营。

上线后要看什么

维度	关键指标
用户效果	任务完成率、满意度、转人工率
质量表现	正确率、误答率、拒答率
系统表现	延迟、成功率、异常率
经营表现	成本、人工节省、转化改善

一个最小监控闭环

graph LR A["真实用户使用"] --> B["日志与反馈回收"] B --> C["错误分类"] C --> D["知识/Prompt/流程优化"] D --> E["再次上线验证"]

AI 产品为什么更依赖反馈闭环

因为 AI 的错误不是同一种：

知识缺失
检索失败
Prompt 指令不清
模型理解偏差
上下文不完整

如果不分类，你只会得到一句“效果不好”，没有任何优化价值。

一个错误分类模板

error_buckets = {
"知识问题": ["知识过期", "知识缺漏"],
"检索问题": ["没召回", "召回不准"],
"生成问题": ["回答偏题", "格式错误"],
"流程问题": ["没转人工", "没记录日志"],
}
for bucket, samples in error_buckets.items():
print(bucket, samples)

上线后 2 周最该做的事

看高频错误，不急着扩范围
看人工接管点是否合理
看高价值场景是否真的改善指标
看成本和延迟有没有超预期

教学流程图：上线后的优化闭环

graph TD A["版本上线"] --> B["用户使用与日志积累"] B --> C["错误分类与样本整理"] C --> D["知识/Prompt/流程修正"] D --> E["复测与再上线"] E --> B

课堂案例：电商客服上线后为什么效果反而变差

案例背景

某电商客服 AI 上线后一周，使用量很高，但投诉量也上升。团队一开始以为是模型不够聪明。

教学拆解

复盘后发现真正问题是：

商品库存知识更新滞后
特殊售后政策没有进入知识库
AI 把不确定问题也直接回答了，没有及时转人工

课堂结论

问题不一定出在模型，很多时候出在知识、流程和兜底机制。

练习题

为什么“效果差”不能直接等于“模型差”
上线后最应该先看哪三类数据
为什么错误分类比简单看总体准确率更重要

标准答案提示

回答时注意知识源、流程设计、人工介入和监控机制
至少要覆盖用户结果、质量结果、系统结果
总体准确率会掩盖长尾错误，错误分类才帮助优化

常见误区

误区	表现	后果
上线即结束	没人持续盯指标	问题堆积
只看使用量	用户用了不等于有效	容易自我安慰
不做错误分类	全部都叫“模型不准”	无法精准优化

本章 checklist

我是否定义了上线后必须看的指标
我是否建立了反馈入口与错误分类机制
我是否安排了固定节奏的复盘与优化
我是否准备了“问题不在模型本身”的排查路径

本章小结

AI 产品的核心竞争力之一，在于迭代闭环质量
上线后最重要的工作，是看结果、拆问题、持续收敛
没有监控和复盘，AI 产品会越做越乱

下一节：02-AI产品监控仪表盘设计 — 从零搭建 AI 产品监控体系：指标选择、看板设计与告警阈值设定。