上线不是结束:监控、评估、优化与闭环
传统项目很容易把“上线”当成一个句号。AI 产品不行。上线只是从假设验证进入真实环境,很多真正的问题只会在真实使用中出现。
所以,PM 在上线后要做的不是庆祝,而是进入第二阶段的经营。
上线后要看什么
| 维度 | 关键指标 |
|---|---|
| 用户效果 | 任务完成率、满意度、转人工率 |
| 质量表现 | 正确率、误答率、拒答率 |
| 系统表现 | 延迟、成功率、异常率 |
| 经营表现 | 成本、人工节省、转化改善 |
一个最小监控闭环
graph LR
A["真实用户使用"] --> B["日志与反馈回收"]
B --> C["错误分类"]
C --> D["知识/Prompt/流程优化"]
D --> E["再次上线验证"]
AI 产品为什么更依赖反馈闭环
因为 AI 的错误不是同一种:
- 知识缺失
- 检索失败
- Prompt 指令不清
- 模型理解偏差
- 上下文不完整
如果不分类,你只会得到一句“效果不好”,没有任何优化价值。
一个错误分类模板
error_buckets = {
"知识问题": ["知识过期", "知识缺漏"],
"检索问题": ["没召回", "召回不准"],
"生成问题": ["回答偏题", "格式错误"],
"流程问题": ["没转人工", "没记录日志"],
}
for bucket, samples in error_buckets.items():
print(bucket, samples)
上线后 2 周最该做的事
- 看高频错误,不急着扩范围
- 看人工接管点是否合理
- 看高价值场景是否真的改善指标
- 看成本和延迟有没有超预期
教学流程图:上线后的优化闭环
graph TD
A["版本上线"] --> B["用户使用与日志积累"]
B --> C["错误分类与样本整理"]
C --> D["知识/Prompt/流程修正"]
D --> E["复测与再上线"]
E --> B
课堂案例:电商客服上线后为什么效果反而变差
案例背景
某电商客服 AI 上线后一周,使用量很高,但投诉量也上升。团队一开始以为是模型不够聪明。
教学拆解
复盘后发现真正问题是:
- 商品库存知识更新滞后
- 特殊售后政策没有进入知识库
- AI 把不确定问题也直接回答了,没有及时转人工
课堂结论
问题不一定出在模型,很多时候出在知识、流程和兜底机制。
练习题
- 为什么“效果差”不能直接等于“模型差”
- 上线后最应该先看哪三类数据
- 为什么错误分类比简单看总体准确率更重要
标准答案提示
- 回答时注意知识源、流程设计、人工介入和监控机制
- 至少要覆盖用户结果、质量结果、系统结果
- 总体准确率会掩盖长尾错误,错误分类才帮助优化
常见误区
| 误区 | 表现 | 后果 |
|---|---|---|
| 上线即结束 | 没人持续盯指标 | 问题堆积 |
| 只看使用量 | 用户用了不等于有效 | 容易自我安慰 |
| 不做错误分类 | 全部都叫“模型不准” | 无法精准优化 |
本章 checklist
- 我是否定义了上线后必须看的指标
- 我是否建立了反馈入口与错误分类机制
- 我是否安排了固定节奏的复盘与优化
- 我是否准备了“问题不在模型本身”的排查路径
本章小结
- AI 产品的核心竞争力之一,在于迭代闭环质量
- 上线后最重要的工作,是看结果、拆问题、持续收敛
- 没有监控和复盘,AI 产品会越做越乱
下一节:02-AI产品监控仪表盘设计 — 从零搭建 AI 产品监控体系:指标选择、看板设计与告警阈值设定。