3 min read678 words

灰度发布与分阶段验证

把 AI 功能一次性全量发布，是对用户不负责任，也是对团队不负责任。灰度发布的价值不在于"控制风险"这个说法，而在于强迫你在每个阶段都明确"我要验证什么"。

AI 功能分阶段发布路径

graph LR A[内部测试\n研发+PM\n1-2周] --> B[Alpha\n内部员工\n5-10%\n1周] B --> C[Beta 小流量\n真实用户\n5-10%\n1-2周] C --> D[扩大灰度\n20-50%\n1-2周] D --> E[全量发布\n100%] A --> A1{通过？} B --> B1{通过？} C --> C1{通过？} D --> D1{通过？} A1 -- 否 --> F1[修复后重测] B1 -- 否 --> F2[回滚或修复] C1 -- 否 --> F3[回滚并分析] D1 -- 否 --> F4[回滚并分析] A1 -- 是 --> B B1 -- 是 --> C C1 -- 是 --> D D1 -- 是 --> E style E fill:#e8f5e9,stroke:#2e7d32 style F1 fill:#fff9c4,stroke:#f9a825 style F2 fill:#ffebee,stroke:#c62828 style F3 fill:#ffebee,stroke:#c62828 style F4 fill:#ffebee,stroke:#c62828

四个阶段的观测重点

阶段	流量比例	核心观测指标	Go 标准	回滚触发条件
内部测试	研发/PM	功能正确性、边界 case	核心流程 100% 通过	发现 P0 Bug
Alpha	内部员工 5-10%	AI 准确率、延迟、崩溃率	准确率达基准，无 P0 问题	崩溃率 > 1% 或严重错误
Beta	真实用户 5-10%	满意度、完成率、投诉率	核心指标达预期 80%	投诉率 > 基准 150%
扩大灰度	20-50%	全部核心指标、成本	全部指标稳定	任一指标劣化 > 10%

Go/No-Go 决策框架

灰度进入下一阶段前，PM 必须主持一次 Go/No-Go 会议，逐项确认：

必须回答的三个问题： 1. 上一阶段的验证目标是否达成？（数据说话，不是感觉） 2. 是否发现了任何需要修复才能继续的问题？ 3. 下一阶段的成功标准是什么，谁来判断？

Python 示例：灰度发布计划生成器

"""
灰度发布计划生成器
PM 视角：根据功能特征生成分阶段发布计划，含观测指标和回滚触发条件
"""
from dataclasses import dataclass, field
from typing import List, Dict, Optional
from enum import Enum
class RolloutStage(Enum):
INTERNAL = "内部测试"
ALPHA = "Alpha（内部员工）"
BETA = "Beta（小流量真实用户）"
EXPANDED = "扩大灰度"
FULL = "全量发布"
class RiskLevel(Enum):
LOW = "低风险"
MEDIUM = "中风险"
HIGH = "高风险"
@dataclass
class FeatureRiskProfile:
"""功能风险特征"""
feature_name: str
is_ai_generated_content: bool    # 是否涉及 AI 生成内容直接展示
affects_transactions: bool        # 是否影响交易/资金
has_irreversible_actions: bool    # 是否有不可逆操作
user_facing: bool                 # 是否直接面向用户
daily_active_users: int           # 涉及 DAU 量级
has_fallback: bool                # 是否有降级方案
@dataclass
class StageConfig:
"""单阶段配置"""
stage: RolloutStage
traffic_percentage: int           # 流量比例
duration_days: int                # 持续天数
observation_metrics: List[str]
go_criteria: List[str]
no_go_triggers: List[str]
actions_on_no_go: List[str]
@dataclass
class RolloutPlan:
"""完整灰度发布计划"""
feature_name: str
risk_level: RiskLevel
stages: List[StageConfig]
rollback_procedure: List[str]
stakeholder_notification: Dict[str, str]  # 角色 -> 通知时机
def assess_risk(profile: FeatureRiskProfile) -> RiskLevel:
"""评估功能风险等级"""
risk_score = 0
if profile.affects_transactions:
risk_score += 3
if profile.has_irreversible_actions:
risk_score += 3
if profile.is_ai_generated_content:
risk_score += 2
if profile.daily_active_users > 100000:
risk_score += 2
if not profile.has_fallback:
risk_score += 2
if risk_score >= 6:
return RiskLevel.HIGH
elif risk_score >= 3:
return RiskLevel.MEDIUM
return RiskLevel.LOW
def build_stage_configs(profile: FeatureRiskProfile,
risk: RiskLevel) -> List[StageConfig]:
"""根据风险等级构建阶段配置"""
base_metrics = [
"功能可用率（目标 > 99.5%）",
"平均响应时间（基准 ±20% 以内）",
"错误率（< 0.5%）",
]
ai_metrics = [
"AI 输出质量评分（人工抽样，目标 > 4/5）",
"用户负向反馈率（< 5%）",
] if profile.is_ai_generated_content else []
transaction_metrics = [
"交易成功率（≥ 基准 -0.1%）",
"异常交易告警数（零容忍）",
] if profile.affects_transactions else []
# 根据风险等级调整持续时间
time_multiplier = {"LOW": 0.7, "MEDIUM": 1.0, "HIGH": 1.5}[risk.name]
stages = [
StageConfig(
stage=RolloutStage.INTERNAL,
traffic_percentage=0,
duration_days=int(7 * time_multiplier),
observation_metrics=["功能正确性", "边界 Case 测试", "性能压测"],
go_criteria=["所有核心流程测试通过", "无 P0/P1 Bug 未解决"],
no_go_triggers=["发现 P0 Bug", "核心流程失败率 > 5%"],
actions_on_no_go=["停止测试", "修复后重新开始内测"],
),
StageConfig(
stage=RolloutStage.ALPHA,
traffic_percentage=5,
duration_days=int(5 * time_multiplier),
observation_metrics=base_metrics + ai_metrics,
go_criteria=[
"功能可用率 > 99%",
"无 P0 问题",
"AI 质量评分（如有）> 3.5/5",
],
no_go_triggers=[
"崩溃率 > 0.5%",
"出现数据安全问题",
"严重内容安全问题",
],
actions_on_no_go=["立即回滚到上一版本", "组织故障复盘"],
),
StageConfig(
stage=RolloutStage.BETA,
traffic_percentage=10,
duration_days=int(7 * time_multiplier),
observation_metrics=base_metrics + ai_metrics + transaction_metrics + [
"用户满意度 CSAT（目标 ≥ 基准）",
"核心任务完成率（目标 ≥ 基准 -3%）",
],
go_criteria=[
"CSAT ≥ 基准 -5%",
"核心任务完成率 ≥ 基准 -3%",
"投诉率 < 基准 150%",
],
no_go_triggers=[
"CSAT 下降超过 10%",
"投诉率超过基准 200%",
"任意交易指标异常（如有）",
],
actions_on_no_go=["回滚并分析用户反馈", "判断是修复还是重新设计"],
),
StageConfig(
stage=RolloutStage.EXPANDED,
traffic_percentage=30 if risk == RiskLevel.HIGH else 50,
duration_days=int(7 * time_multiplier),
observation_metrics=base_metrics + ai_metrics + transaction_metrics + [
"全部核心业务指标",
"AI 调用成本趋势",
"客服升级率变化",
],
go_criteria=[
"所有核心指标稳定（波动 < 5%）",
"成本在预算范围内",
"无新增 P0/P1 问题",
],
no_go_triggers=[
"任一核心指标劣化 > 10%",
"成本超出预算 30%",
"出现新的系统性问题",
],
actions_on_no_go=["回滚或降至上一阶段流量", "召集专项分析会"],
),
StageConfig(
stage=RolloutStage.FULL,
traffic_percentage=100,
duration_days=14,  # 全量后观察期
observation_metrics=["全部监控指标进入正常运营监控"],
go_criteria=["扩大灰度阶段所有指标已稳定"],
no_go_triggers=["任何全量后指标异常"],
actions_on_no_go=["按回滚预案操作，最长 30 分钟内完成"],
),
]
return stages
def generate_rollback_procedure(profile: FeatureRiskProfile) -> List[str]:
"""生成回滚操作手册"""
steps = [
"1. 触发回滚决策：由 PM 或 On-call 工程师确认",
"2. 执行流量切换：将灰度流量降为 0%（配置中心操作，< 5 分钟）",
"3. 确认回滚生效：观察错误率、响应时间恢复正常",
"4. 通知相关方：研发、测试、客服同步知晓",
"5. 保留现场日志：不删除任何报错日志，供事后分析",
]
if profile.affects_transactions:
steps.insert(3, "3a. 检查是否有进行中的事务需要手动处理")
return steps
def create_rollout_plan(profile: FeatureRiskProfile) -> RolloutPlan:
"""创建完整灰度计划"""
risk = assess_risk(profile)
stages = build_stage_configs(profile, risk)
rollback = generate_rollback_procedure(profile)
notifications = {
"PM": "每阶段结束时发送数据总结",
"研发负责人": "任何 No-Go 决策立即通知",
"客服团队": "Beta 阶段开始前提前告知，准备处理用户反馈",
"业务方": "全量发布前一天通知",
}
if profile.affects_transactions:
notifications["风控团队"] = "Beta 阶段开始时同步，监控交易异常"
return RolloutPlan(
feature_name=profile.feature_name,
risk_level=risk,
stages=stages,
rollback_procedure=rollback,
stakeholder_notification=notifications,
)
def print_rollout_plan(plan: RolloutPlan):
total_days = sum(s.duration_days for s in plan.stages)
print(f"\n{'='*55}")
print(f"  灰度发布计划：{plan.feature_name}")
print(f"  风险等级：{plan.risk_level.value}  预计总时长：{total_days} 天")
print(f"{'='*55}")
for stage in plan.stages:
pct = f"{stage.traffic_percentage}% 流量" if stage.traffic_percentage > 0 else "内部环境"
print(f"\n  [{stage.stage.value}]  {pct}  持续 {stage.duration_days} 天")
print(f"  Go 标准：")
for c in stage.go_criteria:
print(f"    ✓ {c}")
print(f"  回滚触发：")
for t in stage.no_go_triggers:
print(f"    ✗ {t}")
print(f"\n  回滚操作手册：")
for step in plan.rollback_procedure:
print(f"    {step}")
print(f"\n  干系人通知计划：")
for role, timing in plan.stakeholder_notification.items():
print(f"    {role}：{timing}")
# ── 演示 ──────────────────────────────────────────────
if __name__ == "__main__":
feature = FeatureRiskProfile(
feature_name="AI 智能退款审核助手",
is_ai_generated_content=True,
affects_transactions=True,
has_irreversible_actions=True,
user_facing=True,
daily_active_users=50000,
has_fallback=True,
)
plan = create_rollout_plan(feature)
print_rollout_plan(plan)

本章 checklist

[ ] 每个灰度阶段已定义明确的成功标准（数字化，不是主观判断）
[ ] 回滚操作手册已写好，且技术上验证可在 30 分钟内完成
[ ] 相关干系人（客服、业务方、风控）已在灰度开始前被告知
[ ] Go/No-Go 决策由 PM 主持，不由工程师单独决定
[ ] 全量发布后设置至少 2 周的监控观察期，不是发完就结束

本章小结

灰度发布的核心价值是把"全量事故"变成"小范围问题"，关键是每阶段的 Go 标准要在发布前就定好，不能临时讨论
AI 功能的灰度需要特别关注内容质量指标，技术指标（错误率、延迟）达标不代表 AI 效果达标
回滚能力是灰度的前提，如果不能在 30 分钟内回滚，就不应该进行灰度扩量

本章完：下一章进入 09-PRD写法，学习如何写一份在 AI 时代真正有用的产品需求文档。