AI Fit Assessment 实战框架
"这个场景用 AI 做"不是判断,是假设。真正的判断是:在六个维度上量化评分,然后用分数说话,而不是靠感觉和热情决策。
六维评估框架
graph LR
INPUT["待评估场景"] --> A["语义复杂度\nSemantic Complexity"]
INPUT --> B["容错性\nError Tolerance"]
INPUT --> C["数据可得性\nData Availability"]
INPUT --> D["成本收益比\nCost-Benefit"]
INPUT --> E["迭代速度\nIteration Speed"]
INPUT --> F["用户信任度\nUser Trust"]
A --> SCORE["综合 AI 适配分"]
B --> SCORE
C --> SCORE
D --> SCORE
E --> SCORE
F --> SCORE
SCORE --> G{"分数区间"}
G -- "≥ 4.0" --> G1["强烈推荐引入 AI"]
G -- "3.0-3.9" --> G2["谨慎引入,需管控风险"]
G -- "2.0-2.9" --> G3["建议先用规则/人工"]
G -- "< 2.0" --> G4["不建议使用 AI"]
style G1 fill:#e8f5e9,stroke:#2e7d32,stroke-width:2px
style G4 fill:#fce4ec,stroke:#c62828,stroke-width:2px
六个维度解读
语义复杂度:任务是否涉及自然语言理解、非结构化数据处理、多义性判断?越复杂越适合 AI,越简单的结构化任务越适合规则引擎。
容错性:场景对错误的接受程度。内容推荐错了影响很小,医疗诊断错了代价极大。容错性越低,AI 引入的门槛越高,配套机制要求越严格。
数据可得性:是否有足够的高质量训练数据?不只是量,还有标注质量和分布覆盖。没有数据的 AI 项目是空中楼阁。
成本收益比:AI 的开发、部署、维护成本与预期产出是否匹配?这里要算清楚:如果规则引擎能解决 80% 的问题,用 AI 解决剩下 20% 是否合算。
迭代速度:场景需求是否变化频繁?AI 模型的迭代周期(数据收集 → 训练 → 验证 → 部署)通常比规则更长。需求快速变化的场景,AI 可能跟不上。
用户信任度:目标用户对 AI 决策的接受程度。强专业领域(法律、医疗、财务)的用户通常信任度低,需要更强的可解释性设计。
AI 适配评分系统
from dataclasses import dataclass, field
from typing import List, Dict
from enum import Enum
class Recommendation(Enum):
STRONG_YES = "🟢 强烈推荐引入 AI"
CAUTIOUS_YES = "🟡 谨慎引入,需管控风险"
RULE_FIRST = "🟠 建议先用规则/人工"
NO = "🔴 不建议使用 AI"
DIMENSION_WEIGHTS = {
"语义复杂度": 0.20,
"容错性": 0.20,
"数据可得性": 0.20,
"成本收益比": 0.15,
"迭代速度": 0.10,
"用户信任度": 0.15,
}
DIMENSION_GUIDES = {
"语义复杂度": {
1: "纯结构化、规则完全可覆盖",
3: "部分非结构化,规则+AI 混合可行",
5: "高度非结构化、多义性强",
},
"容错性": {
1: "零容错,错误造成重大损失",
3: "中等容错,错误可被人工干预纠正",
5: "高容错,错了影响极小",
},
"数据可得性": {
1: "几乎无数据或数据质量极差",
3: "有一定数据但覆盖不全",
5: "数据充足、标注质量高、分布均匀",
},
"成本收益比": {
1: "AI 成本远超收益",
3: "成本与收益基本持平",
5: "AI 带来显著的规模化收益",
},
"迭代速度": {
1: "需求变化极快,AI 迭代跟不上",
3: "需求相对稳定,可接受月级迭代",
5: "需求稳定,AI 一旦成熟长期有效",
},
"用户信任度": {
1: "用户高度抵触,要求完全可解释",
3: "用户中立,接受 AI 辅助但保留决策权",
5: "用户高度信任,愿意让 AI 自主决策",
},
}
@dataclass
class DimensionScore:
dimension: str
score: float # 1-5
rationale: str # 为什么给这个分
def weighted(self) -> float:
return self.score * DIMENSION_WEIGHTS.get(self.dimension, 0)
@dataclass
class ScenarioAssessment:
scenario_name: str
description: str
evaluator: str
scores: List[DimensionScore] = field(default_factory=list)
risk_flags: List[str] = field(default_factory=list)
def add_score(self, dimension: str, score: float, rationale: str):
self.scores.append(DimensionScore(dimension, score, rationale))
def total_score(self) -> float:
return sum(s.weighted() for s in self.scores)
def recommendation(self) -> Recommendation:
t = self.total_score()
if t >= 4.0:
return Recommendation.STRONG_YES
elif t >= 3.0:
return Recommendation.CAUTIOUS_YES
elif t >= 2.0:
return Recommendation.RULE_FIRST
else:
return Recommendation.NO
def weak_dimensions(self) -> List[DimensionScore]:
return sorted(
[s for s in self.scores if s.score <= 2],
key=lambda s: s.score
)
def report(self):
total = self.total_score()
rec = self.recommendation()
print(f"\n{'='*64}")
print(f" AI Fit Assessment — {self.scenario_name}")
print(f" 场景描述:{self.description}")
print(f" 评估人:{self.evaluator}")
print(f"{'='*64}")
print(f"\n 【各维度评分】")
for s in self.scores:
weight_pct = int(DIMENSION_WEIGHTS.get(s.dimension, 0) * 100)
print(f" {s.dimension}(权重{weight_pct}%): "
f"{'★' * int(s.score)}{'☆' * (5 - int(s.score))} "
f"{s.score}/5")
print(f" → {s.rationale}")
print(f"\n 综合 AI 适配分:{total:.2f} / 5.00")
print(f" 评估结论:{rec.value}")
weak = self.weak_dimensions()
if weak:
print(f"\n 【需重点关注的薄弱维度】")
for w in weak:
print(f" ⚠️ {w.dimension}({w.score}/5):{w.rationale}")
if self.risk_flags:
print(f"\n 【额外风险标记】")
for r in self.risk_flags:
print(f" 🚩 {r}")
print(f"{'='*64}\n")
# ── Demo ──────────────────────────────────────────────────────
# 场景一:电商商品推荐
rec_assessment = ScenarioAssessment(
scenario_name="电商个性化商品推荐",
description="根据用户行为历史,在首页和搜索结果页提供个性化推荐",
evaluator="PM 张三"
)
rec_assessment.add_score("语义复杂度", 4, "用户偏好和行为理解有较高复杂度")
rec_assessment.add_score("容错性", 5, "推荐错了用户忽略即可,成本极低")
rec_assessment.add_score("数据可得性", 5, "平台有大量用户行为数据,质量高")
rec_assessment.add_score("成本收益比", 5, "推荐转化提升 GMV,ROI 清晰可量化")
rec_assessment.add_score("迭代速度", 3, "需求相对稳定,季节性调整可接受")
rec_assessment.add_score("用户信任度", 5, "用户对推荐无强信任要求")
rec_assessment.report()
# 场景二:法律合同风险审查
legal_assessment = ScenarioAssessment(
scenario_name="企业法律合同 AI 风险审查",
description="AI 自动识别合同中的高风险条款并给出修改建议",
evaluator="PM 李四"
)
legal_assessment.add_score("语义复杂度", 5, "法律语言高度专业且充满歧义,需要深度理解")
legal_assessment.add_score("容错性", 1, "合同错误可能造成重大法律损失,零容错")
legal_assessment.add_score("数据可得性", 2, "合同数据敏感,标注数据极难获取")
legal_assessment.add_score("成本收益比", 3, "法律人力成本高,但 AI 可靠性不足以完全替代")
legal_assessment.add_score("迭代速度", 4, "法律框架相对稳定,AI 一旦成熟可长期使用")
legal_assessment.add_score("用户信任度", 1, "律师和法务高度抵触,必须保留完全控制权")
legal_assessment.risk_flags = [
"错误率不可接受,必须设计强制人工复审流程",
"AI 仅作辅助标注,不得自动修改或发送合同",
]
legal_assessment.report()
六维度评分参考
| 维度 | 分数 1(不适合) | 分数 3(中等) | 分数 5(高度适合) |
|---|---|---|---|
| 语义复杂度 | 纯结构化任务 | 半结构化,规则+AI 混合 | 高度非结构化 |
| 容错性 | 零容错场景 | 有人工兜底机制 | 错了影响极小 |
| 数据可得性 | 几乎无数据 | 数据部分可得 | 数据充足高质量 |
| 成本收益比 | 成本远超收益 | 基本持平 | 规模化收益显著 |
| 迭代速度 | 需求极速变化 | 月级迭代可接受 | 需求稳定长期有效 |
| 用户信任度 | 强抵触要求可解释 | 接受辅助决策 | 愿意让 AI 自主 |
本章 checklist
- 是否对每个计划引入 AI 的场景都完成了六维评分,而不是靠"感觉这个场景适合 AI"
- 容错性和用户信任度两个高风险维度是否重点评估,而不是被技术热情掩盖
- 是否计算了综合适配分并对照四档结论,而不是"分很低但仍然要做"
- 对于"谨慎引入"的场景,是否明确列出了需要管控的风险和配套机制
- 评估结果是否有文档记录,在团队讨论时能作为决策依据而非个人意见
本章小结
- AI 适配判断需要六个维度的系统评估,其中容错性和数据可得性是最常被低估的两个维度。
- 综合适配分低于 2.0 的场景,应明确拒绝引入 AI,用规则引擎或人工流程更高效、更可控。
- 评估框架的价值不只在于"是否用 AI",更在于让团队在决策前对风险达成共识,避免上线后才发现不可接受的问题。
下一节:03-高风险场景的AI引入策略 — 适配分中等但仍然要做的场景,怎么设计人机协作流程、渐进式上线和兜底机制,安全地把 AI 引入高风险场景。