5 min read980 words

AI Fit Assessment 实战框架

"这个场景用 AI 做"不是判断，是假设。真正的判断是：在六个维度上量化评分，然后用分数说话，而不是靠感觉和热情决策。

六维评估框架

graph LR INPUT["待评估场景"] --> A["语义复杂度\nSemantic Complexity"] INPUT --> B["容错性\nError Tolerance"] INPUT --> C["数据可得性\nData Availability"] INPUT --> D["成本收益比\nCost-Benefit"] INPUT --> E["迭代速度\nIteration Speed"] INPUT --> F["用户信任度\nUser Trust"] A --> SCORE["综合 AI 适配分"] B --> SCORE C --> SCORE D --> SCORE E --> SCORE F --> SCORE SCORE --> G{"分数区间"} G -- "≥ 4.0" --> G1["强烈推荐引入 AI"] G -- "3.0-3.9" --> G2["谨慎引入，需管控风险"] G -- "2.0-2.9" --> G3["建议先用规则/人工"] G -- "< 2.0" --> G4["不建议使用 AI"] style G1 fill:#e8f5e9,stroke:#2e7d32,stroke-width:2px style G4 fill:#fce4ec,stroke:#c62828,stroke-width:2px

六个维度解读

语义复杂度：任务是否涉及自然语言理解、非结构化数据处理、多义性判断？越复杂越适合 AI，越简单的结构化任务越适合规则引擎。

容错性：场景对错误的接受程度。内容推荐错了影响很小，医疗诊断错了代价极大。容错性越低，AI 引入的门槛越高，配套机制要求越严格。

数据可得性：是否有足够的高质量训练数据？不只是量，还有标注质量和分布覆盖。没有数据的 AI 项目是空中楼阁。

成本收益比：AI 的开发、部署、维护成本与预期产出是否匹配？这里要算清楚：如果规则引擎能解决 80% 的问题，用 AI 解决剩下 20% 是否合算。

迭代速度：场景需求是否变化频繁？AI 模型的迭代周期（数据收集 → 训练 → 验证 → 部署）通常比规则更长。需求快速变化的场景，AI 可能跟不上。

用户信任度：目标用户对 AI 决策的接受程度。强专业领域（法律、医疗、财务）的用户通常信任度低，需要更强的可解释性设计。

AI 适配评分系统

from dataclasses import dataclass, field
from typing import List, Dict
from enum import Enum
class Recommendation(Enum):
STRONG_YES   = "🟢 强烈推荐引入 AI"
CAUTIOUS_YES = "🟡 谨慎引入，需管控风险"
RULE_FIRST   = "🟠 建议先用规则/人工"
NO           = "🔴 不建议使用 AI"
DIMENSION_WEIGHTS = {
"语义复杂度":   0.20,
"容错性":       0.20,
"数据可得性":   0.20,
"成本收益比":   0.15,
"迭代速度":     0.10,
"用户信任度":   0.15,
}
DIMENSION_GUIDES = {
"语义复杂度": {
1: "纯结构化、规则完全可覆盖",
3: "部分非结构化，规则+AI 混合可行",
5: "高度非结构化、多义性强",
},
"容错性": {
1: "零容错，错误造成重大损失",
3: "中等容错，错误可被人工干预纠正",
5: "高容错，错了影响极小",
},
"数据可得性": {
1: "几乎无数据或数据质量极差",
3: "有一定数据但覆盖不全",
5: "数据充足、标注质量高、分布均匀",
},
"成本收益比": {
1: "AI 成本远超收益",
3: "成本与收益基本持平",
5: "AI 带来显著的规模化收益",
},
"迭代速度": {
1: "需求变化极快，AI 迭代跟不上",
3: "需求相对稳定，可接受月级迭代",
5: "需求稳定，AI 一旦成熟长期有效",
},
"用户信任度": {
1: "用户高度抵触，要求完全可解释",
3: "用户中立，接受 AI 辅助但保留决策权",
5: "用户高度信任，愿意让 AI 自主决策",
},
}
@dataclass
class DimensionScore:
dimension: str
score: float       # 1-5
rationale: str     # 为什么给这个分
def weighted(self) -> float:
return self.score * DIMENSION_WEIGHTS.get(self.dimension, 0)
@dataclass
class ScenarioAssessment:
scenario_name: str
description: str
evaluator: str
scores: List[DimensionScore] = field(default_factory=list)
risk_flags: List[str] = field(default_factory=list)
def add_score(self, dimension: str, score: float, rationale: str):
self.scores.append(DimensionScore(dimension, score, rationale))
def total_score(self) -> float:
return sum(s.weighted() for s in self.scores)
def recommendation(self) -> Recommendation:
t = self.total_score()
if t >= 4.0:
return Recommendation.STRONG_YES
elif t >= 3.0:
return Recommendation.CAUTIOUS_YES
elif t >= 2.0:
return Recommendation.RULE_FIRST
else:
return Recommendation.NO
def weak_dimensions(self) -> List[DimensionScore]:
return sorted(
[s for s in self.scores if s.score <= 2],
key=lambda s: s.score
)
def report(self):
total = self.total_score()
rec = self.recommendation()
print(f"\n{'='*64}")
print(f"  AI Fit Assessment — {self.scenario_name}")
print(f"  场景描述：{self.description}")
print(f"  评估人：{self.evaluator}")
print(f"{'='*64}")
print(f"\n  【各维度评分】")
for s in self.scores:
weight_pct = int(DIMENSION_WEIGHTS.get(s.dimension, 0) * 100)
print(f"  {s.dimension}（权重{weight_pct}%）: "
f"{'★' * int(s.score)}{'☆' * (5 - int(s.score))} "
f"{s.score}/5")
print(f"    → {s.rationale}")
print(f"\n  综合 AI 适配分：{total:.2f} / 5.00")
print(f"  评估结论：{rec.value}")
weak = self.weak_dimensions()
if weak:
print(f"\n  【需重点关注的薄弱维度】")
for w in weak:
print(f"  ⚠️  {w.dimension}（{w.score}/5）：{w.rationale}")
if self.risk_flags:
print(f"\n  【额外风险标记】")
for r in self.risk_flags:
print(f"  🚩 {r}")
print(f"{'='*64}\n")
# ── Demo ──────────────────────────────────────────────────────
# 场景一：电商商品推荐
rec_assessment = ScenarioAssessment(
scenario_name="电商个性化商品推荐",
description="根据用户行为历史，在首页和搜索结果页提供个性化推荐",
evaluator="PM 张三"
)
rec_assessment.add_score("语义复杂度",  4, "用户偏好和行为理解有较高复杂度")
rec_assessment.add_score("容错性",      5, "推荐错了用户忽略即可，成本极低")
rec_assessment.add_score("数据可得性",  5, "平台有大量用户行为数据，质量高")
rec_assessment.add_score("成本收益比",  5, "推荐转化提升 GMV，ROI 清晰可量化")
rec_assessment.add_score("迭代速度",    3, "需求相对稳定，季节性调整可接受")
rec_assessment.add_score("用户信任度",  5, "用户对推荐无强信任要求")
rec_assessment.report()
# 场景二：法律合同风险审查
legal_assessment = ScenarioAssessment(
scenario_name="企业法律合同 AI 风险审查",
description="AI 自动识别合同中的高风险条款并给出修改建议",
evaluator="PM 李四"
)
legal_assessment.add_score("语义复杂度",  5, "法律语言高度专业且充满歧义，需要深度理解")
legal_assessment.add_score("容错性",      1, "合同错误可能造成重大法律损失，零容错")
legal_assessment.add_score("数据可得性",  2, "合同数据敏感，标注数据极难获取")
legal_assessment.add_score("成本收益比",  3, "法律人力成本高，但 AI 可靠性不足以完全替代")
legal_assessment.add_score("迭代速度",    4, "法律框架相对稳定，AI 一旦成熟可长期使用")
legal_assessment.add_score("用户信任度",  1, "律师和法务高度抵触，必须保留完全控制权")
legal_assessment.risk_flags = [
"错误率不可接受，必须设计强制人工复审流程",
"AI 仅作辅助标注，不得自动修改或发送合同",
]
legal_assessment.report()

六维度评分参考

维度	分数 1（不适合）	分数 3（中等）	分数 5（高度适合）
语义复杂度	纯结构化任务	半结构化，规则+AI 混合	高度非结构化
容错性	零容错场景	有人工兜底机制	错了影响极小
数据可得性	几乎无数据	数据部分可得	数据充足高质量
成本收益比	成本远超收益	基本持平	规模化收益显著
迭代速度	需求极速变化	月级迭代可接受	需求稳定长期有效
用户信任度	强抵触要求可解释	接受辅助决策	愿意让 AI 自主

本章 checklist

是否对每个计划引入 AI 的场景都完成了六维评分，而不是靠"感觉这个场景适合 AI"
容错性和用户信任度两个高风险维度是否重点评估，而不是被技术热情掩盖
是否计算了综合适配分并对照四档结论，而不是"分很低但仍然要做"
对于"谨慎引入"的场景，是否明确列出了需要管控的风险和配套机制
评估结果是否有文档记录，在团队讨论时能作为决策依据而非个人意见

本章小结

AI 适配判断需要六个维度的系统评估，其中容错性和数据可得性是最常被低估的两个维度。
综合适配分低于 2.0 的场景，应明确拒绝引入 AI，用规则引擎或人工流程更高效、更可控。
评估框架的价值不只在于"是否用 AI"，更在于让团队在决策前对风险达成共识，避免上线后才发现不可接受的问题。

下一节：03-高风险场景的AI引入策略 — 适配分中等但仍然要做的场景，怎么设计人机协作流程、渐进式上线和兜底机制，安全地把 AI 引入高风险场景。