1 min read253 words

什么是多模态 AI

人类理解世界从来不只靠文字——我们看、听、触、闻。多模态 AI 让机器也具备这种跨感官的理解能力。

多模态 AI 全景

graph TB A[多模态 AI] --> B[理解] A --> C[生成] A --> D[检索] B --> B1[图像理解] B --> B2[视频理解] B --> B3[语音识别] B --> B4[文档解析] C --> C1[图像生成] C --> C2[视频生成] C --> C3[语音合成] C --> C4[音乐生成] D --> D1[图文检索 CLIP] D --> D2[跨模态搜索] D --> D3[多模态 RAG] style A fill:#e3f2fd,stroke:#1976d2,stroke-width:2px

模态类型

模态	数据形式	代表模型	关键任务
文本	自然语言	GPT-4, Claude	理解、生成、翻译
图像	像素矩阵	GPT-4V, DALL-E	描述、分类、生成
视频	帧序列	Gemini, Sora	理解、摘要、生成
语音	音频波形	Whisper, TTS	识别、合成、克隆
文档	PDF/扫描件	Claude, Marker	OCR、解析、提取

主流多模态模型

"""
主流多模态模型能力对比
"""
from dataclasses import dataclass
@dataclass
class MultimodalModel:
"""多模态模型"""
name: str
provider: str
modalities: list[str]
context_window: int
strengths: list[str]
input_pricing: str   # 每百万 token
MODELS = {
"GPT-4o": MultimodalModel(
name="GPT-4o",
provider="OpenAI",
modalities=["text", "image", "audio"],
context_window=128000,
strengths=["通用理解", "代码生成", "推理能力"],
input_pricing="$2.50/1M",
),
"Claude 3.5 Sonnet": MultimodalModel(
name="Claude 3.5 Sonnet",
provider="Anthropic",
modalities=["text", "image"],
context_window=200000,
strengths=["文档分析", "长上下文", "精确推理"],
input_pricing="$3.00/1M",
),
"Gemini 2.0 Flash": MultimodalModel(
name="Gemini 2.0 Flash",
provider="Google",
modalities=["text", "image", "video", "audio"],
context_window=1000000,
strengths=["超长上下文", "视频理解", "原生多模态"],
input_pricing="$0.10/1M",
),
"Qwen-VL-Max": MultimodalModel(
name="Qwen-VL-Max",
provider="阿里云",
modalities=["text", "image", "video"],
context_window=32000,
strengths=["中文理解", "文档OCR", "性价比"],
input_pricing="¥0.02/1K",
),
}
# 能力对比
print("=== 多模态模型对比 ===\n")
print(f"{'模型':<22} {'模态':<30} {'上下文':<12} {'优势'}")
print("-" * 85)
for model in MODELS.values():
modals = ", ".join(model.modalities)
strengths = ", ".join(model.strengths[:2])
print(
f"  {model.name:<20} {modals:<28} {model.context_window:>8,} "
f"  {strengths}"
)

多模态的核心挑战

"""
多模态 AI 面临的核心挑战
"""
CHALLENGES = {
"模态对齐": {
"问题": "不同模态的表示空间不同，如何对齐？",
"方案": "CLIP 对齐图文，跨模态注意力机制",
"难度": "⭐⭐⭐",
},
"计算成本": {
"问题": "图像/视频 token 数远超文本",
"方案": "图像压缩、关键帧提取、分辨率优化",
"难度": "⭐⭐⭐",
},
"幻觉问题": {
"问题": "VLM 可能「看到」并不存在的东西",
"方案": "多次采样验证、Chain-of-Thought 引导",
"难度": "⭐⭐⭐⭐",
},
"评估困难": {
"问题": "多模态输出的质量如何量化？",
"方案": "人工评估 + LLM-as-a-Judge + 专项基准",
"难度": "⭐⭐⭐",
},
"长视频/大文档": {
"问题": "上下文窗口不够放完整内容",
"方案": "分段处理、关键信息提取、层次化理解",
"难度": "⭐⭐",
},
}
for name, info in CHALLENGES.items():
print(f"\n{name} {info['难度']}")
print(f"  问题: {info['问题']}")
print(f"  方案: {info['方案']}")

应用场景

graph LR A[多模态 AI 应用] --> B[电商] A --> C[医疗] A --> D[教育] A --> E[制造] A --> F[内容] B --> B1[商品图片理解
智能客服] C --> C1[医学影像分析
病历解读] D --> D1[图文出题
视频课程摘要] E --> E1[缺陷检测
设备巡检] F --> F1[图文创作
视频生成] style A fill:#e3f2fd,stroke:#1976d2,stroke-width:2px

本章小结

多模态 AI = 让机器像人一样跨感官理解世界
GPT-4o、Claude 3.5、Gemini 2.0 是三大主力
核心挑战：模态对齐、计算成本、幻觉
应用遍及电商、医疗、教育、制造

下一章：视觉语言模型（VLM）实战。