什么是多模态 AI
人类理解世界从来不只靠文字——我们看、听、触、闻。多模态 AI 让机器也具备这种跨感官的理解能力。
多模态 AI 全景
graph TB
A[多模态 AI] --> B[理解]
A --> C[生成]
A --> D[检索]
B --> B1[图像理解]
B --> B2[视频理解]
B --> B3[语音识别]
B --> B4[文档解析]
C --> C1[图像生成]
C --> C2[视频生成]
C --> C3[语音合成]
C --> C4[音乐生成]
D --> D1[图文检索 CLIP]
D --> D2[跨模态搜索]
D --> D3[多模态 RAG]
style A fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
模态类型
| 模态 | 数据形式 | 代表模型 | 关键任务 |
|---|---|---|---|
| 文本 | 自然语言 | GPT-4, Claude | 理解、生成、翻译 |
| 图像 | 像素矩阵 | GPT-4V, DALL-E | 描述、分类、生成 |
| 视频 | 帧序列 | Gemini, Sora | 理解、摘要、生成 |
| 语音 | 音频波形 | Whisper, TTS | 识别、合成、克隆 |
| 文档 | PDF/扫描件 | Claude, Marker | OCR、解析、提取 |
主流多模态模型
"""
主流多模态模型能力对比
"""
from dataclasses import dataclass
@dataclass
class MultimodalModel:
"""多模态模型"""
name: str
provider: str
modalities: list[str]
context_window: int
strengths: list[str]
input_pricing: str # 每百万 token
MODELS = {
"GPT-4o": MultimodalModel(
name="GPT-4o",
provider="OpenAI",
modalities=["text", "image", "audio"],
context_window=128000,
strengths=["通用理解", "代码生成", "推理能力"],
input_pricing="$2.50/1M",
),
"Claude 3.5 Sonnet": MultimodalModel(
name="Claude 3.5 Sonnet",
provider="Anthropic",
modalities=["text", "image"],
context_window=200000,
strengths=["文档分析", "长上下文", "精确推理"],
input_pricing="$3.00/1M",
),
"Gemini 2.0 Flash": MultimodalModel(
name="Gemini 2.0 Flash",
provider="Google",
modalities=["text", "image", "video", "audio"],
context_window=1000000,
strengths=["超长上下文", "视频理解", "原生多模态"],
input_pricing="$0.10/1M",
),
"Qwen-VL-Max": MultimodalModel(
name="Qwen-VL-Max",
provider="阿里云",
modalities=["text", "image", "video"],
context_window=32000,
strengths=["中文理解", "文档OCR", "性价比"],
input_pricing="¥0.02/1K",
),
}
# 能力对比
print("=== 多模态模型对比 ===\n")
print(f"{'模型':<22} {'模态':<30} {'上下文':<12} {'优势'}")
print("-" * 85)
for model in MODELS.values():
modals = ", ".join(model.modalities)
strengths = ", ".join(model.strengths[:2])
print(
f" {model.name:<20} {modals:<28} {model.context_window:>8,} "
f" {strengths}"
)
多模态的核心挑战
"""
多模态 AI 面临的核心挑战
"""
CHALLENGES = {
"模态对齐": {
"问题": "不同模态的表示空间不同,如何对齐?",
"方案": "CLIP 对齐图文,跨模态注意力机制",
"难度": "⭐⭐⭐",
},
"计算成本": {
"问题": "图像/视频 token 数远超文本",
"方案": "图像压缩、关键帧提取、分辨率优化",
"难度": "⭐⭐⭐",
},
"幻觉问题": {
"问题": "VLM 可能「看到」并不存在的东西",
"方案": "多次采样验证、Chain-of-Thought 引导",
"难度": "⭐⭐⭐⭐",
},
"评估困难": {
"问题": "多模态输出的质量如何量化?",
"方案": "人工评估 + LLM-as-a-Judge + 专项基准",
"难度": "⭐⭐⭐",
},
"长视频/大文档": {
"问题": "上下文窗口不够放完整内容",
"方案": "分段处理、关键信息提取、层次化理解",
"难度": "⭐⭐",
},
}
for name, info in CHALLENGES.items():
print(f"\n{name} {info['难度']}")
print(f" 问题: {info['问题']}")
print(f" 方案: {info['方案']}")
应用场景
graph LR
A[多模态 AI 应用] --> B[电商]
A --> C[医疗]
A --> D[教育]
A --> E[制造]
A --> F[内容]
B --> B1[商品图片理解
智能客服] C --> C1[医学影像分析
病历解读] D --> D1[图文出题
视频课程摘要] E --> E1[缺陷检测
设备巡检] F --> F1[图文创作
视频生成] style A fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
智能客服] C --> C1[医学影像分析
病历解读] D --> D1[图文出题
视频课程摘要] E --> E1[缺陷检测
设备巡检] F --> F1[图文创作
视频生成] style A fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
本章小结
- 多模态 AI = 让机器像人一样跨感官理解世界
- GPT-4o、Claude 3.5、Gemini 2.0 是三大主力
- 核心挑战:模态对齐、计算成本、幻觉
- 应用遍及电商、医疗、教育、制造
下一章:视觉语言模型(VLM)实战。