High Contrast
High Contrast
Dark Mode
Light Mode
Sepia
Forest
Back to Library
LLM 评估与测试指南
LLM Evaluation Expert
科学评估 LLM 性能,构建完整的测试与评估体系
Start Reading
Table of Contents
▶
评估基础
为什么评估 LLM 如此困难
评估指标详解
评估维度设计框架
评估数据集构建
▶
评估方法
LLM-as-a-Judge
基准测试与自动化测试
人工评估与众包标注
多模型对比评估
▶
问题检测
幻觉与偏见检测
安全性与合规评估
性能与稳定性检测
多轮对话质量检测
▶
生产评估
A/B 测试与持续监控
评估工具与平台
红队测试与对抗评估
评估驱动优化循环
▶
实战案例
完整评估案例:对话系统评估
评估框架搭建实战
RAG 系统评估实战
▶
评估工具生态
开源评估工具对比
自建评估平台
Evals框架深度解析
企业级评估体系构建
评估最佳实践总结
LLM 评估与测试指南