GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结
GPT 4.1 (2025.4.14)
OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。
一、Instruction Following(指令跟随)相关 benchmark(共7个)
Benchmark |
作用 |
Internal API instruction following (hard) |
测试模型在复杂、分步骤指令下的表现 |
MultiChallenge |
多轮对话中正确提取历史信息 |
MultiChallenge (o3-mini grader) |
更严谨的版本,用更强的评估器判断模型表现 |
COLLIE |
包含分类、排序、多步执行等多种跟随场景 |
IFEval |
检验模型是否遵守格式/长度/内容限制等指令 |
Multi-IF |
类似 IFEval,但更复杂 |
OpenAI Instruction Categories |
非正式测试,分类说明模型在哪些类型指令上更强(格式、否定、排序等) |
二、Coding(编程)相关 benchmark(共5个)
Benchmark |
作用 |
SWE-bench Verified |
真实代码库补丁生成能力(给代码库 + issue,产出能通过测试的补丁) |
SWE-Lancer |
基于 freelancer 任务的模型“收入”评估,越强模型接更多活 |
SWE-Lancer (IC-Diamond) |
上述子集,任务更稀有但高价值 |
Aider polyglot (whole) |
多语言代码编辑完整文件能力 |
Aider polyglot (diff) |
多语言代码编辑,仅生成改动部分能力 |
三、Academic Knowledge(学术常识)相关 benchmark(共4个)
Benchmark |
作用 |
AIME '24 |
美国数学竞赛题目 |
GPQA Diamond |
专业级常识问答 |
MMLU |
多学科专业知识测试 |
Multilingual MMLU |
多语言 MMLU 测试 |
四、Long Context(长上下文理解)相关 benchmark(共7个)
Benchmark |
作用 |
Needle-in-a-haystack |
找出上下文中的“针”,测试大窗口信息检索能力 |
OpenAI-MRCR |
多轮消歧任务,在长上下文中区分多个请求并提取对应输出 |
Graphwalks BFS <128k / >128k |
长上下文中的图搜索任务,测试推理和跳跃能力 |
Graphwalks Parents <128k / >128k |
类似任务,换成父节点推理 |
Internal OpenAI eval(图未命名) |
展示 needle accuracy 随上下文长度变化 |
五、Vision(图像理解)相关 benchmark(共4个)
Benchmark |
作用 |
MMMU |
图表、地图、图像混合问答 |
MathVista |
数学图形理解 |
CharXiv-Reasoning |
科研图表内容理解 |
CharXiv-Details |
更精细的科研图表信息提取 |
六、Function Calling(函数调用)相关 benchmark(共3个)
Benchmark |
作用 |
ComplexFuncBench |
复杂函数结构调用能力 |
TauBench Airline |
多轮函数调用(航空业务) |
TauBench Retail |
多轮函数调用(零售业务) |
合计
类型 |
个数 |
指令跟随 |
7 |
编程能力 |
5 |
学术知识 |
4 |
长上下文 |
7 |
视觉理解 |
4 |
函数调用 |
3 |
总计 |
30(文章中内容提及为 34,部分可能为子集/分组重复统计) |
GPT 4.5 (2025.2.27)
官方介绍中提到了 8 个 benchmark。
通用知识与推理类
Benchmark |
用途 |
衡量指标 |
SimpleQA |
测试模型对简单但具有挑战性的事实性问题的回答能力。 |
准确率和幻觉率 |
GPQA (Graduate-Level Physics Questions Answering) |
评估模型解决高级物理问题的能力。 |
科学推理和事实准确性 |
AIME ‘24 |
测试模型在高中奥数级别数学题上的解题能力。 |
数学推理 |
MMMLU |
评估模型在多领域、多语言下的理解能力。 |
覆盖上百个学科 |
多模态与跨语言类
Benchmark |
用途 |
特点 |
MMMU |
测试模型对图文混合输入的理解与回答能力 |
强调视觉+语言联合推理 |
编程与软件开发类
Benchmark |
用途 |
特点 |
SWE-Bench Verified |
衡量模型在修复真实代码问题(bug fix)方面的准确率。 |
需要代码阅读、理解和修改能力 |
SWE-Lancer Diamond |
评估模型在解决真实世界代码任务中的实际表现。 |
得分以“$金额”表示 |
创意与人类评估类(间接指标)
Benchmark |
用途 |
说明 |
Human preference scores |
衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好 |
不属于标准学术 benchmark |
DeepSeek Prover R2 (2025.4.30)
Benchmark 名称 |
作用(评估内容) |
MiniF2F |
主流评测集之一,测试 Lean 3 中模型的定理证明能力 |
ProofNet |
测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力 |
MathProofBench |
基于 GPT-4 构建的大规模形式化数学 benchmark,用于评估多步骤推理 |
LeanDojo |
用于构建 Lean 形式化环境,支持与 Lean 交互,可用于数据生成与强化学习等任务 |
Baldur |
面向欧几里得几何定理的基准集,专注几何推理 |
MetaMath |
包含海量形式化证明(元数学框架),常用于数学证明训练 |
HolStep |
提供 HOL Light 定理与证明对,评估定理选择和步骤推荐能力 |
TPTP |
自动定理证明社区常用的 benchmark,侧重一阶逻辑问题 |
PISA benchmark |
关注于交互式定理证明(ITP)的基准 |
Lean-Gym |
形式化交互环境,用于模拟 Lean 用户操作场景,用于训练强化学习模型 |
附:ChatGPT 的总结 - LLM 主流 Benchmark 分类
1. 基础能力类
Benchmark |
用途 |
示例任务 |
MMLU |
多任务理解 |
中学到大学的知识问答,覆盖57个科目 |
HELLSWAG |
常识推理 |
句子补全,测试语境下的常识判断 |
ARC |
小学科学题 |
测试多步逻辑推理能力 |
2. 推理与数学类
Benchmark |
用途 |
示例任务 |
GSM8K |
小学数学题 |
步骤式加减乘除推理 |
MATH |
高中奥数题 |
高难度数学推理 |
DROP |
复杂阅读理解+数值运算 |
从段落中提取并运算信息 |
3. 多轮对话与指令跟随
Benchmark |
用途 |
示例任务 |
AlpacaEval / MT-Bench |
指令跟随能力评估 |
让模型完成用户指令并评分 |
Vicuna Eval |
对话质量评估 |
模拟人类对话打分 |
Chatbot Arena |
实时互评排名 |
网民对两模型的盲评投票 |
4. 多语言/跨文化
Benchmark |
用途 |
示例任务 |
XWinograd |
跨语言共指消解 |
在多语言中理解代词所指对象 |
XCOPA |
多语言因果推理 |
判断事件之间的因果关系 |
5. 类人行为评估
Benchmark |
用途 |
示例任务 |
TuringBench |
类人表现评估 |
情感识别、信任判断、道德选择等 |
BIG-Bench |
多种创造性任务集合 |
推理、类比、创造性写作等,覆盖200+任务 |
附 2:类人行为评测榜单(ChatGPT 的回答)
Benchmark |
类人维度 |
是否结构化评分 |
备注 |
MT-Bench |
多轮对话、个性表达 |
✅ |
LLM 社交互动能力 |
HELMe Bench |
道德、人格、社会行为 |
✅ |
类人格建模 |
BBH(Big Bench Hard) |
直觉、常识推理、心理 |
✅ |
来自 BIG-Bench 子集 |
MoralBench |
道德判断、伦理推理 |
✅ |
跨文化伦理比较 |
TOMI |
心理理论(ToM) |
✅ |
拟人认知能力 |
HumanEval(部分任务) |
合作性、指令遵循性 |
⚠️ |
间接涉及类人行为 |
RoleplayBench(如CharacterBench) |
行为一致性、角色认知 |
⚠️部分人工评分 |
RPG 任务中角色建模能力 |