常用 Benchmark 总结-GPT 4.1、GPT 4.5、DeepSeek模型

发布于:2025-07-17 ⋅ 阅读:(43) ⋅ 点赞:(0)

GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结


GPT 4.1 (2025.4.14)

OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。

一、Instruction Following(指令跟随)相关 benchmark(共7个)

Benchmark 作用
Internal API instruction following (hard) 测试模型在复杂、分步骤指令下的表现
MultiChallenge 多轮对话中正确提取历史信息
MultiChallenge (o3-mini grader) 更严谨的版本,用更强的评估器判断模型表现
COLLIE 包含分类、排序、多步执行等多种跟随场景
IFEval 检验模型是否遵守格式/长度/内容限制等指令
Multi-IF 类似 IFEval,但更复杂
OpenAI Instruction Categories 非正式测试,分类说明模型在哪些类型指令上更强(格式、否定、排序等)

二、Coding(编程)相关 benchmark(共5个)

Benchmark 作用
SWE-bench Verified 真实代码库补丁生成能力(给代码库 + issue,产出能通过测试的补丁)
SWE-Lancer 基于 freelancer 任务的模型“收入”评估,越强模型接更多活
SWE-Lancer (IC-Diamond) 上述子集,任务更稀有但高价值
Aider polyglot (whole) 多语言代码编辑完整文件能力
Aider polyglot (diff) 多语言代码编辑,仅生成改动部分能力

三、Academic Knowledge(学术常识)相关 benchmark(共4个)

Benchmark 作用
AIME '24 美国数学竞赛题目
GPQA Diamond 专业级常识问答
MMLU 多学科专业知识测试
Multilingual MMLU 多语言 MMLU 测试

四、Long Context(长上下文理解)相关 benchmark(共7个)

Benchmark 作用
Needle-in-a-haystack 找出上下文中的“针”,测试大窗口信息检索能力
OpenAI-MRCR 多轮消歧任务,在长上下文中区分多个请求并提取对应输出
Graphwalks BFS <128k / >128k 长上下文中的图搜索任务,测试推理和跳跃能力
Graphwalks Parents <128k / >128k 类似任务,换成父节点推理
Internal OpenAI eval(图未命名) 展示 needle accuracy 随上下文长度变化

五、Vision(图像理解)相关 benchmark(共4个)

Benchmark 作用
MMMU 图表、地图、图像混合问答
MathVista 数学图形理解
CharXiv-Reasoning 科研图表内容理解
CharXiv-Details 更精细的科研图表信息提取

六、Function Calling(函数调用)相关 benchmark(共3个)

Benchmark 作用
ComplexFuncBench 复杂函数结构调用能力
TauBench Airline 多轮函数调用(航空业务)
TauBench Retail 多轮函数调用(零售业务)
合计
类型 个数
指令跟随 7
编程能力 5
学术知识 4
长上下文 7
视觉理解 4
函数调用 3
总计 30(文章中内容提及为 34,部分可能为子集/分组重复统计)

GPT 4.5 (2025.2.27)

官方介绍中提到了 8 个 benchmark

通用知识与推理类

Benchmark 用途 衡量指标
SimpleQA 测试模型对简单但具有挑战性的事实性问题的回答能力。 准确率和幻觉率
GPQA (Graduate-Level Physics Questions Answering) 评估模型解决高级物理问题的能力。 科学推理和事实准确性
AIME ‘24 测试模型在高中奥数级别数学题上的解题能力。 数学推理
MMMLU 评估模型在多领域、多语言下的理解能力。 覆盖上百个学科

多模态与跨语言类

Benchmark 用途 特点
MMMU 测试模型对图文混合输入的理解与回答能力 强调视觉+语言联合推理

编程与软件开发类

Benchmark 用途 特点
SWE-Bench Verified 衡量模型在修复真实代码问题(bug fix)方面的准确率。 需要代码阅读、理解和修改能力
SWE-Lancer Diamond 评估模型在解决真实世界代码任务中的实际表现。 得分以“$金额”表示

创意与人类评估类(间接指标)

Benchmark 用途 说明
Human preference scores 衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好 不属于标准学术 benchmark

DeepSeek Prover R2 (2025.4.30)

Benchmark 名称 作用(评估内容)
MiniF2F 主流评测集之一,测试 Lean 3 中模型的定理证明能力
ProofNet 测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力
MathProofBench 基于 GPT-4 构建的大规模形式化数学 benchmark,用于评估多步骤推理
LeanDojo 用于构建 Lean 形式化环境,支持与 Lean 交互,可用于数据生成与强化学习等任务
Baldur 面向欧几里得几何定理的基准集,专注几何推理
MetaMath 包含海量形式化证明(元数学框架),常用于数学证明训练
HolStep 提供 HOL Light 定理与证明对,评估定理选择和步骤推荐能力
TPTP 自动定理证明社区常用的 benchmark,侧重一阶逻辑问题
PISA benchmark 关注于交互式定理证明(ITP)的基准
Lean-Gym 形式化交互环境,用于模拟 Lean 用户操作场景,用于训练强化学习模型

附:ChatGPT 的总结 - LLM 主流 Benchmark 分类

1. 基础能力类

Benchmark 用途 示例任务
MMLU 多任务理解 中学到大学的知识问答,覆盖57个科目
HELLSWAG 常识推理 句子补全,测试语境下的常识判断
ARC 小学科学题 测试多步逻辑推理能力

2. 推理与数学类

Benchmark 用途 示例任务
GSM8K 小学数学题 步骤式加减乘除推理
MATH 高中奥数题 高难度数学推理
DROP 复杂阅读理解+数值运算 从段落中提取并运算信息

3. 多轮对话与指令跟随

Benchmark 用途 示例任务
AlpacaEval / MT-Bench 指令跟随能力评估 让模型完成用户指令并评分
Vicuna Eval 对话质量评估 模拟人类对话打分
Chatbot Arena 实时互评排名 网民对两模型的盲评投票

4. 多语言/跨文化

Benchmark 用途 示例任务
XWinograd 跨语言共指消解 在多语言中理解代词所指对象
XCOPA 多语言因果推理 判断事件之间的因果关系

5. 类人行为评估

Benchmark 用途 示例任务
TuringBench 类人表现评估 情感识别、信任判断、道德选择等
BIG-Bench 多种创造性任务集合 推理、类比、创造性写作等,覆盖200+任务

附 2:类人行为评测榜单(ChatGPT 的回答)

Benchmark 类人维度 是否结构化评分 备注
MT-Bench 多轮对话、个性表达 LLM 社交互动能力
HELMe Bench 道德、人格、社会行为 类人格建模
BBH(Big Bench Hard) 直觉、常识推理、心理 来自 BIG-Bench 子集
MoralBench 道德判断、伦理推理 跨文化伦理比较
TOMI 心理理论(ToM) 拟人认知能力
HumanEval(部分任务) 合作性、指令遵循性 ⚠️ 间接涉及类人行为
RoleplayBench(如CharacterBench) 行为一致性、角色认知 ⚠️部分人工评分 RPG 任务中角色建模能力


网站公告

今日签到

点亮在社区的每一天
去签到