项目概述
这是一个大规模的开源大语言模型评估项目,使用lm-evaluation-harness库对41个开源LLMs进行了19项基准测试。所有评估都在个人计算机上本地完成,展示了不同模型在各种任务中的性能表现。
评估框架
测试类别
基准测试分为三个主要类别:
1. 推理与数学 (Reasoning & Math)
- 任务: gsm8k, bbh, arc_challenge, anli_r1/r2/r3, gpqa_main_zeroshot
- 评估指标: 精确匹配 (Exact match)、严格匹配 (strict match)、标准化准确率 (normalized accuracy) 等
2. 常识推理与自然语言推理 (Commonsense & Natural Language Inference, NLI)
- 任务: hellaswag, piqa, winogrande, boolq, openbookqa, sciq, qnli
- 评估指标: 标准化准确率 (Normalized accuracy)、准确率 (accuracy) 等
3. 知识与阅读理解 (Knowledge & Reading Comprehension)
- 任务: mmlu, nq_open, drop, truthfulqa_mc1/mc2, triviaqa
- 评估指标: 准确率 (Accuracy)、精确匹配 (exact match)、F1分数 (F1 score) 等
关键指标说明
模型命名规则
- 格式:公司_模型名称
- 量化模型标记:(8bit)
时间指标
- 总时间 (Total Time): 系统完成所有基准测试的运行时间
- GPU利用时间 (GPU Util Time): 等效RTX 5090 GPU在100%利用率下的时间
评分系统
- 平均分 (Mean Score): 所有基准任务的算术平均值
- 分数范围: 0-1,分数越高表示性能越好
- 排名: 基于任务平均分计算
测试结果排行榜
总体排名 (前10名)
排名 | 模型名称 | 总时间 | GPU利用时间 | 平均分 |
---|---|---|---|---|
1 | google_gemma-3-12b-it | 15小时45分 | 14小时8分 | 0.6038 |
2 | Qwen_Qwen3-14B (8bit) | 29小时45分 | 17小时29分 | 0.5961 |
3 | openchat_openchat-3.6-8b-20240522 | 7小时51分 | 6小时59分 | 0.5871 |
4 | Qwen_Qwen3-8B | 15小时31分 | 13小时44分 | 0.5859 |
5 | Qwen_Qwen2.5-7B-Instruct | 9小时36分 | 8小时33分 | 0.5788 |
6 | Qwen_Qwen2.5-14B-Instruct (8bit) | 52小时44分 | 29小时32分 | 0.5775 |
7 | 01-ai_Yi-1.5-9B | 11小时43分 | 10小时26分 | 0.5676 |
8 | Qwen_Qwen2.5-7B-Instruct-1M | 11小时17分 | 10小时10分 | 0.5672 |
9 | meta-llama_Llama-3.1-8B-Instruct | 12小时19分 | 10小时52分 | 0.5653 |
10 | 01-ai_Yi-1.5-9B-Chat | 13小时54分 | 12小时15分 | 0.5621 |
分类排名亮点
推理与数学性能排名 (前5名)
- google_gemma-3-12b-it (0.6266)
- Qwen_Qwen3-8B (0.6214)
- Qwen_Qwen3-14B (8bit) (0.586)
- Qwen_Qwen3-4B (0.5712)
- Qwen_Qwen2.5-7B-Instruct (0.5541)
常识推理与NLI排名 (前5名)
- Qwen_Qwen2.5-14B-Instruct (8bit) (0.7941)
- Qwen_Qwen3-14B (8bit) (0.7807)
- google_gemma-3-12b-it (0.7737)
- Qwen_Qwen2.5-7B-Instruct (0.773)
- openchat_openchat-3.6-8b-20240522 (0.7726)
知识与阅读理解排名 (前5名)
- 01-ai_Yi-1.5-9B (0.4369)
- openchat_openchat-3.6-8b-20240522 (0.4136)
- meta-llama_Llama-3.1-8B-Instruct (0.4127)
- 01-ai_Yi-1.5-6B (0.4063)
- mistralai_Mistral-7B-Instruct-v0.3 (0.4045)
主要发现
性能分析
- Google Gemma-3-12B-IT 在总体排名中位居第一,在推理和数学任务中表现尤为出色
- Qwen系列模型 在所有类别中都表现强劲,特别是在常识推理方面
- Yi系列模型 在知识和阅读理解任务中表现优异
- 量化模型 (8bit) 在显著减少计算资源需求的同时保持了良好的性能
效率分析
- 较小的模型在某些特定任务中可以与更大的模型竞争
- GPU利用时间与模型规模和复杂性呈正相关
- 一些中等规模的模型展现出更好的性价比
项目资源消耗
- 机器总运行时间: 18天8小时
- 等效GPU时间: 14天23小时 (RTX 5090在100%利用率下)
- 环境影响: 通过积极使用公共交通实现碳中和 😊
项目价值
这项综合评估为开源LLM社区提供了:
- 客观的性能比较基准
- 不同规模模型的效率分析
- 特定任务的模型选择指导
- 量化技术有效性的实证数据
该项目的完整数据、脚本和日志已开源,为研究人员和开发者提供了宝贵的参考资源。
数据来源: Hugging Face Spaces排行榜
文章来源: CurateClick