Open LLM Leaderboard翻译站点

2个月前发布 400 0 257

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

所在地：

香港

语言：

收录时间：

2025-03-25

打开网站手机查看

AI模型测评 # 开源大模型 # 数据集社区

Open LLM Leaderboard

主要功能：
AI2 推理挑战（25-shot）：一组小学科学问题
HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。
MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。
TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。