
主要功能:
AI2 推理挑战(25-shot):一组小学科学问题
HellaSwag(10-shot):一个测试常识推理的任务,对人类来说很容易(大约95%),但对SOTA模型来说具有挑战性。
MMLU(5-shot)- 用于测量文本模型的多任务准确性。测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等等。
TruthfulQA(0-shot)- 用于测量模型复制在在线常见虚假信息中的倾向性。
数据统计
数据评估
关于Open LLM Leaderboard特别声明
本站AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用提供的Open LLM Leaderboard都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用实际控制,在2025年3月25日 下午6:28收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用不承担任何责任。
相关导航

CLUE中文语言理解基准测评

MMBench
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。

H2O.ai
Our Al-powered search assistant helps you get answers to questions about your documents, websites and workplace content.

AGI
AGI-Eval评测社区
暂无评论...