
主要功能:
基于感知与推理,将评估维度逐级细分。约 3000 道单项选择题,覆盖目标检测、文字识别、动作识别、图像
理解、关系推理等 20 个细粒度评估维度
更具鲁棒性的评估方式。相同单选问题循环选项提问,模型输出全部指向同一答案认定为通过,相比传统1次性通过评估 top-1 准确率平均下降 10% ~ 20%。最大程度减少各种噪声因素对评测结果的影响,保证了结果的可复现性。
更可靠的模型输出提取方法。基于 ChatGPT 匹配模型输出与选项,即使模型未按照指令输出也可准确匹配至最合理选项
数据统计
数据评估
关于MMBench特别声明
本站AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用提供的MMBench都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用实际控制,在2025年3月25日 下午6:36收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用不承担任何责任。
相关导航

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。

AGI
AGI-Eval评测社区

CLUE中文语言理解基准测评
CLUE中文语言理解基准测评

H2O.ai
Our Al-powered search assistant helps you get answers to questions about your documents, websites and workplace content.
暂无评论...