
主要功能:
大模型榜单:基于通用评测方案,提供业内大语言模型的能力得分排名榜单。榜单涵盖综合评测和各能力项评测。数据透明、权威,帮助您深入了解每个模型的优缺点,定期更新榜单,确保您掌握最新信息,找到最适合的模型解决方案。
AGI-Eval人机评测比赛:深入模型评测的世界,与大模型协作助力技术发展构建人机协同评测方案
评测集:
公开学术:行业公开学术评测集,支持用户下载使用。
官方评测集:官方自建评测集,涉及多领域的模型评测。
用户自建评测集:平台支持用户上传个人评测集,共建开源社区。完美实现自动与人工评测相结合;并且还有高校大牛私有数据集托管
Data Studio:
用户活跃度高:3W+众包用户平台,实现更多高质量真实数据回收。
数据类型多样:具备多维度,多领域的专业数据。
数据收集多元化:如单条数据,扩写数据,Arena数据等方式,满足不同评测需求。
完备的审核机制:机审+人审,多重审核机制,保证数据质量。
数据统计
数据评估
关于AGI特别声明
本站AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用提供的AGI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用实际控制,在2025年3月25日 下午6:34收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用不承担任何责任。
相关导航

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。

MMBench
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。

CLUE中文语言理解基准测评
CLUE中文语言理解基准测评

H2O.ai
Our Al-powered search assistant helps you get answers to questions about your documents, websites and workplace content.
暂无评论...