
MMBench
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。
主要功能:
大模型榜单:基于通用评测方案,提供业内大语言模型的能力得分排名榜单。榜单涵盖综合评测和各能力项评测。数据透明、权威,帮助您深入了解每个模型的优缺点,定期更新榜单,确保您掌握最新信息,找到最适合的模型解决方案。
AGI-Eval人机评测比赛:深入模型评测的世界,与大模型协作助力技术发展构建人机协同评测方案
评测集:
公开学术:行业公开学术评测集,支持用户下载使用。
官方评测集:官方自建评测集,涉及多领域的模型评测。
用户自建评测集:平台支持用户上传个人评测集,共建开源社区。完美实现自动与人工评测相结合;并且还有高校大牛私有数据集托管
Data Studio:
用户活跃度高:3W+众包用户平台,实现更多高质量真实数据回收。
数据类型多样:具备多维度,多领域的专业数据。
数据收集多元化:如单条数据,扩写数据,Arena数据等方式,满足不同评测需求。
完备的审核机制:机审+人审,多重审核机制,保证数据质量。