
MMBench
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。
主要功能:
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
其中基础能力能力包括:语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。专业能力包括: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
本站AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用提供的CLUE中文语言理解基准测评都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用实际控制,在2025年3月25日 下午6:30收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AppStore 集导航收录了全球数百款不同类型的 AI 工具和APP应用不承担任何责任。