H2O.ai翻译站点

3个月前发布 123 0 12

Our Al-powered search assistant helps you get answers to questions about your documents, websites and workplace content.

所在地：

美国

语言：

en

收录时间：

2025-03-25

打开网站手机查看

AI模型测评 # 开源 # 高性能

H2O.ai

H2O.ai

主要功能：
相关性：H2O EvalGPT 根据行业特定数据评估流行的大语言模型，从而了解其在实际场景中的表现。
透明度：H2O EvalGPT 通过开放的排行榜显示顶级模型评级和详细的评估指标，确保完全可重复性。
速度和更新：全自动和响应式平台每周更新排行榜，显着减少评估模型提交所需的时间。
范围：评估各种任务的模型，并随着时间的推移添加新的指标和基准，以全面了解模型的功能。
交互性和人工一致性：H2O EvalGPT 提供手动运行 A/B 测试的能力，提供对模型评估的进一步见解，并确保自动评估和人工评估之间的一致性。

数据统计

相关导航

阿里云AI学习路线

阿里云开发者社区覆盖云计算、人工智能、云原生、大数据、数据库、安全、开发、运维等技术领域，为开发者提供分享、交流、学习、认证、实践、活动等一站式服务能力。

AGI

AGI-Eval评测社区

CLUE中文语言理解基准测评

CLUE中文语言理解基准测评

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

MMBench

MMBench是一个多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。

暂无评论

none

暂无评论...