返回列表 发布新帖
AI

研究团队推出OlympicArena作为AI的智力测试基准,来测试AI的水平

79 0
发表于 2024-7-11 11:14:37 | 查看全部 阅读模式

马上注册,加入我们,一起分享

您需要 登录 才可以下载或查看,没有账号?立即注册

×
结果表明:
-Claude-3.5-Sonnet在整体表现上比GPT-4o更好,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。

-Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。

-来自开源社区的AI模型性能明显落后于这些专有模型。

-这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。

QQ截图20240711111244.jpg


https://gair-nlp.github.io/OlympicArena/

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关灯 在本版发帖
关注我们
返回顶部
快速回复 返回顶部 返回列表