trifle4172 发表于 2024-7-11 11:14:37

研究团队推出OlympicArena作为AI的智力测试基准,来测试AI的水平

结果表明:
-Claude-3.5-Sonnet在整体表现上比GPT-4o更好,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。

-Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。

-来自开源社区的AI模型性能明显落后于这些专有模型。

-这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。




https://gair-nlp.github.io/OlympicArena/

页: [1]
查看完整版本: 研究团队推出OlympicArena作为AI的智力测试基准,来测试AI的水平