研究团队推出OlympicArena作为AI的智力测试基准,来测试AI的水平
结果表明:-Claude-3.5-Sonnet在整体表现上比GPT-4o更好,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。
-Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。
-来自开源社区的AI模型性能明显落后于这些专有模型。
-这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。
https://gair-nlp.github.io/OlympicArena/
页:
[1]