2025年aime成绩

资讯

拿20万块GPU，马斯克上演「AI复仇记」
在模型能力上，Grok-3在推理、数学、代码、数学等多方面，都取得了新的突破，Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分，在GPQA上取得了85分，跑赢了o3 mini、DeepSeek-R1等。
蓝鲸新闻
全球华人决战AI之巅！马斯克Grok 3险胜DeepSeek
此次直播伊隆·马斯克主要负责听，两位华人研究员坐在C位撑场，分别是曾就职于谷歌的研发小组N2Formal的吴宇怀，以及多伦多大学计算机科学助理教授Jimmy Ba，他是“深度学习三巨头之一”、图灵奖得主辛顿的学生，曾在Meta担任研究员。
智东西
20万GPU缔造“神话”？马斯克的“地球上最聪明AI”Grok-3震撼登场｜科技观察
封面新闻记者边雪在人工智能领域，一个新的里程碑被树立了。北京时间2025年2月18日，埃隆·马斯克（Elon Musk）领导的xAI团队，成功发布了被他称为“地球上最聪明的AI”——Grok-3。
封面新闻
1评论
马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1！疯狂复仇OpenAI
最后，Karpathy给出的评价是，「Grok-3 + Thinking表现似乎达到了与o1 Pro相当的水平，并且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking」。
新智元
60评论
马斯克用20万卡集群，做出了比DeepSeek还强的模型？
还是熟悉的 Benchmark 基准测试， xAI 拉来了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 还有 GPT-4o 四个模型，跟自家孩子进行对比。
差评X.PIN
1评论
做美国奥数题顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭
【新智元导读】在数学推理中，大语言模型存在根本性局限:在美国数学奥赛，顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。
新智元
63评论

在线举报