在模型能力上,Grok-3在推理、数学、代码、数学等多方面,都取得了新的突破,Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分,在GPQA上取得了85分,跑赢了o3 mini、DeepSeek-R1等。
此次直播伊隆·马斯克主要负责听,两位华人研究员坐在C位撑场,分别是曾就职于谷歌的研发小组N2Formal的吴宇怀,以及多伦多大学计算机科学助理教授Jimmy Ba,他是“深度学习三巨头之一”、图灵奖得主辛顿的学生,曾在Meta担任研究员。
还是熟悉的 Benchmark 基准测试, xAI 拉来了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 还有 GPT-4o 四个模型,跟自家孩子进行对比。