逻辑推理被认为是当前大模型最难以攻克的一道关卡。某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图文| 王晓凯一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.
作者|西梅汁编辑|星奈媒体|AI大模型工场18日中午,马斯克掏出号称“地表最强”大模型Grok3。官方宣称,Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.
大模型那么聪明,为什么数学题总是做不对、做不会?从答高考数学卷难及格到普通数字比大小出错,大模型总算让大家觉得并非“无所不能”。这一方面让普通人开心,毕竟讲到AI取代人类看起来为时尚早,而另一方面,大模型的推理究竟“靠不靠谱”将影响着千行百业落地实际应用的速度。