AI大模型做数学题翻车

资讯

9.11和9.9哪个大？简单数学题8家AI大模型平台都翻了车
红星资本局7月17日消息，今日，AI大模型在数学上的翻车话题引发不小关注。一道“9.11和9.9哪个大”的简单数学题，竟困住了海内外一众AI大模型平台。数学偏科8个大模型全答错9.11和9.9哪个更大？
红星新闻
6评论
马斯克旗下AI大模型直播演示“翻车”！网友：浪费算力
南都讯马斯克旗下的xAI团队于2月18日发布了其旗下的Grok3大模型，宣称其在数学、编程等领域“超越所有主流模型”,但实际直播演示中，却多次“翻车”，引发广泛质疑。据悉，Grok3消耗了DeepSeek V3的263倍算力，但性能提升仍然有限，又被网友调侃为“浪费算力的硅基资源毁灭者”。【视频编辑/剪辑陈皓晖】
南方都市报
究竟｜9.11比9.8大？大模型们为何会在小学数学题上集体翻车
万亿参数大模型竟然回答不了小学数学题？最近，面对9.11和9.8哪个大的问题上，一波大模型集体翻车了。7月17日，澎湃新闻记者实测13个主流大模型，询问9.11和9.
澎湃新闻
7评论
这道小学数学题 AI竟集体答错
7月13日，最新一期的《歌手》公布排名：孙楠得票13.8%，外国歌手香缇莫得票13.11%。这引发了一些网友对排名的质疑。有网友认为13.11%大于13.8%，因此，香缇莫的得票率比孙楠高。随后，关于13.8%和13.11%大小比较，一度成为了网络上的热门话题。
齐鲁壹点
热闻|首个AI高考全卷评测结果发布，数学全都不及格，哪家大模型排第一？
上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩，阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星（InternLM2-20B-WQX）成为三甲，得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好，但数学成绩不如人意。
齐鲁壹点
分不清9.9与9.11谁大？大模型数学能力堪忧业内：或因相关问题非各厂商训练重点
每经记者：可杨每经编辑：梁枭13.11%和13.8%哪个大？9.9和9.11哪个大？两道小学数学难度的题目难倒了众多主流大模型，在比大小的过程中，不少大模型给出了错误的答案。
每日经济新闻
1评论
翻车了！9.11和9.9哪个大？记者实测12个大模型8个都答错
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大？
上观新闻
9.9和9.11哪个大？马斯克的Grok-3也翻车了
9.11和9.9哪个大？这是一个曾让不少大模型“翻车”的数学题。北京时间2月19日，在马斯克发布自称“ 世界上最聪明的人工智能”Grok-3后，有用户尝试测试版本，发现该模型在不加任何定语及标注的情况下，无法正确回答刁难AI大模型的经典问题。
第一财经
25评论

视频

问答

元宇宙退潮，Roblox跌下神坛，OpenAI将随着AI大模型走向何方？
头条问答
“AI教父”警告人类风险迫近，大模型真正的威胁在哪里？
头条问答
AI浪潮袭来，APUS如何在大模型诸神之战中脱颖而出？
头条问答

在线举报