最近,马斯克和他的xAI团队搞了个大新闻,发布了最新版的Grok3。这可不是一般的AI,马斯克自己都夸它是“地球上最聪明的人工智能”。据说,他整个周末都在和团队一起打磨这个产品,可见对它的重视程度。不过呢,这款被吹上天的AI,却被一个简单的问题难住了。有人拿“9.11和9.
关于“9.11和9.9哪个大”,这样一道小学生难度的数学题难倒了一众海内外AI大模型。7月17日,第一财经报道了国内外“12个大模型8个都会答错”这道题的现象,大模型的数学能力引发讨论。“从技术人员的角度看答错这个问题并不惊讶。
近日,马斯克与xAI团队在直播中发布了最新版本的Grok-3,并宣称其为“地球上最聪明的AI”。然而,尽管Grok-3在数学、科学和编程等领域的基准测试中表现优异,但在回答一些常识性问题时,仍然存在明显的不足。例如,当被问及“9.11和9.
9月13日,OpenAI发布新模型o1,此前被网友诟病的大模型比较不出9.11和9.9大小的问题,终于在新版大模型中得到了正确结论。 经过测试,o1-preview依旧给出错误答案,认为9.11更大。而o1-mini经过短暂“思考”,纠正了此前错误:“抱歉,上次的回答有误。9.
一、20万张H100堆出的"地表最强",为何栽在小学数学题?"这不是AI进化史,这是马斯克的大型打脸现场!" 当马斯克在迪拜世界政府峰会上宣称Grok3"超越任何已发布模型"时,全球科技圈都以为见证了一个新王者的诞生。
万亿算力背后的残酷真相:边际效应已然显现 1. 算力军备竞赛数据对比 模型 显卡数量 训练时长 训练成本 性能表现 Grok-3 20 万 H100 2 亿小时 超 50 亿美元 MMLU 评分 89.75 DeepSeek-V3 2000 H800 2 个月 600 万美元 MMLU 评分 88.92 GPT-4o 未公开 未公开 约 1 亿美元 MMLU 评分 87.35 触目惊心的性价比:Grok-3 耗费超 DeepSeek-V3 830 倍的硬件资源,性能提升却不足 1% 25 2. 行业专家深度剖析 达观数据张健:“Grok-3 遵循‘大力出奇迹’的缩放定律,更像是用金砖铺路的奢靡实验” Omdia 分析师王珅:“xAI 的算力部署激进程度前所未闻,但边际收益已逼近临界点” 韦豪创芯王智:“基础架构创新停滞,堆算力成为唯一可见路径” .
当马斯克在5月23日的直播中宣称Grok3是"地球上最聪明的人工智能"时,没人料到这个价值数十亿美元的AI系统会在基础数学题上栽跟头。发布会后实测显示,这款计划用于火星任务计算的AI,竟无法正确比较9.11与9.9的数值大小。
红星资本局7月17日消息,今日,AI大模型在数学上的翻车话题引发不小关注。一道“9.11和9.9哪个大”的简单数学题,竟困住了海内外一众AI大模型平台。数学偏科8个大模型全答错9.11和9.9哪个更大?
近日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”然而,有人向Grok3提问“9.11与9.9哪个大?
当马斯克在直播间高举"世界最聪明AI"的招牌时,他大概没想到第二天会被一道小学数学题狠狠打脸。这场价值20万块显卡、两亿训练小时的科技豪赌,最终败给了9.11和9.9的数值比较,像极了科幻电影里机器人被扳手住齿轮卡的黑色幽默。
一、一场发布会引发的“数学危机”2025年2月19日,马斯克高调发布新一代AI模型Grok3,称其为“地球上最聪明的人工智能”,并计划将其用于SpaceX火星任务计算。然而,这款在数学、科学和编程基准测试中“碾压同行”的模型,却在回答“9.11与9.9哪个大”时翻车,坚称“9.