大模型事件推理

资讯

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板|快评
某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图一道小学数学题，成功难倒了超过一半的大模型。近日，据第一财经报道，经测试，在“9.11和9.9两个数字哪个更大”这个基础的数学题上，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误。
新京报
6评论
MIT最新研究：多个AI协作有助提高大模型推理能力和准确性
·麻省理工学院计算机科学与人工智能实验室（CSAIL）研究团队发现，多个语言模型协同工作胜过单一模型，多个AI协作有助于提高大型语言模型的推理能力和事实准确性。一种新颖的方法允许多种语言模型进行协作，经过多轮辩论，最终得出统一且精确的响应。
澎湃新闻
冯丹代表：加速大模型推理创新促进人工智能产业发展
来源：人民网全国人大代表、华中科技大学副校长冯丹。受访方供图人民网北京3月7日电（记者王绍绍）“当前，全球人工智能竞争已进入以大模型为核心的‘智能密度’比拼阶段。加快大模型推理落地，既是突破技术封锁的关键路径，更是抢占产业智能化制高点的战略需求。
环球网
大模型推理核心技术原理，全流程讲解
大模型编程技术
74评论
大模型竞争愈发激烈：Anthropic推出混合推理模型，可控制模型思考时间
2月25日，由亚马逊支持的AI初创公司Anthropic推出首个混合推理模型Claude 3.7 Sonnet。它可以产生近乎即时的反应和对用户可见、可扩展的逐步思考。API用户还可以控制模型思考时间。
澎湃新闻
推理过程不再是“黑盒子”？星火大模型让思考看得见
3日，科大讯飞宣布，于近日完成了星火深度推理模型X1的全面升级，并基于星火X1首发星火医疗大模型X1，目前，科大讯飞旗下讯飞晓医、星火教师助手、AI学习机等重要产品也实现了全新升级。例如，此次升级在数学答题方面的表现实现了全面提升，特别是在应对竞赛级难题时，提升尤为显著。
南方+客户端
大模型的幻觉是怎么回事
原载于《中国青年》杂志2025年第5期大模型的幻觉是怎么回事文—陈经大模型问世以来，幻觉就是一个“顽疾”。不管多先进的AI，总有不靠谱的时候，一本正经地编瞎话，没经验的人往往容易上当。近日DeepSeek爆火，许多平台纷纷接入。
中国青年杂志
3评论
大模型不会推理，为什么也能有思路？有人把原理搞明白了
大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论，改变了我们对于 AI 智力的看法。
机器之心Pro
9评论

视频

在线举报