某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。
·麻省理工学院计算机科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。一种新颖的方法允许多种语言模型进行协作,经过多轮辩论,最终得出统一且精确的响应。
来源:人民网 全国人大代表、华中科技大学副校长冯丹。受访方供图人民网北京3月7日电 (记者王绍绍)“当前,全球人工智能竞争已进入以大模型为核心的‘智能密度’比拼阶段。加快大模型推理落地,既是突破技术封锁的关键路径,更是抢占产业智能化制高点的战略需求。
2月25日,由亚马逊支持的AI初创公司Anthropic推出首个混合推理模型Claude 3.7 Sonnet。它可以产生近乎即时的反应和对用户可见、可扩展的逐步思考。API用户还可以控制模型思考时间。
3日,科大讯飞宣布,于近日完成了星火深度推理模型X1的全面升级,并基于星火X1首发星火医疗大模型X1,目前,科大讯飞旗下讯飞晓医、星火教师助手、AI学习机等重要产品也实现了全新升级。例如,此次升级在数学答题方面的表现实现了全面提升,特别是在应对竞赛级难题时,提升尤为显著。
原载于《中国青年》杂志2025年第5期大模型的幻觉是怎么回事文—陈经大模型问世以来,幻觉就是一个“顽疾”。不管多先进的AI,总有不靠谱的时候,一本正经地编瞎话,没经验的人往往容易上当。近日DeepSeek爆火,许多平台纷纷接入。
大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论,改变了我们对于 AI 智力的看法。