大模型标准逻辑推理

资讯

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板 | 新京报快评
逻辑推理被认为是当前大模型最难以攻克的一道关卡。某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图文| 王晓凯一道小学数学题，成功难倒了超过一半的大模型。近日，据第一财经报道，经测试，在“9.11和9.
新京报评论
2评论
Deepseek大模型推理算法其实很简单 | 陈经
人们听说大模型已经有两年多了，不少人自己测试了对话。一个朋友，在3000多元的联想lecoo酷310 PC机上，就安装Deepseek R1成功了。
袁岚峰
181评论
习惯于接受大模型给出的“标准答案”，会有怎样的后果？
近期，随着国产人工智能大模型的崛起，多地政府积极拥抱新技术，部署本地政务大模型，有望在政策解读、民意识别、公文处理和知识库构建等场景推广使用。传统政务信息处理模式迎来新的变革契机。
上观新闻
首个国家大模型标准测试结果公布，腾讯混元入选
新京报贝壳财经讯（记者白金蕾）12月23日消息，全国首个官方“大模型标准符合性测试“结果公布，腾讯混元大模型凭借在通用性、智能性、安全性等多个指标上的领先成绩，首批通过国家大模型标准测试。
新京报
一篇文章系统看懂大模型
上周在分享《我的AI产品经理转型之路》这篇文章的时候，就预告了一下，三白将输出一篇文章帮助大家系统的学习和了解大模型，今天来交稿了;
人人都是产品经理
10评论
我们测试了市面最强的三款推理模型，“全能王”出乎意料
作者｜西梅汁编辑｜星奈媒体｜AI大模型工场18日中午，马斯克掏出号称“地表最强”大模型Grok3。官方宣称，Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型，包括GPT-4o、Claude 3.
AI大模型工场
九章大模型：AI带来重新定义智慧教育的机会
大模型在教育领域的讨论度居高不下，应用浪潮保持火热势头。多家教育科技公司纷纷以搭载AI大模型为产品卖点，并应用在教育场景或学科辅导中。AI大模型如何赋能教育？在教育场景中究竟能够发挥多大作用？
新京报
教大模型学数学，总共分几步？
大模型那么聪明，为什么数学题总是做不对、做不会？从答高考数学卷难及格到普通数字比大小出错，大模型总算让大家觉得并非“无所不能”。这一方面让普通人开心，毕竟讲到AI取代人类看起来为时尚早，而另一方面，大模型的推理究竟“靠不靠谱”将影响着千行百业落地实际应用的速度。
第一财经
1评论

视频

在线举报