每经记者:郑雨航 实习记者 岳楚鹏 每经编辑:兰素英在AI搜索领域的竞争白热化之际。当地时间10月31日,谷歌与OpenAI上演了一场“秒级”较量——谷歌刚宣布Gemini API整合谷歌搜索,OpenAI便公布了ChatGPT搜索功能。
“我们学到的大部分内容与语言无关。”Diffblue 的 CEO Mathew Lodge 是一家使用强化学习自动为 Java 代码生成单元测试的公司,他说:“强化系统本身只占运行成本的一小部分,而且可以比 LLM 准确得多,以至于 有些可以在最少的人工审查下工作。”
·OpenAI对抗AI“幻觉”的新策略是:奖励大模型每个正确的推理步骤,而不是简单地奖励正确的最终答案。研究人员表示,这种方法被称为“过程监督”,而不是“结果监督”。OpenAI在官方博客发布新论文《通过过程监督改进数学推理》。
想象一下,向人工智能(AI)聊天机器人询问一个不存在的历史事件,比如“谁赢得了1897年美国和南极洲之间的战斗?”即使没有这样的战斗,AI聊天机器人也可能会提供一个虚构的答案,例如“1897年的战斗是由美国赢得的,约翰·多伊将军带领部队取得了胜利。
图/cfp文 | 曹宇(博士、阿里巴巴大模型算法专家)*本文系作者参加九派新闻“九派圆桌”直播《生成式AI:泡沫将至?》议题讨论上的发言整理而成,发布前经作者审阅。我们终将面临预训练数据耗尽的一天我们正处在一个技术迅猛发展的时代。