澎湃新闻记者 葛明宁 实习生 杨纯希赵赫渴望着快乐。他说,希望自己是一只柴犬,看上去无忧无虑。他去世后,朋友在网上买了一只纸狗,糊好了圆圆胖胖,烧给了他。一并烧给他的还有,“大别墅,全套家电,苹果电脑和手机”,堆起来能填满整辆轿车的纸制元宝和金条,让他到那边“可劲儿花”。
前段时间 OpenAI 发布了针对复杂推理问题的大模型——o1,也就是草莓模型。Ilya 一句话概括强化学习:让 AI 用随机的路径尝试新的任务,如果效果超预期,那就更新神经网络的权重,使得 AI 记住多使用这个成功的事件,再开始下一次的尝试。