近期,DeepSeek V3 的发布让大家了解到超大规模 MoE 模型的效果及另一种实现方法,而同期,Qwen 也在研发超大规模的 MoE 模型 Qwen2.5-Max,使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
自2016年来,人工智能就成为新传研究非常重要的一个领域,这个领域我们都看过不知道多少论文,背过不知道多少的“喂饭材料”。然而,以后的喂饭材料可能又要变了,而且可能让机器人给你喂。这就是最近在社交媒体中刷屏,甚至在小红书之后冲上海外APP榜单第一名的Deepseek。
近期市场传闻美国可能对深度求索等中国AI企业实施技术限制,这反映出中美科技竞争已进入深水区。截至2023年,中国AI专利申请量占全球40%,核心产业规模超5000亿元,这种技术突破显然触动了某些国家的战略焦虑。