周鸿祎称,这两天美国对DeepSeek 痛下杀手,政府制裁、起诉,Openai公司也指责其从自家 GPT 里蒸馏能力,甚至美国政府据说要宣布蒸馏为非法。但蒸馏是人工智能训练普遍方法,是把大模型能力总结出来加强小模型。
它成功突破了多个开源大模型的性能瓶颈,在众多测试中表现出色,甚至超越了阿里自研的 Qwen2.5-72B 和 Meta 的 Llama 3.1-405B 等知名模型,与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5-Sonnet 等闭源大模型相抗衡,展现出了强大的实力。
我本想写一篇关于 DeepSeek R1 的科普文,但发现很多人仅仅把它理解为 OpenAI 的复制品,而忽略了它在论文中揭示的“惊人一跃”,所以,我决定重新写一篇,讲讲从 AlphaGo 到 ChatGPT,再到最近的 DeepSeek R1 底层原理的突破,以及为什么它对所谓的 AGI/ASI 很重要。