Deep seek自己蒸馏自己

资讯

DeepSeek是如何通过“蒸馏”技术打造自己的AI模型
1 引言:最近，外媒对中国公司——DeepSeek进行了猛烈抨击，指控其采用了所谓的“蒸馏”技术，涉嫌抄袭甚至作弊。
拉菲朱
2评论
周鸿祎谈模型蒸馏：并非数据偷窃，DeepSeek 走出创新之路
周鸿祎称，这两天美国对DeepSeek 痛下杀手，政府制裁、起诉，Openai公司也指责其从自家 GPT 里蒸馏能力，甚至美国政府据说要宣布蒸馏为非法。但蒸馏是人工智能训练普遍方法，是把大模型能力总结出来加强小模型。
一叶障目
DeepSeek：“蒸馏”与“原创”的AI风暴
它成功突破了多个开源大模型的性能瓶颈，在众多测试中表现出色，甚至超越了阿里自研的 Qwen2.5-72B 和 Meta 的 Llama 3.1-405B 等知名模型，与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5-Sonnet 等闭源大模型相抗衡，展现出了强大的实力。
岳阳新浪潮
2评论
对 Deepseek 从赞叹到压制，硅谷为何一周内变脸
这一切源自 1 月 20 日 DeepSeek 发布的 R1 推理模型——它在多个逻辑任务上的表现与 OpenAI-o1 旗鼓相当，而其运行成本仅为 OpenAI 费用的约 2%。
极客公园
1评论
Deepseek R1可能找到了超越人类的办法
我本想写一篇关于 DeepSeek R1 的科普文，但发现很多人仅仅把它理解为 OpenAI 的复制品，而忽略了它在论文中揭示的“惊人一跃”，所以，我决定重新写一篇，讲讲从 AlphaGo 到 ChatGPT，再到最近的 DeepSeek R1 底层原理的突破，以及为什么它对所谓的 AGI/ASI 很重要。
CSDN
280评论
收藏！DeepSeek 百问百答（一）
一、综合类1、DeepSeek 为什么爆火?答：一是高性能与低成本的结合：DeepSeek 提供的服务既具备强大的性能又极具性价比，吸引了大量用户和企业采用。
李金锐
DeepSeek 的崛起：国产 AI 发展范式的变革，抑或短暂的市场波动？
算力利用率优化:相比 OpenAI 依赖超大规模 GPU 集群进行训练，DeepSeek 通过自适应计算分配机制提高了 GPU 资源利用率，降低了能耗，同时确保模型收敛速度不受影响。
钛媒体APP
40评论

视频