deepseek论文蒸馏

资讯

抬杠长学问，deepseek的蒸馏和爬虫
从大数据的网络语料中训练出大模型，那是从0到1，而从大模型中蒸馏优化，则是从1到9，这是中国人所擅长的。
讀書狼
3评论
DeepSeek：“蒸馏”与“原创”的AI风暴
它成功突破了多个开源大模型的性能瓶颈，在众多测试中表现出色，甚至超越了阿里自研的 Qwen2.5-72B 和 Meta 的 Llama 3.1-405B 等知名模型，与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5-Sonnet 等闭源大模型相抗衡，展现出了强大的实力。
岳阳新浪潮
2评论
DeepSeek是如何通过“蒸馏”技术打造自己的AI模型
1 引言:最近，外媒对中国公司——DeepSeek进行了猛烈抨击，指控其采用了所谓的“蒸馏”技术，涉嫌抄袭甚至作弊。
拉菲朱
DeepSeek的“蒸馏模型”超越原创？美国要对“蒸馏技术”下手
中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象，并触发了本周一美国科技股“崩盘”。1月29日，OpenAI最新称，它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型，并暗示这可能违反了OpenAI的服务条款。
第一财经
623评论
看deepseek如何回怼openai模型蒸馏之缪词
Have you not heard that “Indigo blue is extracted from the indigo plant， yet it is bluer than the plant itself”?
水晶矩阵
DeepSeek，突传大消息！
热度居高不下！最近几天，DeepSeek从惊艳到惊吓，从被认可到被质疑，再从被威胁到些许的认可，事情处于不断的演化当中。今天早上，这款大模型再度迎来大消息。
券商中国
197评论
美国又在叫嚣：DeepSeek"窃取"了OpenAI的知识？
其次，斯坦福实验室的检测工具基于概率统计模型，其0.32的数据继承指数实际反映的是参数空间重叠度，并不能直接证明训练数据来源非法——正如DeepSeek首席科学家李航在声明中指出:“这就像通过两幅油画的笔触相似度指控画家剽窃，却忽视他们可能临摹过同一本《芥子园画谱》。”
听風論
3评论
DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150+天才集结，开出千万年薪
来源：市场资讯新智元报道【新智元导读】外媒SemiAnalysis的一篇深度长文，全面分析了DeepSeek背后的秘密——不是‘副业’项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪，攻克MLA直接让推理成本暴降．．．．．．DeepSeek这波强攻，彻底把O
新浪财经

视频