它成功突破了多个开源大模型的性能瓶颈,在众多测试中表现出色,甚至超越了阿里自研的 Qwen2.5-72B 和 Meta 的 Llama 3.1-405B 等知名模型,与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5-Sonnet 等闭源大模型相抗衡,展现出了强大的实力。
中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象,并触发了本周一美国科技股“崩盘”。1月29日,OpenAI最新称,它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型,并暗示这可能违反了OpenAI的服务条款。
Have you not heard that “Indigo blue is extracted from the indigo plant, yet it is bluer than the plant itself”?
其次,斯坦福实验室的检测工具基于概率统计模型,其0.32的数据继承指数实际反映的是参数空间重叠度,并不能直接证明训练数据来源非法——正如DeepSeek首席科学家李航在声明中指出:“这就像通过两幅油画的笔触相似度指控画家剽窃,却忽视他们可能临摹过同一本《芥子园画谱》。”
来源:市场资讯新智元报道 【新智元导读】外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是‘副业’项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......DeepSeek这波强攻,彻底把O