deepseek为什么模型越大越慢

资讯

DeepSeek颠覆了什么？——大模型“国产之光”破局的启示
一家人工智能初创企业浅浅扇动两下翅膀，即掀起全球科技界的一阵“海啸”。　　短短30天，中国初创企业深度求索（DeepSeek）先后发布两款性能比肩GPT-4o的大模型，“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。
经济参考报
1评论
deepseek卡的没法用？一招彻底解决
它用相当于openAI几十分之一的成本，做出了性能上不输chat4o和chatgpt o1的世界顶尖模型，还直接开源了!
AI生活研究所
大模型隐藏玩家上桌：DeepSeek 向左，面壁向右
目前，第一类卷向大参数的玩家也都在寻找高效解决方案，连 OpenAI 此前发布 GPT-4o mini 切入小模型市场，Meta Llama 3.1-8B、微软 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是头部玩家在做的布局。
雷峰网
10评论

视频