DeepSeek的多头注意力

资讯

当我们谈论DeepSeek时，是在谈论什么
连日来，随着DeepSeek持续霸榜热搜，其创始人梁文锋的许多观点也热传于网络。
北青网
DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代
《科创板日报》12月30日讯日前，深度求索DeepSeek-V3横空出世，在AI行业内引发巨震，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。
财联社
19评论
DeepSeek引爆全球科技圈，AI应用层能否迎来新浪潮？
21世纪经济报道记者赵娜上海报道1月20日，中国人工智能公司深度求索（DeepSeek）发布开源模型DeepSeek-R1，一举成为全球科技行业的焦点。DeepSeek的这一突破引起了众多风险投资人和科技创业者的关注。
21世纪经济报道
港科大（广州）协理副校长熊辉：DeepSeek推动AI平民化
“DeepSeek的出现标志着AI技术从‘贵族化’走向‘平民化’。”香港科技大学（广州）协理副校长、人工智能学域创始主任、讲座教授熊辉在接受广州日报记者采访时，一语中的地道出DeepSeek对AI产业的深远影响。熊辉以春秋时期的战争为例，形象地解释了AI技术的变革。
广州日报
当我们谈论DeepSeek时，是在谈论什么
连日来，随着DeepSeek持续霸榜热搜，其创始人梁文峰的许多观点也热传于网络。
北京青年报

视频

在线举报