深度求索公司研发的DeepSeek大模型最近“出圈”,其实,国内学术界和产业界使用这个系列的大模型已有一段时间。解放日报·上观新闻记者今天采访时了解到,上海交通大学计算机科学与工程系教授赵海去年已弃用GPT-4,改用DeepSeek-V3生成合成数据,开发垂类大模型。
首先,强大的技术基因是DeepSeek破圈的基石。以DeepSeek-V3为例,它凭借创新的多头潜在注意力和DeepSeek MoE架构,以仅1.2m H800 GPU小时的训练成本、558万美元的花费,在多项评测中超越GPT-4等国际顶尖模型。
想必大家已经看到最近美股的惨况了吧,今天我们就来说说这一切的源头:DeepSeek。在权威测评平台AI Benchmark的跨领域挑战赛中,DeepSeek创下89.7%的综合准确率记录:既能在蛋白质结构预测任务中达到AlphaFold 3的精度水平,又在法律文书生成任务中超越专业法律AI工具LawGeex。
1月27日11点左右,DeepSeek官网一度显示“DeepSeek网页/API不可用”,功能现已恢复。昨日(26日),DeepSeek也“崩”了一次。DeepSeek随后回应称,1月26日下午DeepSeek确实出现了局部服务波动,但问题在数分钟内得到解决。
龙年的“龙尾”一扫AI世界,国内创业企业DeepSeek(深度求索)的推理大模型横空出世,让全球惊叹中国大模型也有了“ChatGPT时刻”。事实上,与DeepSeek团队一样,“求索”AI大模型也是众多高校学子的志趣所在。即使迎新春的寒假里,他们也留校不停课、实战大模型。