文丨丁建庭蛇年春节,网上网下一片欢腾,既是欢度首个“非遗”春节,也是欢庆中国人工智能的异军突起——“深度求索”(DeepSeek)连续霸榜刷屏,引发国内外AI圈震动。图源:视觉中国DeepSeek究竟是一个怎样的存在?
1 发布多个大模型:基于自研训练框架、自建智算集群和万卡算力等资源,仅用半年时间便已发布并开源多个百亿级参数大模型,如 DeepSeek-LLM 通用大语言模型、DeepSeek-Coder 代码大模型,并在 2024 年 1 月率先开源国内首个 MoE 大模型,各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。
这几天关于Deepseek的流量特别大,关于Deepseek的各种视频的播放量也非常高,关于Deepseek的文章的阅读量也非常高,在一两天的时间内有人用这个Deepseek赚的锅满钵满,可以说已经赚翻了!那么究竟是怎么赚的钱呢?
几乎是一夜之间,“来自东方的神秘力量”又一次震撼海外人士心脏。1月27日,由国产大模型公司杭州深度求索开发的Deepseek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。
据报道,消息人士称,美国正在对DeepSeek进行调查。不过美国官方的调查,可不只是吃不到葡萄就说葡萄酸的问题,它是真的想搞清楚DeepSeek是如何做到的,毕竟这关乎着美国的AI霸权,如果大家都只用很少的显卡就能训练出一流的大模型,美国也就无法垄断了。