deepseek zero复现

资讯

Deepseek R1 Zero成功复现全过程记录
先展示一下结果:基座模型Qwen 7B在测试集上只会基础的step by step逻辑。Demo 4， Settings: prompt mean 276 tokens， origin response mean 400 tokens。
极市平台
200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源
资源消耗低，通过模型解耦与分离进一步降低算力需求，该项目支持在一张 A800 加一张 3090 完成 7B 模型的训练。根据 AutoDL 平台计费标准，一张 A800 5.98 元 / 时，一张 3090 1.32 元 / 时。
机器之心Pro
LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键
居然能逼得OpenAI CEO奥特曼承认:「我们在开源/开放权重AI模型方面，一直站在了历史的错误一边。
新浪财经
237评论
DeepSeek，展望蛇年A股！AI的ASIC时代到来？
上周，DeepSeek R1发布，在全球引发巨大关注。1月27日，DeepSeek登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，因过于火爆其官网一度在当天上午再次“宕机”。DeepSeek的横空出世，堪称中国AI的“里程碑”时刻。
券商中国
43评论
DeepSeek 霸榜 App Store，中国 AI 引发美国科技圈地震的一周
所以也难怪 Meta CEO 扎克伯格、图灵奖得主 Yann LeCun 以及 Deepmind CEO Demis Hassabis 等人都对 DeepSeek 给予了高度评价。
新浪财经
92评论
诞生自杭州的DeepSeek跻身美国App竞技榜前三，神秘东方力量震撼硅谷
潮新闻客户端记者张云山“神秘东方力量”DeepSeek给硅谷带来的浪花，还在不断增强，刚刚，DeepSeek-R1跻身大模型竞技榜前三，与ChatGPT-4o齐名，超越Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。
钱江晚报
1评论
DeepSeek登顶下载榜：冯骥、朱啸虎力荐AI界拼多多
就在刚过去的周末，国产AI大模型DeepSeek反超ChatGPT，一举登顶美区苹果应用商店免费App排行第一，引发硅谷关注。
南方都市报
3评论
DeepSeek最强专业拆解来了，清交复教授超硬核解读
智东西2月3日报道，周日晚间，五位高校教授夜话DeepSeek，从模型方法、框架、系统、基础设施等角度，阐述DeepSeek的技术原理与未来方向，揭秘其优化方法如何提升算力能效，信息量很大。
新浪财经
6评论
惊！复旦教授揭秘 DeepSeek，AI 界风云将起？
最近科技圈啥最火？没错，就是 DeepSeek！这名字一出现，就像往平静湖面扔了颗巨石，激起千层浪。这不，连复旦大学的教授都坐不住，开始热议起来了！复旦大学的专家们指出，DeepSeek 凭借开源的推理大模型 R1 和 V3，在全球 AI 领域成功出圈。
G数码
中信建投：DeepSeek核心十问十答
其中，2024年12月26日发布的DeepSeek-V3为671B参数的自研 MoE 模型，运行时仅需激活37B，在 14.8T token 的数据上进行了预训练;
新浪财经

视频