大语言模型deepseek-v3

资讯

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf
来源：转载机器之心报道机器之心编辑部今天，一个国产大模型火遍了世界。打开 X，满眼都是讨论 DeepSeek-V3 的推文，而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.
人工智能学家
57评论
全球最新排名：DeepSeek-V3夺开源模型第一！是“新瓶装旧酒”还是实质性突破？业内人士详解
每经记者：郑雨航每经实习记者：岳楚鹏每经编辑：高涵2024年12月26日，深度求索（DeepSeek）发布了其最新人工智能（AI）大模型DeepSeek-V3，并同步开源，刷屏中外AI圈。
每日经济新闻
114评论
荣耀完成股改，将适时启动IPO；DeepSeek V3发布，赢得业界赞誉丨数智早参
每经记者：李少婷每经编辑：张海妮丨 2024年12月30日星期一丨NO.1 荣耀完成股改，将适时启动IPO12月28日，荣耀方面表示，股改顺利，已于当日完成。公司名称由“荣耀终端有限公司”变更为“荣耀终端股份有限公司”。
每日经济新闻
厉害了浙江人！DeepSeek成全世界人工智能大模型“王炸”
前几天，浙江深度求索公司DeepSeek-V3横空出世，在AI行业内引发巨震，它是一个强大的混合专家（Mixture-of-Experts, MoE）语言模型。主要的技术迭代是671B的MoE，37B的激活参数，在14.8万亿个高质量token上进行了预训练。
中国男孩教育
1评论
“大模型性价比之王”刷屏 DeepSeek打破算力需求“怪圈”？
本报记者吴清北京报道近日，一家来自中国的公司Deepseek在全球AI界刷屏，其最新推出的大模型DeepSeek-V3，迅速在AI行业内引发广泛关注和热议，主要原因就是预训练成本之低，其训练同样性能的大模型成本仅是行业主流的十分之一左右。
中国经营报
DeepSeek甩出了一张“王炸”
打个比方，如果对标Llama 3 系列模型，其计算预算为 3930 万 H100 GPU Hours——大约可以训练 DeepSeek-V3 十五次。
虎嗅APP
68评论
“东方神秘力量”爆火
作者丨孔海丽编辑丨骆一帆DeepSeek再次爆火。近日，国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3，同时宣布开源。在多项基准测试中，V3的成绩超越了主流开源模型，并和世界顶尖的闭源模型不分伯仲。
21世纪经济报道
95后AI“天才少女”刷屏！雷军千万年薪挖角！
国产大模型DeepSeek在全球火了，并带火了一个95后AI“天才少女”罗福莉。最近，中国头部量化私募公司幻方量化旗下专注于AI大模型研究开发的Deepseek（深度求索公司），宣布旗下的全新系列模型DeepSeek-V3首个版本上线并同步开源。
证券时报
打响“创新浙江”品牌当头炮 “杭州六小龙”引发“神秘东方力量”
潮新闻客户端记者谢晔张彧张留詹丽华“云深处”的机器人在新加坡电力隧道开展巡检（资料照片）。受访企业供图“Cool！”一个月前，外交部发言人林剑在国外社交媒体发文，对杭州企业“云深处”出品的机器人“绝影X30”在新加坡电力隧道进行巡检发出赞叹。
钱江晚报
雷军花千万挖人、头部量化私募创立、95后AI“天才少女”，这家AI公司刷屏
红星资本局12月30日消息，近日，国产大模型DeepSeek在全球爆火，并带火95后AI“天才少女”罗福莉。据悉，罗福莉曾在DeepSeek参与了DeepSeek-V2的研发，是这款模型的关键开发者之一。
红星新闻
4评论
“AI炒股”靠谱吗？百亿私募旗下量化多头跑输主观股票多头｜封面财经
封面新闻记者朱宁2024年12月30日，由国内知名量化资管巨头幻方量化创立的AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3，并宣布开源。
封面新闻
13评论

加载更多

视频