deelseek模型微调

资讯

独家|李飞飞团队“50美元”复刻DeepSeek的R1真相：基于阿里云Qwen模型监督微调而成
【独家|李飞飞团队“50美元”复刻DeepSeek的R1真相：基于阿里云Qwen模型监督微调而成】《科创板日报》6日讯，今日有报道称李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。
财联社
9评论
李飞飞团队低成本复刻DeepSeek-R1模型？算力成本桎梏正在被打破
近日，有消息称，华裔科学家、“AI教母”李飞飞的团队研究人员以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型。记者从相关人士处了解到，这个s1模型的训练并非从零开始，而是基于阿里云通义千问（Qwen）模型进行监督微调。
第一财经
46评论
新华三发布DeepSeek一体机，搭载DeepSeek V3、R1模型
来源：环球网【环球网科技综合报道】2月11日消息，紫光股份旗下新华三集团发布基于DeepSeek大模型的一体机UniCube，全面搭载DeepSeek V3、R1模型，并实现671B DeepSeek大模型单机推理及单机训推一体服务。
环球网
300评论
DeepSeek-R1模型震惊硅谷，美媒：制裁反而促进中国创新
【文/观察者网陈思佳】这两天，中国人工智能公司深度求索（DeepSeek）发布的大模型DeepSeek-R1震动业界，该模型使用更低的成本和更小的算力规模，实现了足以匹敌美国顶尖AI模型的效果。这一成果引发全球科技行业高度关注，西方媒体也发文感叹“中国AI模型震惊硅谷”。
观察者网
40评论
DeepSeek指路算力优化路径，国产AI有望实现生态闭环
·DeepSeek同时考虑算法精度和系统效率。除了极致的底层优化，协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。从最顶层的产品应用到底层的基础设施，大模型的每一个层级都已经形成了非常好的生态，每一个层级上都存在着优化空间。
澎湃新闻
实测告诉你：DeepSeek-R1 7B、32B、671B差距有多大？
最近Deepseek成为了AI圈中最火爆的话题，一方面通过稀疏激活的MoE架构、MLA注意力机制优化及混合专家分配策略等创新手段，实现了高效的训练和推理能力，同时大幅降低了API调用成本，达到了行业领先水平。
钛媒体APP
143评论
“用了DeepSeek，每天减少9.68小时工作量”
银行也开始用DeepSeek了！“我行已成功本地化部署微调DeepSeek-VL2多模态模型、轻量DeepSeek-R1推理模型，分别运用于智能合同质检和自动化估值对账场景。”江苏银行人士说。
中国证券报
竞合关系下的医疗大模型：DeepSeek补强逻辑短板，数据采集再入深水区｜AI医疗浪潮④
编者按：一个人工智能（AI）机器人，在短短8天内独立完成了668项实验，合成了668种化合物，并成功研发出一种全新的化学催化剂。这一壮举令人赞叹。
21世纪经济报道
2评论
是不是好AI，DeepSeek得过玄学关
最近，社交平台上刮起了一股赛博玄学风，社交平台上“用DeepSeek算命到凌晨三点”的帖子刷屏不断，还衍生出了一个热搜词——DeepSeek玄学指令。
虎嗅APP
9评论
幸好苹果国行 AI 没有选择 DeepSeek
当所有人都在猜测苹果国行 AI 的下一步棋会落在哪里时，答案既出人意料又在情理之中。作为业界率先实现「全尺寸、全模态、多场景」的开源大模型，阿里云 Qwen 模型更是为开发者和企业提供了从 1.5B 到 72B 乃至 110B 的尺寸及版本，充分满足不同应用场景的需求。
爱范儿
219评论
深入了解大模型的微调——什么是LoRA，PEFT，DeepSpeed，ZeRO
自从谷歌的那篇开创性的论文《注意力就是你所需要的一切》发表以来，大型语言模型 (LLM) 就随着ChatGPT的发布而风靡全球，这导致了生成式人工智能和 OpenAI 等公司的兴起。
爱编程的查理
30评论

加载更多