deepseek各种量化尺寸模型

资讯

DeepSeek全尺寸模型上线阿里云百炼
2月9日，阿里云宣布，阿里云百炼全面上线DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款模型。
界面快讯
Deepseek项目本地部署需谨慎，提前避坑——大模型小知识
最近跟风研究大模型及相关开源软件，一边学一边记笔记，以防日后想不起来了。32B就是320亿参数，现在有1.5B，7B，8B，14B，32B，70B，671B的模型，除671B以外都是蒸馏出来的。
tobelic
39评论
阿里云百炼上线全尺寸DeepSeek模型，1元最高可享受200万tokens
每经杭州2月9日电（记者叶晓丹）2月9日，阿里云宣布百炼平台全面上线DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款全尺寸模型，1元最高可享受200万tokens，即日起，所有用户可直接使用。
每日经济新闻
23评论
“重创”美科技股后，DeepSeek除夕再发新模型，文生图测试优于OpenAI
刚刚暴击完美股，国产大模型公司深度求索（DeepSeek）又抛出新模型。
金羊网
4评论
实测告诉你：DeepSeek-R1 7B、32B、671B差距有多大？
最近Deepseek成为了AI圈中最火爆的话题，一方面通过稀疏激活的MoE架构、MLA注意力机制优化及混合专家分配策略等创新手段，实现了高效的训练和推理能力，同时大幅降低了API调用成本，达到了行业领先水平。
钛媒体APP
144评论
开箱即用！DeepSeek＋浪潮云帆超融合一体机解读
来源：光明网上个月，DeepSeek发布了最新开源模型R1，凭借其高性能、低成本的模型特点，再次引发全球用户与开发者的广泛关注。但在实际应用中，用户在本地接入DeepSeek时，面临算力基础设施缺失、模型服务性能不足等众多挑战。
环球网
5评论
DeepSeek颠覆了什么？——大模型“国产之光”破局的启示
一家人工智能初创企业浅浅扇动两下翅膀，即掀起全球科技界的一阵“海啸”。短短30天，中国初创企业深度求索（DeepSeek）先后发布两款性能比肩GPT-4o的大模型，“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。
光明网
11评论

视频

在线举报