每经杭州2月9日电(记者叶晓丹)2月9日,阿里云宣布百炼平台全面上线DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款全尺寸模型,1元最高可享受200万tokens,即日起,所有用户可直接使用。
最近Deepseek成为了AI圈中最火爆的话题,一方面通过稀疏激活的MoE架构、MLA注意力机制优化及混合专家分配策略等创新手段,实现了高效的训练和推理能力,同时大幅降低了API调用成本,达到了行业领先水平。
来源:光明网 上个月,DeepSeek发布了最新开源模型R1,凭借其高性能、低成本的模型特点,再次引发全球用户与开发者的广泛关注。但在实际应用中,用户在本地接入DeepSeek时,面临算力基础设施缺失、模型服务性能不足等众多挑战。
一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。