DeepSeek的发展历程如下:2023年 -7月:DeepSeek在杭州成立,由幻方量化创立。2025年 - 1月20日:发布新一代推理模型DeepSeek - R1,在数学、编程和推理等关键领域表现出色,能与OpenAI的o1相抗衡,总体API调用成本却低了95%左右。
最近Deepseek成为了AI圈中最火爆的话题,一方面通过稀疏激活的MoE架构、MLA注意力机制优化及混合专家分配策略等创新手段,实现了高效的训练和推理能力,同时大幅降低了API调用成本,达到了行业领先水平。
在国外大模型排名榜 Chatbot Arena 的基准测试里,DeepSeek-R1 的排名迅速攀升至全类别大模型第三,与 OpenAI 的 ChatGPT-4o 最新版并肩,并且在风格控制类模型分类中,和 OpenAI 的 o1 模型并列第一。其预训练费用仅 557.6 万美元,在 2048 块英伟达 H800 GPU 集群上运行 55 天即可完成训练。