DeepSeek的发展历程如下:2023年 -7月:DeepSeek在杭州成立,由幻方量化创立。2025年 - 1月20日:发布新一代推理模型DeepSeek - R1,在数学、编程和推理等关键领域表现出色,能与OpenAI的o1相抗衡,总体API调用成本却低了95%左右。
它的核心是注意力机制,打个比方,我们在看一篇很长的文章时,会自动关注重要的部分,Transformer的注意力机制也能让模型在处理大量信息时,自动聚焦到关键内容上,理解信息之间的关系,不管这些信息是相隔很近还是很远。
2024年5月,DeepSeek开源了第二代MoE大模型DeepSeek - V2,该模型在性能上比肩GPT - 4 Turbo,价格却只有GPT - 4的百分之一,被称作“价格屠夫”“AI界的拼多多”,它的出现打破了人们对大模型性能与成本关系的传统认知,为大模型的普及和应用带来了新的可能。