它成功突破了多个开源大模型的性能瓶颈,在众多测试中表现出色,甚至超越了阿里自研的 Qwen2.5-72B 和 Meta 的 Llama 3.1-405B 等知名模型,与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5-Sonnet 等闭源大模型相抗衡,展现出了强大的实力。
这个概念最早出现在2015年《Distilling the Knowledge in a Neural Network》论文里,作者是 Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean。
过年期间爆火的DeepSeek是什么?DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型和相关技术。在硅谷,DeepSeek很早就被称作“来自东方的神秘力量”。