这一突破性成果的核心在于算法密度取代算力堆叠:通过混合专家架构动态激活参数、8位浮点训练优化,以及滑动窗口多头潜在注意力技术,DeepSeek在长文本处理中显存需求降低至GPT-4的1/5,推理速度却提升3倍。
财联社2月1日讯(编辑 若宇)上周,中国量化巨头幻方量化旗下大模型公司DeepSeek推出了新模型DeepSeek-R1,该模型在数学、编程和推理等关键领域的表现甚至能媲美OpenAI的最强推理模型o1。
大众新闻·齐鲁壹点 记者 任磊磊这个春节,所有人都被国产大模型DeepSeek爆火刷屏,短短一周,DeepSeek不仅拿下了美国和中国区App Store免费榜的双料第一,还成为首个超越OpenAI ChatGPT的AI助手类应用。
节后第一个交易日,DeepSeek冲击波搅动A股多个概念板块。 春节前夕,由杭州深度求索公司推出的DeepSeek大模型在海内外爆火,由于兼具低成本与高性能的特征,极大降低了AI大模型的部署成本,有望带来AI应用端的繁荣。2月5日,A股AI应用板块全面爆发。