来源:转载机器之心报道机器之心编辑部今天,一个国产大模型火遍了世界。打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.
在探索人工智能的浩瀚征途中,寻求高效且经济的训练模型始终是科研人员不懈努力的方向。DeepSeek-V3,作为这一领域的璀璨明星,以其独树一帜的低成本训练策略,为AI技术的革新与发展开辟了崭新的道路。低成本训练的革命在人工智能领域,高效且低成本的训练模型一直是研究者们追求的目标。