前几天,浙江深度求索公司DeepSeek-V3横空出世,在AI行业内引发巨震,它是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。主要的技术迭代是671B的MoE,37B的激活参数,在14.8万亿个高质量token上进行了预训练。
在探索人工智能的浩瀚征途中,寻求高效且经济的训练模型始终是科研人员不懈努力的方向。DeepSeek-V3,作为这一领域的璀璨明星,以其独树一帜的低成本训练策略,为AI技术的革新与发展开辟了崭新的道路。低成本训练的革命在人工智能领域,高效且低成本的训练模型一直是研究者们追求的目标。