21世纪经济报道记者白杨 北京报道2023年,大模型狂奔一年后,很快就遇到了瓶颈。Scaling law(指随着参数量的增加,模型性能也将提高)的存在,让大模型的能力似乎没有了上限,但是,用于训练大模型的数据和算力却十分有限。
3 月 10日,字节豆包大模型团队官宣开源一项针对 MoE 架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
央广网北京4月12日消息(记者 黄昂瑾)国家网信办网站消息显示,为促进生成式人工智能服务创新发展和规范应用,网信部门会同相关部门按照《生成式人工智能服务管理暂行办法》要求,有序开展生成式人工智能服务备案工作。
同行几乎每个月都在发布大模型开源消息,腾讯的类似新闻则发生在6个月前。11月5日,腾讯将MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源,这两个模型已在腾讯业务场景落地,支持企业及开发者精调、部署等不同场景的使用需求。