21世纪经济报道记者白杨 北京报道2023年,大模型狂奔一年后,很快就遇到了瓶颈。Scaling law(指随着参数量的增加,模型性能也将提高)的存在,让大模型的能力似乎没有了上限,但是,用于训练大模型的数据和算力却十分有限。
央广网北京4月12日消息(记者 黄昂瑾)国家网信办网站消息显示,为促进生成式人工智能服务创新发展和规范应用,网信部门会同相关部门按照《生成式人工智能服务管理暂行办法》要求,有序开展生成式人工智能服务备案工作。
3 月 10日,字节豆包大模型团队官宣开源一项针对 MoE 架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
9月5日,在2024腾讯全球数字生态大会上,腾讯正式发布新一代大模型——腾讯混元Turbo。该模型采用MoE架构,比上一代产品推理效率提升100%,推理成本降低50%。此外,腾讯混元Turbo的价格也比混元Pro降低50%,输出价格为0.05元/千tokens,输入价格为0.
导言:智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据
同行几乎每月都在发布大模型开源消息,腾讯的类似新闻发生在6个月前。11月5日,腾讯将MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源,这两个模型已在腾讯业务场景落地,支持企业及开发者精调、部署等不同场景的使用需求。
来源:科技日报 科技日报记者 罗云鹏记者4月2日获悉,在第十一届中国网络视听大会上,腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示,多模态大模型正在加速到来,并将重构整个内容产业,而基于多模态的应用也会呈现出百花齐放之势。
随着人工智能技术的快速发展,中国AI大模型正处于加速创新和商业化落地的关键阶段。DeepSeek近期公布的关键数据展示了其在技术优化、推理效率和成本控制等方面的领先优势,为中国AI大模型提供了重要的技术参考和商业借鉴。