大模型moe架构

资讯

字节跳动豆包大模型团队开源一项MoE架构优化技术
字节跳动豆包大模型团队近日开源一项名为COMET的MoE架构优化技术，可将大模型训练效率提升1.7倍。论文显示，该技术已实际应用于字节的万卡集群训练，实现数百万GPU小时训练算力的节省。
界面快讯
更高效的Scaling技术：MoE架构为何获得大模型厂商青睐？丨GAI进化论
21世纪经济报道记者白杨北京报道2023年，大模型狂奔一年后，很快就遇到了瓶颈。Scaling law（指随着参数量的增加，模型性能也将提高）的存在，让大模型的能力似乎没有了上限，但是，用于训练大模型的数据和算力却十分有限。
21世纪经济报道
“天工3.0”等新进展聚焦MoE架构专家：让大模型落地更经济实用
央广网北京4月12日消息（记者黄昂瑾）国家网信办网站消息显示，为促进生成式人工智能服务创新发展和规范应用，网信部门会同相关部门按照《生成式人工智能服务管理暂行办法》要求，有序开展生成式人工智能服务备案工作。
央广网
字节开源MoE关键优化技术，主流大模型均能接入，训练成本可省40%！
3 月 10日，字节豆包大模型团队官宣开源一项针对 MoE 架构的关键优化技术，可将大模型训练效率提升1.7倍，成本节省40%。据悉，该技术已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。
21世纪经济报道
2评论
腾讯发布新一代大模型“混元Turbo” 第三方测评国内第一
9月5日，在2024腾讯全球数字生态大会上，腾讯正式发布新一代大模型——腾讯混元Turbo。该模型采用MoE架构，比上一代产品推理效率提升100%，推理成本降低50%。此外，腾讯混元Turbo的价格也比混元Pro降低50%，输出价格为0.05元/千tokens，输入价格为0.
上游新闻
MoE成为大模型路线新突破，谁家最强
AIGC伴随ChatGPT出世得以在全球迅猛发展，仅过了一年多，关于大模型的讨论，焦点已经从底层技术转移至应用端。
中国网财经
VLA进化到ViLLA 智元发布首个通用具身基座大模型GO-1
导言：智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1)，它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构，该架构由VLM(多模态大模型) + MoE(混合专家)组成，其中VLM借助海量互联网图文数据
光明网
再开源两款大模型，腾讯慢慢来
同行几乎每月都在发布大模型开源消息，腾讯的类似新闻发生在6个月前。11月5日，腾讯将MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源，这两个模型已在腾讯业务场景落地，支持企业及开发者精调、部署等不同场景的使用需求。
快消八谈
腾讯刘煜宏：多模态大模型将重塑内容产业
来源：科技日报科技日报记者罗云鹏记者4月2日获悉，在第十一届中国网络视听大会上，腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示，多模态大模型正在加速到来，并将重构整个内容产业，而基于多模态的应用也会呈现出百花齐放之势。
环球网
DeepSeek关键数据对中国AI大模型发展的影响分析
随着人工智能技术的快速发展，中国AI大模型正处于加速创新和商业化落地的关键阶段。DeepSeek近期公布的关键数据展示了其在技术优化、推理效率和成本控制等方面的领先优势，为中国AI大模型提供了重要的技术参考和商业借鉴。
中国日报网
1评论

视频