近期,DeepSeek V3 的发布让大家了解到超大规模 MoE 模型的效果及另一种实现方法,而同期,Qwen 也在研发超大规模的 MoE 模型 Qwen2.5-Max,使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
《科创板日报》1月29日讯(记者 黄心怡)过年放大招!在春节期间中国的大模型技术迎来了一阵密集更新。今日凌晨,阿里云通义千问超大规模的MoE模型Qwen2.5-Max 正式上线,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens。