近期,DeepSeek V3 的发布让大家了解到超大规模 MoE 模型的效果及另一种实现方法,而同期,Qwen 也在研发超大规模的 MoE 模型 Qwen2.5-Max,使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
2月4日凌晨,三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单,一周前刚发布的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理类的中国大模型冠军。
西风 梦晨 发自 凹非寺量子位 | 公众号 QbitAI昨晚,杭州大模型又双叒不睡,给大伙儿 拜 年 啦~就在春晚直播进行时,阿里通义Qwen发布新春节礼第三弹:Qwen2.5-Max来袭,多个基准测试中超越当红炸子鸡DeepSeek V3。