近期,DeepSeek V3 的发布让大家了解到超大规模 MoE 模型的效果及另一种实现方法,而同期,Qwen 也在研发超大规模的 MoE 模型 Qwen2.5-Max,使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
DeepSeek这条“鲶鱼”,让全球大模型竞赛进一步提速。北京时间2月1日凌晨,OpenAI发布全新推理模型o3-mini。据介绍,o3-mini是其推理模型系列中最新、最具成本效益的模型,包含low、medium和high三个版本,已经上线了ChatGPT和API。