最近Deepseek成为了AI圈中最火爆的话题,一方面通过稀疏激活的MoE架构、MLA注意力机制优化及混合专家分配策略等创新手段,实现了高效的训练和推理能力,同时大幅降低了API调用成本,达到了行业领先水平。
每经编辑:杜宇开源领域大模型,迎来了重磅新玩家。当地时间周三(2月21日),科技巨头谷歌发布了新一代开源模型“Gemma”,公司称其是轻量级中“最先进的”开放模型系列,超越了原本最强的Mistral 7B。
7月16日,法国AI初创公司MistralAI连续发布了两款7B模型,包括首个基于Mamba-2架构的代码生成模型Codestral-Mamba-7B和专注于数学推理的Mathstral-7B模型。Mistral AI被视为OpenAI在欧洲的主要竞争对手。
让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。