继Stable Diffusion爆火之后,StabilityAI近期又放大招,推出了号称是革命性的编程大模型StableCode。StableCode是其首款用于编码的LLM生成式AI产品,该产品旨在帮助程序员完成日常工作。
2月25日,由亚马逊支持的AI初创公司Anthropic推出首个混合推理模型Claude 3.7 Sonnet。它可以产生近乎即时的反应和对用户可见、可扩展的逐步思考。API用户还可以控制模型思考时间。
2月4日凌晨,三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单,一周前刚发布的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理类的中国大模型冠军。
今年是个热闹的AI年,年初的deepseekR1平地一声雷,又一次掀起了全民的热潮,做为一个AI行业的从业者,见证了23年AI的惊起到沉浸,再到24年的蓬勃发展,我想每个月进录一下在AI行业中发生的那些有趣的事情,就有了这份月报。
·国内大模型相比GPT-4还存在差距,推理、数学、代码、智能体是国内大模型短板,中文场景下国内最新大模型已展现出优势。OpenCompass2.0大语言模型中英双语客观评测前十名(采用百分制)。商用闭源模型通过API形式测试,开源模型直接在模型权重上测试。