中证网讯(记者 王可)记者1月11日从商汤科技获悉,近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.
4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
5月21日,国内权威大模型测评机构SuperCLUE正式发布商汤“日日新5.0”(SenseChat V5)中文基准测评结果:以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125。
·国内大模型相比GPT-4还存在差距,推理、数学、代码、智能体是国内大模型短板,中文场景下国内最新大模型已展现出优势。OpenCompass2.0大语言模型中英双语客观评测前十名(采用百分制)。商用闭源模型通过API形式测试,开源模型直接在模型权重上测试。
“苟日新,日日新,又日新”,国产大模型正在疾速前进。最近,一款叫“日日新”的大模型风头正盛。几天前,国内权威大模型测评机构SuperCLUE榜单出炉,商汤“日日新5.0”(SenseChat V5)的中文基准测评结果排名第一,以总分80.