·国内大模型相比GPT-4还存在差距,推理、数学、代码、智能体是国内大模型短板,中文场景下国内最新大模型已展现出优势。OpenCompass2.0大语言模型中英双语客观评测前十名(采用百分制)。商用闭源模型通过API形式测试,开源模型直接在模型权重上测试。
界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪时隔一周,零一万物再次更新其千亿参数闭源大模型Yi-Large的动态,这次是榜单成绩。5月21日,零一万物表示,在LMSYS盲测竞技场最新排名中,Yi-Large总榜排名世界模型第7。
中证网讯(记者 王可)记者1月11日从商汤科技获悉,近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.
9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前十唯一的中国大模型;
来源:【深圳特区报】近日,南科大统计与数据科学系讲席教授、大数据创新中心荆炳义课题组和粤港澳大湾区数字经济研究院(IDEA)认知计算与自然语言中心(CCNL)联合发布开源34B通用Chat模型:SUS-Chat-34B,在由美国Hugging Face社区支持的、致力于追踪、排名
6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.