15款被测大模型产品无一披露训练数据来源;基于技术的局限性,各家均称无法完全保证AI生成内容的真实性和准确性;绝大多数大模型产品声明,会将用户输入的信息内容、提示语等用于模型训练,仅有4款允许用户撤回语音信息授权。这是南都数字经济治理研究中心实测15款国产大模型的最新发现。
12月27日,海外社交媒体平台X被来自中国的大模型DeepSeek-V3刷屏了,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。
近日,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战,角逐中国大模型“最强王者”。当下,“百模大战”厮杀正酣,谁才是最强王者?
5月17日,北京新型研发机构智源研究院举办大模型评测发布会,发布并解读了对国内外140余个开源和商业闭源的语言及多模态大模型的能力评测结果。此次测评首次引入人类学生熟悉的学科测试,让AI考生和三年级到高三学段的人类考生平均水平一较高下。
这几天,国产大模型公司深度求索(DeepSeek)在海内外掀起一股热潮。1月27日,大众新闻记者体验DeepSeek后发现,相比其他大模型,DeepSeek在对话时展现思考的逻辑过程、其输出的结果令人印象深刻。
潮新闻客户端 记者 张云山由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.