医学顶刊《英国医学杂志》最近发表了一项有趣的研究,研究团队用评估老年人认知能力和早期痴呆症状的测试题来考 AI,结果,多个顶级 AI 都表现出类似于人类的轻度认知障碍的症状。而且,这些 AI 模型的早期版本,就像衰老的人类一样,在测试中的表现更差,甚至还出现了“健忘”现象。
新京报贝壳财经讯(记者白金蕾 韦英姿 罗亦丹)7月3日下午,在新京报贝壳财经夏季年会“‘通’往未来 向新有AI”主题论坛上,新京报贝壳财经联合北京智源研究院、中国经济传媒协会发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》(下称:报告)。
上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20B-WQX)成为三甲,得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好,但数学成绩不如人意。
1月13日,新京报AI研究院发布第二期中国AI大模型测评报告——《大语言模型产品传媒方向能力测评调研报告》(下称《报告》),这也是继2024年7月发布首份大模型赋能传媒能力报告半年后,新京报贝壳财经第二次对国内主流11款大语言模型在信息搜集能力、新闻写作能力、事实核查与价值观判断
IDC《报告》围绕产品技术、服务生态以及行业应用三个维度,考察大模型的10余项指标,在产品维度,百度的算法模型、通用能力、创新能力满分,具体到行业,百度在能源和行业覆盖上满分,在服务方面,百度的生态合作指标满分。
大模型参加高考,能考多少分,上什么大学?6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。
极目新闻记者 周丹实习生 贺怡萍 魏文婧6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,高于OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.
上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果,据大模型开源开放评测体系“司南”相关负责人介绍,“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。