目录编写说明报告综述第一章 北京智源人工智能研究院闭源及开源大模型综合测评第二章 大模型传媒领域能力测试第一部分 传媒行业大模型使用与满足问卷调查第二部分 大语言模型传媒方向能力测评报告第三章 大模型应用离“打工人”还有多远?
1月20日,DeepSeek-R1模型横空出世,以卓越的性能和低廉的成本火爆全球。既然这些AI大模型这么牛,那它们真的懂茶么?茶友们能不能通过大模型来洞悉茶的韵味呢?于是,我选取国内主流的四个大模型进行测试,分别是DeepSeek、豆包、通义和文心一言。
这篇文章里,作者站在自媒体人的角度,对四款大模型做了评估和对比,一起来看一下。通义千问 ⭐ ⭐ ⭐ ⭐ ⭐。用kimiAI搜索资料、拓展内容,它是我目前比较喜欢用的搜索方式,在向kimiAI提问时,我会先看它给的回答,然后看它给的参考资料,其中有哪些资料是权威、官方的,比如数据报告等,在这些资料中找一找是否有新的信息。
医学顶刊《英国医学杂志》最近发表了一项有趣的研究,研究团队用评估老年人认知能力和早期痴呆症状的测试题来考 AI,结果,多个顶级 AI 都表现出类似于人类的轻度认知障碍的症状。而且,这些 AI 模型的早期版本,就像衰老的人类一样,在测试中的表现更差,甚至还出现了“健忘”现象。
据微信公众号“中科院物理所”30日消息,近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试,其中DeepSeek-R1表现最好。
“给娃儿辅导奥数题,问了多个AI平台,每个答案都不一样。”近日,重庆家长刘先生向上游新闻(报料邮箱baoliaosy@163.com)记者反映:同一道奥数题,百度、阿里云、今日头条等国内4个主流AI大模型平台,竟然给出了不同的答案。
从2023年2月20日“国内第一个对话式大型语言模型”MOSS发布,到4月21日该模型正式开源,两个月间,多家中国企业和研究机构以加速度扎堆冲入被ChatGPT轰炸出来的AI大模型赛道。在梳理这些大模型所试图呈现的特点之后,我们该如何看待这种趋势?·如何判断各家大模型的水平?