ai模型测试题目

资讯

AI大模型测评第一期：脑筋急转弯！内有爆笑对话！
今年由chatGPT掀起了一波AI热潮，各大公司纷纷推出自己大模型。虽然大家都介绍了自己强大的能力，但是骡子是马，拉出来溜溜!
AI变革指南
中国AI大模型测评报告：公众及传媒行业大模型使用与满足研究
目录编写说明报告综述第一章北京智源人工智能研究院闭源及开源大模型综合测评第二章大模型传媒领域能力测试第一部分传媒行业大模型使用与满足问卷调查第二部分大语言模型传媒方向能力测评报告第三章大模型应用离“打工人”还有多远？
新京报
AI模型大比拼，谁更懂茶？测试结果超出想象……
1月20日，DeepSeek－R1模型横空出世，以卓越的性能和低廉的成本火爆全球。既然这些AI大模型这么牛，那它们真的懂茶么？茶友们能不能通过大模型来洞悉茶的韵味呢？于是，我选取国内主流的四个大模型进行测试，分别是DeepSeek、豆包、通义和文心一言。
新福建
1评论
自媒体人必备：文心一言、Kimi等4款AI大模型测评对比及推荐
这篇文章里，作者站在自媒体人的角度，对四款大模型做了评估和对比，一起来看一下。通义千问 ⭐ ⭐ ⭐ ⭐ ⭐。用kimiAI搜索资料、拓展内容，它是我目前比较喜欢用的搜索方式，在向kimiAI提问时，我会先看它给的回答，然后看它给的参考资料，其中有哪些资料是权威、官方的，比如数据报告等，在这些资料中找一找是否有新的信息。
人人都是产品经理
116评论
给三个AI大模型出九个考题，结果你绝对想不到
国内AI大模型越来越多，用户使用最多的是ChatGPT、百度文心一言（以下简称文心一言）和讯飞星火认知大模型（以下简称星火大模型）。这三大产品到底体验如何呢？下面我们就通过9个题目来测试下。
磐石之心
1评论
顶级AI认知能力输给老年人，大模型集体翻车
医学顶刊《英国医学杂志》最近发表了一项有趣的研究，研究团队用评估老年人认知能力和早期痴呆症状的测试题来考 AI，结果，多个顶级 AI 都表现出类似于人类的轻度认知障碍的症状。而且，这些 AI 模型的早期版本，就像衰老的人类一样，在测试中的表现更差，甚至还出现了“健忘”现象。
澎湃新闻客户端
中科院物理所：我们用最近很火的DeepSeek挑战了物理所出的竞赛题，结果…
据微信公众号“中科院物理所”30日消息，近日，中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛，并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试，其中DeepSeek-R1表现最好。
观察者网
1973评论
一道小学奥数题4个AI平台答案不一，专家回应
“给娃儿辅导奥数题，问了多个AI平台，每个答案都不一样。”近日，重庆家长刘先生向上游新闻（报料邮箱baoliaosy@163.com）记者反映：同一道奥数题，百度、阿里云、今日头条等国内4个主流AI大模型平台，竟然给出了不同的答案。
上观新闻

视频

问答

国产AI大模型扎根涌现的两个月，给我们带来了什么？我们该如何判断这些大模型的水平？
从2023年2月20日“国内第一个对话式大型语言模型”MOSS发布，到4月21日该模型正式开源，两个月间，多家中国企业和研究机构以加速度扎堆冲入被ChatGPT轰炸出来的AI大模型赛道。在梳理这些大模型所试图呈现的特点之后，我们该如何看待这种趋势？·如何判断各家大模型的水平？
头条问答