模型幻觉率排行榜

资讯

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%
该排行榜由专注于 AI 的 Vectara 平台发布。排行榜更新于 2023 年 11 月 1 日，Vectara 表示后续会随着模型的更新继续跟进幻觉评估。
机器之心Pro
1评论
最新评测对主流大模型幻觉问题进行了评估
如何准确评估和解决大语言模型中的幻觉问题已成为一个至关重要的挑战。近日，复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA，对业界主流的大模型进行了评估。HalluQA采用无幻觉率来评估大模型的优劣。无幻觉率越高代表模型幻觉越低，事实准确性越高。
光明网
如何把商业交给大模型？京东科技何晓冬：需要更严肃地把大模型“幻觉率”降下来
每经记者：王郁彪每经编辑：陈俊杰,陈俊杰从谈参数、谈技术，再到谈协同、谈应用，百模大战初始的狂热开始变得冷静，今年，大模型公司们明显变得更加务实、实际，市场也逐渐回归理性。
每日经济新闻
2评论
DeepSeek-R1幻觉率高达14.3%，聪明的AI为何总爱胡说八道？
解放日报最近一段时间，“DeepSeek化身中医开药方”“DeepSeek搞钱指南”等词条频频上热搜，引发医疗、金融等行业从业者的关注。“一路开挂”的DeepSeek真的这么神吗？
新重庆-重庆日报
“80后的死亡率已经超过70后”？罪魁祸首不是疾病，可能是“幻觉”...
“截至2024年末，80后死亡率突破5.2%，相当于每20个80后中就有1人已经去世。”记者在微信平台以“80后死亡率”为关键词搜索文章，不但微信自带的AI搜索功能会推送这条数据，各种自媒体工作号也是铺天盖地般引用转载。
大湖观察
1评论
OpenAI“高情商”模型GPT-4.5发布，定价高过GPT-4o
界面新闻记者 | 宋佳楠当地时间2月27日，OpenAI发布了最新模型GPT-4.5的研究预览版。这是一款通用型大语言模型，其定位并非OpenAI最顶尖的模型，但却号称“情商最高”，且API调用价高于其主流模型GPT-4o。据OpenAI方面介绍，GPT-4.
界面新闻

视频

在线举报