如何准确评估和解决大语言模型中的幻觉问题已成为一个至关重要的挑战。近日,复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA,对业界主流的大模型进行了评估。HalluQA采用无幻觉率来评估大模型的优劣。无幻觉率越高代表模型幻觉越低,事实准确性越高。
“截至2024年末,80后死亡率突破5.2%,相当于每20个80后中就有1人已经去世。”记者在微信平台以“80后死亡率”为关键词搜索文章,不但微信自带的AI搜索功能会推送这条数据,各种自媒体工作号也是铺天盖地般引用转载。
界面新闻记者 | 宋佳楠当地时间2月27日,OpenAI发布了最新模型GPT-4.5的研究预览版。这是一款通用型大语言模型,其定位并非OpenAI最顶尖的模型,但却号称“情商最高”,且API调用价高于其主流模型GPT-4o。据OpenAI方面介绍,GPT-4.