图片来源:物理学家组织网【今日视点】◎本报记者 刘 霞人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。
随着人工智能(AI)生成的内容充斥互联网,它正在破坏未来模型训练的数据。当AI“吃掉”自己时,会发生什么?得益于生成式人工智能的蓬勃发展,普通人也可随时使用计算机程序来生成文本、计算机代码、图像和音乐。
在2024 年 6 月 14-15 日举办的 ArchSummit 全球架构师峰会深圳站上,我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状,以及百度在数据库和 AI 结合上的关键进展以及实际案例。
(本文作者傅建平,清华大学计算社会科学与国家治理实验室专职研究员)数据作为数字时代的核心生产要素,其价值释放依赖于与人工智能技术的深度融合。这种融合不仅改变着数据要素的生成、流通与应用方式,更在底层逻辑层面重构数据要素化的全链条生态。
·大模型和数据治理是一个闭环,不断迭代,两者互相依存。目前没有比大模型更加高效的数据分析和挖掘方法。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。【编者按】数据,是继土地、劳动力、资本、技术四大生产要素之后的第五大生产要素,中国政府已提出要加快培育数据要素市场。
在科学大模型中,数据的质量和规模是决定模型效果的关键。然而,由于建设时间短、基础设施缺乏,现有科学数据库仍普遍存在规模小、质量参差不齐、数据不互通等问题。在世界人工智能大会上,第一财经记者获悉国内一批涵盖多模态科学数据的科学数据平台应运而生。