由计算机模拟或算法生成的合成数据是一种替代真实数据的低成本方法。这种方法正在被越来越多地用于创建精确的 AI 模型。在如今这个 AI 时代,数据已成为像“石油”一样的宝藏资源,但只有少数幸运者能够坐享其成。因此,许多人都在自己制造物美价廉的“燃料”。这种“燃料”就是合成数据。
马斯克表示,现实世界中用于训练AI模型的数据几乎已经耗尽,现在基本上已经消耗掉了所有人类知识的积累,用于人工智能训练的数据,这个现象基本上是去年发生的。他认为,合成数据是未来的解决方案,也就是让AI自己生成训练数据。AI会进行自我评估,并通过这一自我学习的过程不断优化自己。
特斯拉CEO马斯克发推称:“我们的Grok 3是地球上最聪明的AI。”他还表示:“五个基石使它成为开创性的工作”。这是特斯拉即将发布的一项新一代大模型,更令其震撼的是这款产品有着自我检查和删除错误数据的超强合成数据能力,这似乎也为投资界发现了新的风口。“合成数据”又是什么?
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。
21世纪经济报道记者 冯恋阁 福州报道生成式人工智能技术不断发展,训练数据来源成为人们最关注的问题之一。去年11月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。