大模型的训练数据从哪里来？

资讯

观察｜大模型潮即将耗尽全宇宙文本，高质量数据从哪里来？
·专家警告，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。同时，用AI生成的数据“反哺”AI或造成模型崩溃。未来模型训练使用的高质量数据可能会愈来愈昂贵，网络走向碎片化和封闭化。
澎湃新闻
B端训练数据哪里来？︱AI大模型十问（一）
AI大模型不断涌现，“百模大战”愈演愈烈。但不论是To B还是To C的大模型，都面临训练数据日渐匮乏的问题。业内有报告预测，语言数据将于2030~2040年耗尽，其中能训练出更好性能的高质量语言数据将于2026年耗尽；此外，视觉数据将于2030~2060年耗尽。
第一财经
训练大模型没数据怎么办，这19个开源数据集你必须知道
大模型时代，数据为王，在哪里寻找开源数据集?经过调研整理，下面列出目前可以寻找开源大模型数据集网站清单，一网打尽，请您按需使用。
AI信使
5评论
人工智能行业专题报告：AI大模型需要什么样的数据
2)大规模:OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的“伸缩法则”，即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。流程＃1:数据采集。
未来智库
10评论
阿里原副总漆远谈大模型：互联网公开数据耗尽后，需找新来源
9月9日，中国人民大学国家发展与战略研究院、中国人民大学经济学院、中诚信国际信用评级有限责任公司联合举办了第73期CMF宏观经济热点问题研讨会，其主题为“大模型：原理、进展及其影响”。随着大模型进入“百模大战”，下一步的发展趋势如何？
南方都市报
大模型尚处“前牛顿时代”？打开“黑盒”先要驯服数据
数据如同大模型的细胞，是其生命力的来源。当大模型已经迈入分级时代，从通用大模型细分到行业大模型，再精确到企业大模型，人们对于数据的挖掘与应用是否跟上了大模型进化的速度呢？或许不然。“整个大模型还处在前牛顿时代，我们只知其然，不知其所以然。
上观新闻
北京发布首批100个AI大模型高质量训练数据集，联盟多家企业入围
来源：【中关村数字媒体产业联盟】3月29日，以“数据驱动，智绘未来”为主题的2024 北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。
全国党媒信息公共平台
15评论
OpenAI训练数据从哪里来、与苹果合作进展如何？“ChatGPT之母”最新回应
每经编辑：杜宇,宋欣悦7月9日，美国约翰·霍普金斯大学公布了对“ChatGPT之母”、OpenAI首席技术官米拉·穆拉蒂（Mira Murati）的采访视频。
每日经济新闻
姚前：ChatGPT类大模型训练数据的托管与治理
ChatGPT既好玩又实用，远超之前的自然语言处理应用，许多人认为这是一个划时代的产品，国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型应用。
金融界
1评论
区块链+人工智能（2） |中国信通院程彤彤：AI大模型数据安全与应对策略
在惊讶的同时，很多国家和组织开始对AI大模型的海量数据训练产生了担忧，怀疑用户在使用 ChatGPT过程中可能会泄露个人隐私信息或者组织乃至国家的机密信息。
工业互联网智库官方号
1评论
财经三人谈：“喂养”AI，大数据从哪来
来源：环球时报编者的话：人工智能（AI）大模型的训练、进化都离不开数据。外媒近日报道称，科技公司利用语音识别工具转录视频网站上的视频，形成对话文本数据来训练AI，也有公司用社交媒体上具有版权争议和隐私权争议的数据来训练AI——这些“捷径”是否合法？
环球网
无任何数学公式理解大模型基本原理
为什么我们使用chatgpt问一个问题，回答时，他是一个字或者一个词一个词的蹦出来，感觉是有个人在输入，显得很高级，其实这这一个词一个词蹦不是为了高级感，而是他的实现原理决定的，下面我们看下为什么是一个一个蹦出来的。
京东云开发者
40评论
腾讯杀入大模型赛道！提供50多个解决方案，要跟百度、阿里一决高下？
6月19日，腾讯云公布MaaS全景图，依托腾讯云TI平台打造行业大模型精选商店，为客户提供一站式大模型服务，全面降低落地门槛，助力客户构建专属大模型及智能应用。腾讯云称，已经为文旅、政务、金融等10余个行业提供了超过50多个大模型行业解决方案。
中国证券报

加载更多

视频