al模型训练数据

资讯

AI训练数据匮乏怎么破？智源研究院开源两个大规模数据集
南都讯记者李玲数据质量决定了大模型的上限，但数据短缺成为制约大模型发展的瓶颈。如何缓解AI公司的数据焦虑？6月14日，第六届北京智源大会上公布了两个数据集：一是千万级高质量开源指令微调数据集，二是开源中英文行业数据集。高质量的指令数据是大模型性能的“养料”。
南方都市报
用AI合成数据训练AI，AI模型训练新市场涌现
智东西7月25日消息，微软、OpenAI和Cohere等公司正在测试使用合成数据训练大语言模型。目前使用人造数据的最复杂形式即为合成数据，使用合成数据训练或有助于进一步训练AI模型。
智东西
AI模型训练催生“数据标注”岗位，时薪工人和科学家竞争上岗
澎湃新闻随着人工智能领域的迅猛增长，业界对大模型数据集的劳动力需求正在攀升，尤其是对文本、图像、视频和音频进行标注的领域。为了降低成本，这类岗位往往被外包到不发达国家。
新重庆-重庆日报
AI训练数据荒下，合成数据成为“开源”新解法？
21世纪经济报道记者冯恋阁福州报道生成式人工智能技术不断发展，训练数据来源成为人们最关注的问题之一。去年11月，国家数据局等17部门联合印发的《“数据要素×”三年行动计划（2024—2026年）》提到，要提升数据供给水平、建设高质量语料库和基础科学数据库。
21世纪经济报道
B端训练数据哪里来？︱AI大模型十问（一）
AI大模型不断涌现，“百模大战”愈演愈烈。但不论是To B还是To C的大模型，都面临训练数据日渐匮乏的问题。业内有报告预测，语言数据将于2030~2040年耗尽，其中能训练出更好性能的高质量语言数据将于2026年耗尽；此外，视觉数据将于2030~2060年耗尽。
第一财经
AI大模型“无米下锅”？合成数据多重优势凸显硅谷巨头正加速布局
北京提出，在谋划建设国家级数据训练基地的过程中，要开发涵盖文本、图像、视频等多模态的高质量数据集，助力国家级数据训练基地建设。
科创板日报
5评论
用AI生成数据训练AI或导致模型崩溃
科技日报北京7月25日电（记者张梦然）《自然》24日正式发表的一篇研究论文指出了一个人工智能（AI）严重问题：用AI生成的数据集训练未来几代机器学习模型，可能会严重“污染”它们的输出，这被称为“模型崩溃”。
光明网
区块链+人工智能（2） |中国信通院程彤彤：AI大模型数据安全与应对策略
在惊讶的同时，很多国家和组织开始对AI大模型的海量数据训练产生了担忧，怀疑用户在使用 ChatGPT过程中可能会泄露个人隐私信息或者组织乃至国家的机密信息。
工业互联网智库官方号
1评论
AI发展：训练数据即将遭遇瓶颈
得益于神经网络规模的扩大以及海量数据的训练，人工智能（AI）在过去10年间突飞猛进。“做大做强”的策略，在构建大型语言模型（LLM）上取得了显著成果，ChatGPT就是一个典型的例子。然而，《自然》《麻省理工科技评论》等多家杂志网站指出，AI扩展正逼近极限。
光明网
大模型新赛道升温：“企业私有化部署”！科大讯飞要干，有初创公司拿了5000万美元融资
随着像ChatGPT这样的大型语言模型颠覆了越来越多的生产领域，企业如何应用大模型、如何私有化AI部署成为了一个热度越来越高的话题。
华尔街见闻
4评论

视频