人工智能基础数据从哪里来

资讯

促进生成式人工智能发展亟须破解数据瓶颈
【析理论道】作者：王业亮、丁晓东（分别系中国人民大学法学院博士后，中国人民大学法学院教授、未来法治研究院副院长）作为信息化、数字化、智能化的新型技术基座，生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。
光明网
财经三人谈：“喂养”AI，大数据从哪来
来源：环球时报编者的话：人工智能（AI）大模型的训练、进化都离不开数据。外媒近日报道称，科技公司利用语音识别工具转录视频网站上的视频，形成对话文本数据来训练AI，也有公司用社交媒体上具有版权争议和隐私权争议的数据来训练AI——这些“捷径”是否合法？
环球网
“喂养”AI，大数据从哪来
李志起杨明川姚佳编者的话：人工智能（AI）大模型的训练、进化都离不开数据。外媒近日报道称，科技公司利用语音识别工具转录视频网站上的视频，形成对话文本数据来训练AI，也有公司用社交媒体上具有版权争议和隐私权争议的数据来训练AI——这些“捷径”是否合法？
环球时报
3评论
深读｜百度人工智能基础数据产业基地为何选择肇庆？
8月28日，百度智能云（肇庆）人工智能基础数据产业基地及AI应用赋能中心开业仪式在肇庆市端州区华南智慧城举行。这是今年6月底端州区人民政府与北京百度网讯科技有限公司举行签约仪式后的又一新举动，标志着双方合作进入实质化阶段。揭牌仪式正在进行中。
南方+客户端
AI数据从何而来？版权难题何解？合规水位定多高？专家热议
12月19日，第七届啄木鸟数据治理论坛在京召开。此次论坛由南方都市报数字经济治理研究中心联合中国政法大学数据法治研究院举办，主题为“数据为本，AI向善”。
南方都市报
对话海天瑞声：高质量AI训练数据如何得到丨2023数字中国年度对话
作为AI三要素之一，数据的积累和质量对AI大模型的训练起到了决定性作用。训练数据生产过程主要包括四个环节：设计、采集、加工（数据标注）及质检。其中，数据标注需要识别语音、图像、文本、视频等原始数据，并添加标签为机器学习模型指定上下文，帮助其做出准确的预测。
第一财经
1评论
观察｜大模型潮即将耗尽全宇宙文本，高质量数据从哪里来？
·专家警告，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。同时，用AI生成的数据“反哺”AI或造成模型崩溃。未来模型训练使用的高质量数据可能会愈来愈昂贵，网络走向碎片化和封闭化。
澎湃新闻
我国生成式人工智能实现突破创新需要良法善治
2023年4月11日，国家互联网信息办公室发布了关于《生成式人工智能服务管理办法》，目的是为促进生成式人工智能健康发展和规范应用，其中第七条涉及到生成式人工智能服务提供者数据来源的合法性问题引起国内业界和学界的关注。
国之瑰宝
从数据到芯片，开发AI越来越昂贵，只有科技巨头能“玩得起”？
更多的训练数据、更大的模型、更多的芯片和数据中心，这些推动人工智能（AI）进步的“基础设施”，正推高科技公司的成本。5月，OpenAI与美国新闻集团（News Corp）签订了一项五年内金额超过2.5亿美元的内容授权协议，允许前者使用后者的新闻出版物内容来回答用户查询并训练AI。
第一财经
2024年中国AI基础数据服务研究报告
核心摘要:近年来，Transformer等预训练大模型在语言理解及生成等领域表现出色，大模型背后的Scaling Law进一步揭示了模型性能与数据量、算力之间的关系，强化了数据在提升AI表现中的关键作用。
艾瑞咨询

视频

问答