【析理论道】作者:王业亮、丁晓东(分别系中国人民大学法学院博士后,中国人民大学法学院教授、未来法治研究院副院长)作为信息化、数字化、智能化的新型技术基座,生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。
来源:环球时报 编者的话:人工智能(AI)大模型的训练、进化都离不开数据。外媒近日报道称,科技公司利用语音识别工具转录视频网站上的视频,形成对话文本数据来训练AI,也有公司用社交媒体上具有版权争议和隐私权争议的数据来训练AI——这些“捷径”是否合法?
李志起 杨明川 姚 佳编者的话:人工智能(AI)大模型的训练、进化都离不开数据。外媒近日报道称,科技公司利用语音识别工具转录视频网站上的视频,形成对话文本数据来训练AI,也有公司用社交媒体上具有版权争议和隐私权争议的数据来训练AI——这些“捷径”是否合法?
8月28日,百度智能云(肇庆)人工智能基础数据产业基地及AI应用赋能中心开业仪式在肇庆市端州区华南智慧城举行。这是今年6月底端州区人民政府与北京百度网讯科技有限公司举行签约仪式后的又一新举动,标志着双方合作进入实质化阶段。揭牌仪式正在进行中。
作为AI三要素之一,数据的积累和质量对AI大模型的训练起到了决定性作用。训练数据生产过程主要包括四个环节:设计、采集、加工(数据标注)及质检。其中,数据标注需要识别语音、图像、文本、视频等原始数据,并添加标签为机器学习模型指定上下文,帮助其做出准确的预测。
·专家警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。同时,用AI生成的数据“反哺”AI或造成模型崩溃。未来模型训练使用的高质量数据可能会愈来愈昂贵,网络走向碎片化和封闭化。
2023年4月11日,国家互联网信息办公室发布了关于《生成式人工智能服务管理办法》,目的是为促进生成式人工智能健康发展和规范应用,其中第七条涉及到生成式人工智能服务提供者数据来源的合法性问题引起国内业界和学界的关注。
更多的训练数据、更大的模型、更多的芯片和数据中心,这些推动人工智能(AI)进步的“基础设施”,正推高科技公司的成本。5月,OpenAI与美国新闻集团(News Corp)签订了一项五年内金额超过2.5亿美元的内容授权协议,允许前者使用后者的新闻出版物内容来回答用户查询并训练AI。
核心摘要:近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。