采写丨科技日报记者 龚茜策划丨何屹 房琳琳继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。
新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。
林咏华。【访谈】中国的人工智能,理所当然、天经地义地要“讲中国话”。从语言学层面说,它应该理解中国话的丰富、微妙和深刻,不应该再闹出“胸有成竹”就是胸前长出几棵竹子的笑话;而从价值观层面说,中国的人工智能应该为中国人思考、为中国人服务,这才叫作“讲中国话”。怎样才能做到这一点?
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。
·征求意见稿首次提出生成式AI服务提供者需遵循的安全基本要求,涉及语料安全、模型安全、安全措施、安全评估等方面,给出了语料及生成内容的主要安全风险共5类31种。《生成式人工智能服务安全基本要求》(征求意见稿)发布,是国内首个专门面向生成式AI安全领域的规范意见稿。
资料图:高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
【科学随笔·我见AI】开栏的话去旅游,找AI做个攻略;要开会,让AI写好PPT;田间地头,智慧农业精准控制着土地的湿度和养分;崇山峻岭,无人机在人迹罕至处巡视高压电线……人类社会,正在被人工智能改变着。有欣喜、有“解放”,也有困惑、有障碍。