采写:本报记者 龚 茜策划:何 屹 房琳琳继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。
资料图:高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
如果把人工智能大模型比作一位小学生,那么数据训练时所用的“语料”和“算力”,就相当于小学生“刷题”时使用的习题册和计算器,帮助他掌握知识点、更快给出正确答案。如今,北京的大模型有了更全面的“习题册”、更强大的“计算器”。
11月22日,2023 IDEA大会在深圳举行。IDEA研究院(粤港澳大湾区数字经济研究院)创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成果。同时,沈向洋还从技术创新、技术创业、技术驱动新产业三个角度,分享科创的实践与思考。
继算力短缺之后,高质量语料枯竭,又成为发展人工智能的障碍?一份报告显示,高质量语料预计于2028年枯竭。为减缓这种情况的出现,近日,50余家单位在上海共同发起“语料生态服务大模型可持续发展倡议”,倡导携手为我国大模型产业发展持续提供高质量语料。
开篇语 继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。
2022年11月,ChatGPT横空出世,带来大模型时代。但训练大模型好比培养孩子,唯有高质量的教育,才有高质量的输出。因此,高质量语料库是大模型产业链关键环节。基于此,今年7月6日,在世界人工智能大会开幕式上,由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)8月14日宣布,联合语料数据联盟成员单位共同开源发布“书生·万卷” 1.0多模态预训练语料。澎湃新闻(www.thepaper.
8月19日,在2024北京人工智能生态大会上,高价值语料可信流通基础设施正式启动建设。在区块链、隐私计算等前沿信息技术的护航下,支撑人工智能大模型高质量成长的语料数据将告别无序流通,转入规范运行的“高速公路”。
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
生成式人工智能(AIGC)迅猛发展,引爆新一轮人工智能大模型产业化热潮,形成全新产业风口。上海积极布局大模型产业,全国首个大模型创新生态社区“模速空间”2023年9月在上海徐汇区揭牌后,已汇聚千余家人工智能企业、255家大模型企业以及100余家投资机构。
生成式人工智能(AIGC)教学应用实践体验现场。广东科学技术职业学院供图“我是学校的大二学生,已经有4门课不及格,我该怎么办?”在“知行大先生”AI大模型里,中青报·中青网记者假装以学生身份输入了以上问题。
2024年是全国政协委员、知乎创始人兼CEO周源履职的第二年。深切关注人工智能发展、“新职人”群体等话题的他,从行业经验和个人思考出发,带着五份提案和建议来到今年全国两会。在接受南都记者采访时,周源表示,未来几年,大模型领域的中文语料数据短缺问题会非常突出,亟须各方重视。
由于大模型的训练语料来源广泛,且都是未经筛选的现实世界文本,预训练的目标也仅在于预测下一个单词,并未对生成内容的真实性进行建模和验证,这导致了大模型幻觉问题的频繁出现。论文标题:A Survey of Large Language Models Attribution。
科技日报记者 叶 青你是否想过,未来给你问诊的可能是人工智能?据报道,用于寻医问诊的大语言模型在国内已经出现,医检行业等垂直领域也正加速布局对应的大语言模型。不仅如此,《自然》杂志近日还发表了一篇论文,展示了一个用于评估大语言模型在医学问题上整体表现水平的基准。