大模型训练语料怎么来的

资讯

大模型发展提速中文语料够“吃”吗
采写：本报记者龚茜策划：何屹房琳琳继去年“百模大战”之后，今年国内大模型产业应用进入爆发元年。然而，大模型产业发展如火如荼的同时，其训练数据规模的增长速度跟不上、语料质量参差不齐，尤其是高质量中文语料短缺的问题日益凸显，成为各方关注焦点。
湖南日报
破解大模型中文语料不足问题，并非毫无办法｜新京报专栏
资料图：高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。
新京报
6评论
大模型在这里“刷题”！国内首个人工智能数据训练基地启用
如果把人工智能大模型比作一位小学生，那么数据训练时所用的“语料”和“算力”，就相当于小学生“刷题”时使用的习题册和计算器，帮助他掌握知识点、更快给出正确答案。如今，北京的大模型有了更全面的“习题册”、更强大的“计算器”。
北京日报客户端
1评论
大模型发展亟需高质量“教材”相伴
大模型发展如火如荼，但高质量语料的缺乏正日益成为大模型发展的瓶颈。视觉中国供图　　1月5日，美国人工智能公司OpenAI表示，正在与数十家出版商洽谈达成文章授权协议，以获取内容来训练其人工智能模型。
中国网资讯
如何破解大模型“一本正经胡说八道”？这场大会给出新解法
11月22日，2023 IDEA大会在深圳举行。IDEA研究院（粤港澳大湾区数字经济研究院）创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲，发布IDEA研究院的重磅研产结晶与市场化成果。同时，沈向洋还从技术创新、技术创业、技术驱动新产业三个角度，分享科创的实践与思考。
南方都市报
高质量语料将愈加枯竭？如何为大模型加注“燃料”
继算力短缺之后，高质量语料枯竭，又成为发展人工智能的障碍？一份报告显示，高质量语料预计于2028年枯竭。为减缓这种情况的出现，近日，50余家单位在上海共同发起“语料生态服务大模型可持续发展倡议”，倡导携手为我国大模型产业发展持续提供高质量语料。
南方+客户端
语料含“原材料”和“半成品” 要让大模型“吃”得下能“消化”
开篇语继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后，中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布，构建公共数据资源开发利用“1+3”政策规则体系。
南方都市报
国产大模型最缺高质语料，这个联盟开源两周获18万下载，“投喂”回报是……
2022年11月，ChatGPT横空出世，带来大模型时代。但训练大模型好比培养孩子，唯有高质量的教育，才有高质量的输出。因此，高质量语料库是大模型产业链关键环节。基于此，今年7月6日，在世界人工智能大会开幕式上，由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
上观新闻
10评论
中国大模型语料数据联盟开源发布“书生·万卷”多模态语料
继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”（以下简称“语料数据联盟”），上海人工智能实验室（上海AI实验室）8月14日宣布，联合语料数据联盟成员单位共同开源发布“书生·万卷” 1.0多模态预训练语料。澎湃新闻（www.thepaper.
澎湃新闻
为AI大模型提供高质量语料，这一基础设施启动建设！
8月19日，在2024北京人工智能生态大会上，高价值语料可信流通基础设施正式启动建设。在区块链、隐私计算等前沿信息技术的护航下，支撑人工智能大模型高质量成长的语料数据将告别无序流通，转入规范运行的“高速公路”。
京报网
大模型“百花齐放” 业界合力“充实”中文语料数据
中新网上海9月8日电 (记者郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员，来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立，致力建设开放型的大模型语料数据生态圈。
中国新闻网
语料数据如何赋能大模型产业发展？语料运营平台1.0在沪发布
高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。高质量语料数据如何高效供给赋能大模型产业发展？7月6日上午，2024世界人工智能大会语料主题论坛在上海举办。
澎湃新闻
两会之声｜委员建言大模型产业发展：供给高质量语料，打造标志性应用场景
生成式人工智能（AIGC）迅猛发展，引爆新一轮人工智能大模型产业化热潮，形成全新产业风口。上海积极布局大模型产业，全国首个大模型创新生态社区“模速空间”2023年9月在上海徐汇区揭牌后，已汇聚千余家人工智能企业、255家大模型企业以及100余家投资机构。
澎湃新闻
AI大模型，职教在探索
生成式人工智能（AIGC）教学应用实践体验现场。广东科学技术职业学院供图“我是学校的大二学生，已经有4门课不及格，我该怎么办？”在“知行大先生”AI大模型里，中青报·中青网记者假装以学生身份输入了以上问题。
光明网
知乎周源：AI训练中合成数据潜力巨大，但需明确标准和质量
2024年是全国政协委员、知乎创始人兼CEO周源履职的第二年。深切关注人工智能发展、“新职人”群体等话题的他，从行业经验和个人思考出发，带着五份提案和建议来到今年全国两会。在接受南都记者采访时，周源表示，未来几年，大模型领域的中文语料数据短缺问题会非常突出，亟须各方重视。
南方都市报
一文详解大模型归因机制，幻觉问题有救了！
由于大模型的训练语料来源广泛，且都是未经筛选的现实世界文本，预训练的目标也仅在于预测下一个单词，并未对生成内容的真实性进行建模和验证，这导致了大模型幻觉问题的频繁出现。论文标题:A Survey of Large Language Models Attribution。
夕小瑶科技说
3评论
发力语料建设让人工智能健康成长
一年前，2023世界人工智能大会上，上海人工智能实验室、人民网、国家气象中心等单位联合发起的中国第一个大模型语料数据联盟正式成立。
光明网
大模型与智能社会：基于历史唯物主义的探察
作者：肖峰（上海大学马克思主义学院暨智能哲学与文化研究院教授）摘要：大模型具有“大智能”“大应用”“大参与”的技术特征及功能效应，或成为智能社会来临的重要标志。
光明网
当“望闻问切”遇上人工智能
科技日报记者叶青你是否想过，未来给你问诊的可能是人工智能？据报道，用于寻医问诊的大语言模型在国内已经出现，医检行业等垂直领域也正加速布局对应的大语言模型。不仅如此，《自然》杂志近日还发表了一篇论文，展示了一个用于评估大语言模型在医学问题上整体表现水平的基准。
光明网

加载更多

视频