中文语料占比

资讯

大模型发展提速中文语料够“吃”吗
继去年“百模大战”之后，今年国内大模型产业应用进入爆发元年。然而，大模型产业发展如火如荼的同时，其训练数据规模的增长速度跟不上、语料质量参差不齐，尤其是高质量中文语料短缺的问题日益凸显，成为各方关注焦点。
中国青年网
总台先试水：推出多部生成式AI节目，更懂中华文化的AI什么样？
业内普遍认为，如果说2023年是生成式人工智能技术“狂奔的一年”，那么2024年则有望成为人工智能应用大发展的“元年”。随着今年AI大模型与各类文本生成、文生图、文生视频工具的发展一路“狂飙”，全球传媒业也将迎来内容生产、传播与消费方式的全方位变革。
国际在线
加快高质量人工智能中文语料库建设迫在眉睫
人工智能（AI）语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合，是人工智能领域研究和应用的基础数据。目前，国际主流大模型训练语料库以英文语料为主，中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中国电子报
破解大模型中文语料不足问题，并非毫无办法｜新京报专栏
资料图：高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。
新京报
5评论
大模型发展亟需高质量“教材”相伴
大模型发展如火如荼，但高质量语料的缺乏正日益成为大模型发展的瓶颈。视觉中国供图　　1月5日，美国人工智能公司OpenAI表示，正在与数十家出版商洽谈达成文章授权协议，以获取内容来训练其人工智能模型。
中国网资讯
两会对话丨黄海清委员：高质量语料数据决定大模型训练效果上限，建议加快明确合理使用规则
“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”在2025年上海两会期间，上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示，未来，行业垂类大模型将成为中国大模型产业的主战场。
澎湃新闻
AI语料概念爆火，这些浙企藏着富矿
潮新闻记者肖淙文实习生仇萌在刚刚结束的深圳文博会上，华策集团展出通过国家备案的自研“有风”大模型。受访者供图OpenAI又“炸场”了。近日，具备“听、看、说”出色本领的“GPT-4o”亮相，新模型能够处理50种不同的语言，还能读取人的情绪。
浙江日报
国产大模型困境有解了？开放算料联盟成立围绕高质量中文数据开展合作
7月25日，深圳数交所联合近50家单位成立“开放算料联盟” 。参与公司不仅有联通、电信两大运营商以及腾讯云，还有多家A股公司，包括云天励飞、奥比中光、优必选、华大基因、海天瑞声等。
科创板日报
该怎样给孩子讲人工智能？我们问了问这位“清华爸爸”丨科技圆桌派
封面新闻记者张峥这两天，“人工智能”不仅成了两会上代表委员们讨论的热词，“人工智能+”还被写入政府工作报告。那么，人工智能怎么影响我们的生活，作为家长该怎样把AI讲给孩子听呢？怎样立足前沿科技，引导帮助孩子做好未来规划？3月7日，封面新闻记者对话了“清华爸爸”王鹏。
封面新闻
复旦MOSS团队：打造具有中国特色中文大型语言模型研究成果将会开源
未来，MOSS的优化将会围绕三方面展开。复旦大学供图中新网上海3月2日电 (陈静殷梦昊许文嫣)由美国OpenAI公司开发的ChatGPT模型在全球点燃了新一轮AI热潮。前不久，复旦大学计算机科学技术学院邱锡鹏团队发布类ChatGPT模型MOSS，备受关注。
中国新闻网
数据多样，增中华知识图谱持续更新，让AI读懂当代语境
AI语料新生态❷行业破局 “当前全球通用的50亿大模型数据训练集中，国内语料数据文本量仅占全球的1.3%”，国内AI大模型激战正酣，却面临高质量中文语料枯竭的困境。如何破解?“语料机构”“语料联盟”“算料联盟”等越来越扮演着关键角色。
南方都市报
大模型促千行百业数智转型
随着人工智能技术的飞速发展，大模型以强大的数字处理能力和深度学习能力，不断与各领域交叉融合，逐步成为产业创新的关键抓手和驱动新质生产力的关键引擎。大模型如何改变我们的生活，又如何赋能千行百业？未来的发展又将走向何方？
中国青年网
生成式人工智能助推网络文学繁荣发展
作者：刘秀秀根据中国作家协会网络文学中心发布的《2023中国网络文学蓝皮书》，截至2023年底，我国网络文学用户规模达5.2亿人。
光明网
瞭望 | 人工智能的“数据瓶颈”
基于庞大数据和超高算力的“暴力美学”，是当前生成式人工智能的核心打法，也是以OpenAI为代表的一众企业的发展密码。简单来说，在同等条件下，喂的数据越多，人工智能就越强在全球范围内，数据存量的增长速度远远低于数据集规模的增长速度。
新华社
找准数据标注产业发展着力点
来源：经济日报推动数据标注产业化，不仅夯实了人工智能算法训练的基石，也有助于释放数据要素的价值。新形势下，促进数据标注产业高质量发展，需要在需求牵引、创新驱动、生态培育等方面找准发力点。
中国经济网
全国人大代表其实：加大对于早期科创的支持力度
3月7日，南都湾财社记者从东方财富获悉，全国人大代表、东方财富董事长其实今年两会期间提交了两份建议，一份是关于进一步推动股权投资支持科技创新，一份是关于支持垂直大模型开发与应用。
南方都市报
专访赵艾：全面深化改革是促进新质生产力加快发展的强大动力
中新网北京7月10日电(中新财经记者李金磊)“以改革促进新质生产力发展，重要的在于找好重点、焦点和着力点。” 中国经济体制改革研究会常务副会长兼秘书长赵艾接受中新网专访时表示，要把重点、焦点和着力点放在市场、创新、企业家三个方面。
中国新闻网
全国人大代表、东方财富董事长其实：进一步推动垂直大模型开发与应用
以大模型为代表的人工智能技术已成为国家科技实力竞争的焦点，而垂直大模型较通用大模型而言，具有更强的领域专业性和需求针对性，训练和部署成本更低，是大模型发展的重要方向。
上观新闻
地方AI布局突进：13省份出台“AI+”政策，具身智能、智能驾驶或率先落地
21世纪经济报道记者缴翼飞北京报道近日，多省份两会陆续召开，“人工智能”成为地方政府工作报告的热词。1月15日，广东省十四届人大三次会议在广州开幕，政府工作报告提出，实施“人工智能+”行动，加快智算中心和数据基础设施建设。
21世纪经济报道
2评论
张勤委员：推动中华优秀传统文化与人工智能相结合
今年两会，全国政协委员张勤带来《关于推动人工智能赋能中华优秀传统文化传播的提案》。当前，全球人工智能新技术、新产品加速涌现。
北京日报客户端

加载更多

视频

在线举报

中文语料占比

资讯

大模型发展提速 中文语料够“吃”吗

总台先试水：推出多部生成式AI节目，更懂中华文化的AI什么样？

加快高质量人工智能中文语料库建设迫在眉睫

破解大模型中文语料不足问题，并非毫无办法｜新京报专栏

大模型发展亟需高质量“教材”相伴

两会对话丨黄海清委员：高质量语料数据决定大模型训练效果上限，建议加快明确合理使用规则

AI语料概念爆火，这些浙企藏着富矿

国产大模型困境有解了？开放算料联盟成立 围绕高质量中文数据开展合作

该怎样给孩子讲人工智能？我们问了问这位“清华爸爸”丨科技圆桌派

复旦MOSS团队：打造具有中国特色中文大型语言模型 研究成果将会开源

数据多样，增中华知识图谱 持续更新，让AI读懂当代语境

大模型促千行百业数智转型

生成式人工智能助推网络文学繁荣发展

瞭望 | 人工智能的“数据瓶颈”

找准数据标注产业发展着力点

全国人大代表其实：加大对于早期科创的支持力度

专访赵艾：全面深化改革是促进新质生产力加快发展的强大动力

全国人大代表、东方财富董事长其实：进一步推动垂直大模型开发与应用

地方AI布局突进：13省份出台“AI+”政策，具身智能、智能驾驶或率先落地

张勤委员：推动中华优秀传统文化与人工智能相结合

视频

郭毅可院士：AI语料库里中文只有5%，如何打造ChatGPT中国版？

中文使用语言排名全世界第一！英文排名使用率第二！！#地球之最

大模型发展提速中文语料够“吃”吗

国产大模型困境有解了？开放算料联盟成立围绕高质量中文数据开展合作

复旦MOSS团队：打造具有中国特色中文大型语言模型研究成果将会开源

数据多样，增中华知识图谱持续更新，让AI读懂当代语境