中文语料标注

资讯

北京话多种口语语料的副词强调标记研究
北京话在现代汉语中的地位极其特殊，它不仅是最具影响的北方方言之一，与当代汉民族共同语——普通话更是渊源深厚。
光明网
全国政协委员周源：补齐优质中文语料数据短板推动我国大模型产业高质量发展
2024年全国两会开幕在即，3月3日，北京青年报记者了解到，今年全国政协委员、知乎创始人兼CEO周源提交了《关于补齐优质中文语料数据短板推动我国大模型产业高质量发展的提案》。
北青网
解语：如何从零样本做中文文本知识标注与挖掘？
导读:在产业应用场景中，缺乏通用知识库、标注数据建设代价大、研发人力成本高，是阻碍知识图谱进行落地应用的主要困难。
DataFunTalk
6评论
文本标注八要点 | NLP基础浅析
想了解NLP如何处理自然语言，要先弄懂计算机为什么要处理自然语言，如果只是人类相互之间使用同一种自然语言交流，那么是不需要对自然语言做显性处理的。
变债为宝
大模型发展提速，中文语料够“吃”吗？
采写丨科技日报记者龚茜策划丨何屹房琳琳继去年“百模大战”之后，今年国内大模型产业应用进入爆发元年。然而，大模型产业发展如火如荼的同时，其训练数据规模的增长速度跟不上、语料质量参差不齐，尤其是高质量中文语料短缺的问题日益凸显，成为各方关注焦点。
科技日报
知乎上线“AI搜索”功能中文语料资源短缺有待破解
21世纪经济报道记者白杨北京报道3月20日，知乎正式发布了全新AI功能“发现·AI搜索”。这也是继去年发布“知海图AI”大模型后，知乎在人工智能方面的又一重要进展。
21世纪经济报道
3评论
智源研究院发中文互联网语料库3.0，含1000GB高质量数据
新京报贝壳财经讯（记者白金蕾）9月20日，在2024北京文化论坛“文化潮流：新兴业态与技术融合”平行论坛上，智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。中文互联网语料库3.0具有规模空前，来源广泛；精细标注，赋能应用；效果突破，更懂中文等特点。
新京报
智源人工智能研究院副院长兼总工程师林咏华：要让AI“讲中国话”，必须建好中文语料库
林咏华。【访谈】中国的人工智能，理所当然、天经地义地要“讲中国话”。从语言学层面说，它应该理解中国话的丰富、微妙和深刻，不应该再闹出“胸有成竹”就是胸前长出几棵竹子的笑话；而从价值观层面说，中国的人工智能应该为中国人思考、为中国人服务，这才叫作“讲中国话”。怎样才能做到这一点？
长江日报
4评论
谁为AI中文语料建设破局？语料联盟与语料库扮演关键角色
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后，中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布，构建公共数据资源开发利用“1+3”政策规则体系。
南方都市报
1评论
国内首个生成式AI安全指导性文件明确31种风险，建语料数据黑名单
·征求意见稿首次提出生成式AI服务提供者需遵循的安全基本要求，涉及语料安全、模型安全、安全措施、安全评估等方面，给出了语料及生成内容的主要安全风险共5类31种。《生成式人工智能服务安全基本要求》（征求意见稿）发布，是国内首个专门面向生成式AI安全领域的规范意见稿。
澎湃新闻
破解大模型中文语料不足问题，并非毫无办法｜新京报专栏
资料图：高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。
新京报
5评论
找准数据标注产业发展着力点
来源：经济日报推动数据标注产业化，不仅夯实了人工智能算法训练的基石，也有助于释放数据要素的价值。新形势下，促进数据标注产业高质量发展，需要在需求牵引、创新驱动、生态培育等方面找准发力点。
中国经济网
中国AI，继续“深度求索”
【科学随笔·我见AI】开栏的话去旅游，找AI做个攻略；要开会，让AI写好PPT；田间地头，智慧农业精准控制着土地的湿度和养分；崇山峻岭，无人机在人迹罕至处巡视高压电线……人类社会，正在被人工智能改变着。有欣喜、有“解放”，也有困惑、有障碍。
中国青年网
ChatGPT如何掀起科技革命？从科学家到投资人，掏出满满硬核干货
智东西4月18日报道，近日，GTIC 2023中国AIGC创新峰会在北京圆满落幕，20+位产学界重磅嘉宾分享了大模型与生成式AI的前沿创新、商业前景、算力进化、创业机会与投资策略。
智东西
《中国文化和科技融合发展战略研究报告》全文发布
2023年9月21日，在中国（南京）文化和科技融合成果展览交易会主论坛正式发布，由中国人民大学创意产业技术研究院研究编制了《中国文化和科技融合发展战略研究报告（2023）》（简称《报告》）。
封面新闻

加载更多

视频

在线举报