《东方法学》一直在探寻更适合学术内容分发的新传播样态,就是希望能为长内容的展示提供更友好、更亲切、更生动的呈现方式。10月29日第35期节目“揭秘语料库:数字时代如何进行法律检索?”已上线,希望大家喜欢、支持和订阅,识别下图中二维码安装小宇宙App,订阅《东方法学》学术播客。
记者今日(2月19日)从山东省工信厅了解到,为加快推动工业领域重点行业数据汇聚流通和创新应用,以“产业大数据+行业大模型”赋能特色优势行业数智化转型,2025年工业领域重点行业产业数据仓和知识语料库征集工作正式启动。
人工智能(AI)语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
光明网讯(记者 李政葳)新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。人工智能的快速发展迫切需要高质量、大规模、安全可信的语料数据资源。近日,中国网络空间安全协会人工智能安全治理专业委员会面向社会发布了用于大模型的首批中文基础语料库。
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。
ShanghaiAILab随着共建“一带一路”进入高质量发展新阶段,科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室(上海AI实验室)通过研发先进数据智能技术,提供多语言语料库等举措,探索以人工智能赋能高质量共建“一带一路”。
林咏华。【访谈】中国的人工智能,理所当然、天经地义地要“讲中国话”。从语言学层面说,它应该理解中国话的丰富、微妙和深刻,不应该再闹出“胸有成竹”就是胸前长出几棵竹子的笑话;而从价值观层面说,中国的人工智能应该为中国人思考、为中国人服务,这才叫作“讲中国话”。怎样才能做到这一点?
英国兰卡斯特大学的 Tony McEnery 教授是国际语料库语言学界的代表性学者,他在 Corpus-based Language Studies: An Advanced Resource Book 一书中对语料库有如下定义:A collection of machine-readable, authentic texts which is sampled to be representative of a particular language or language variety。
在7月8日的2023世界人工智能大会“大模型时代下的数据要素流通”主题论坛上,北京商报记者获悉,上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
习近平总书记在2022年4月25日考察中国人民大学时强调:“要运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,推动中华优秀传统文化创造性转化、创新性发展。”中华经典语言隐喻研究模式探索。
在近日举行的中关村论坛上,数据安全治理与发展论坛举办。论坛上,智源研究院正式发布了中文互联网语料库CCI 2.0(Chinese Corpora Internet,简称 CCI),规模约 500GB,涵盖1.25亿个网页。