该语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料。
活动现场。 上海市卫生健康委 供图上海首个卫生健康行业语料库发布,覆盖100多个二、三级专科科目,兼顾常见病、多发病、急难危重症、肿瘤和罕见病等。11月27日,上海市经济和信息化委员会、市卫生健康委员会、上海市疾病预防控制局共同发布上海市首个卫生健康行业语料库。
ShanghaiAILab随着共建“一带一路”进入高质量发展新阶段,科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室(上海AI实验室)通过研发先进数据智能技术,提供多语言语料库等举措,探索以人工智能赋能高质量共建“一带一路”。
记者9日从上海人工智能实验室获悉,其联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑。“万卷·丝路”首期开源了包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.
新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。
6月27日,在中国自主的知识体系成果发布会(2024年夏季)上,中国人民大学、山东大学、四川大学、北京外国语大学等“建构中国自主的知识体系大学联盟”成员以及北京社会科学院,发布《中国英汉平行语料库研究》等多项重要学术成果。会上,中国人民大学新闻学院院长周勇发布新闻传播学学科成果。
在近日举行的中关村论坛上,数据安全治理与发展论坛举办。论坛上,智源研究院正式发布了中文互联网语料库CCI 2.0(Chinese Corpora Internet,简称 CCI),规模约 500GB,涵盖1.25亿个网页。
4月26日,在2024中关村论坛年会上,北京智源人工智能研究院副院长兼总工程师林咏华女士发布中文互联网语料库CCI 2.0成果。从2023年到2024年大模型有了更快的发展,无论从语言模型还是多模态文生视频模型,在训练数据的数据量上都是有了十倍、几十倍甚至上百倍需求的发展。
在全球化进程加速的时代背景下,跨文化交流成为世界各国紧密相连的重要纽带。西安翻译学院语智星图团队肩负使命,全力打造基于中国本土文化的小场景 AI 翻译语料库。该团队致力于促进“一带一路”倡议下的文化对外传播,让中华文化以更精准、高效的方式走向世界舞台。
AI语料新生态❸开源筑基 “开源已经成为推动AI技术进步的重要力量”,上海人工智能实验室·大模型语料数据联盟去年联合发布多模态语料库首个开源版本——书生·万卷1.0,目前下载量超过149万人次,通过开源共建包容、开放、有序、共享的AI语料新生态。
近日,在中国网络空间安全协会人工智能安全治理专委会工作年会上,中文互联网语料资源平台正式面向社会发布。在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,协同人工智能产、学、研、用单位,共同建设中文互联网语料资源平台,面向社会提供中文互联网基础语料展示下载服务。
新京报贝壳财经讯(记者韦英姿)4月26日,在2024中关村论坛年会平行论坛“数据安全治理与发展论坛”上,北京智源人工智能研究院(简称智源研究院)副院长兼总工程师林咏华表示,从语言模型演进到多模态文生视频模型,对模型训练数据所需要的数据量提出了十倍、几十倍甚至上百倍的发展需求。