来源:【中国城市报】名词解释语料数据(Corpus Data)是指用于训练、测试和优化自然语言处理(NLP)模型或人工智能系统的一系列文本或语言数据。这些数据通常以文本形式存在,包括但不限于书籍、文章、新闻报道、对话记录、社交媒体内容、专业文献等。
【大河财立方 记者 王宁宁 深圳报道】日前,深圳四箭齐发推进建设人工智能先锋城市,一日连发4份行动计划,分别涉及人工智能先锋城市、人工智能终端产业、具身智能机器人和瞪羚企业独角兽企业,全方位深层次建设创新之城。
语料数据(Corpus Data)指为语言分析、模型训练等目的系统化收集的真实文本或语音材料的集合,是自然语言处理(NLP)领域的核心资源,相当于AI学习语言的“教材”。在AI时代,语料是人工智能发展的核心基础之一,甚至被誉为AI产业的“金矿”,是决定模型能力上限的核心要素。
漕河泾会议中心,座无虚席。2月22日,2025全球开发者先锋大会召开首日,一场以语料为主题的论坛吸引了众多开发者和创业者的围观,甚至连通道上都站满了认真聆听的观众。论坛承办方上海库帕思科技有限公司董事长山栋明说:“一开始觉得这个场地大才选了这里,但大家的热情超出了我们的想象。
活动现场。 上海市卫生健康委 供图上海首个卫生健康行业语料库发布,覆盖100多个二、三级专科科目,兼顾常见病、多发病、急难危重症、肿瘤和罕见病等。11月27日,上海市经济和信息化委员会、市卫生健康委员会、上海市疾病预防控制局共同发布上海市首个卫生健康行业语料库。
上海黄浦江畔,模速空间的办公室里,秦岳时常能看见城市苏醒的模样。“最近一个月里,我们推出了四款核心产品,AI带来的服务需求正在迎来爆炸式增长。”作为达摩智能创始人,秦岳在言辞间,难掩对于AI浪潮的热情与兴奋。面向五湖四海的人工智能(AI)创业者,上海正张开怀抱。
《深圳市加快打造人工智能先锋城市行动计划(2025—2026年)》印发。其中提出,加快构建行业语料集。充分利用深圳产业丰富优势,持续构建行业语料集,支撑垂类模型训练。打造高价值垂类数据集,重点培育医疗、教育、交通等高价值垂类数据集,汇聚建成3PB中文语料数据。
中新网上海11月27日电 (记者 陈静)上海市经济和信息化委员会、上海市卫生健康委员会、上海市疾病预防控制局27日共同发布上海市卫生健康行业语料库,包括临床医学1.0版和公共卫生1.0版。上海市卫生健康行业语料库27日正式发布。
开篇语 继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。
◎科技日报记者 王 春 实习生 冯 妍人工智能(AI)应用破圈,踢球、面试、做家务等统统轻松拿捏;在展台前,开发者们簇拥交流;在会场内,机器狗腾转挪移,虚拟现实(VR)眼镜捕捉着AI生成的城市图景……2月21日至23日,2025全球开发者先锋大会在上海举办。
基于无涯大模型,星环知识平台TKH打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用,可广泛应用于金融、能源、制造、工程等多个领域,通过精准的数据分析和知识管理,满足企业不同类型的知识应用需求,提升企业业务效率和竞争力。