2022年11月,ChatGPT横空出世,带来大模型时代。但训练大模型好比培养孩子,唯有高质量的教育,才有高质量的输出。因此,高质量语料库是大模型产业链关键环节。基于此,今年7月6日,在世界人工智能大会开幕式上,由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书
7月6日至8日,2023世界人工智能大会在上海举办。 郑莹莹 摄中新网上海7月8日电 题:当大模型如“雨后春笋” 业界改变了什么?中新网记者 郑莹莹在2023年的世界人工智能大会(WAIC)上,大模型“扎堆”。
人工智能(AI)语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
本报记者 曲忠芳 北京报道3月4日,2024年全国两会正式召开。全国政协委员、知乎创始人兼CEO周源提交了多份提案,涉及高质量技能人才供给、推动大模型产业高质量发展、打击新型盗版侵权力度、提升全民科学素质、促进民营经济高质量发展等相关主题。
采写:本报记者 龚 茜策划:何 屹 房琳琳继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。
中证网讯(记者 王可)为促进数据要素安全合规高效流通、赋能人工智能大模型创新发展,作为2023世界人工智能大会的重要组成部分,7月8日,由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海世博中心举行。
光明网讯(记者 李政葳)新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。人工智能的快速发展迫切需要高质量、大规模、安全可信的语料数据资源。近日,中国网络空间安全协会人工智能安全治理专业委员会面向社会发布了用于大模型的首批中文基础语料库。
在7月8日的2023世界人工智能大会“大模型时代下的数据要素流通”主题论坛上,北京商报记者获悉,上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
2024年是全国政协委员、知乎创始人兼CEO周源履职的第二年。深切关注人工智能发展、“新职人”群体等话题的他,从行业经验和个人思考出发,带着五份提案和建议来到今年全国两会。在接受南都记者采访时,周源表示,未来几年,大模型领域的中文语料数据短缺问题会非常突出,亟须各方重视。
《东方法学》一直在探寻更适合学术内容分发的新传播样态,就是希望能为长内容的展示提供更友好、更亲切、更生动的呈现方式。10月29日第35期节目“揭秘语料库:数字时代如何进行法律检索?”已上线,希望大家喜欢、支持和订阅,识别下图中二维码安装小宇宙App,订阅《东方法学》学术播客。
中证网讯(记者 彭思雨)11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。