继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。
业内普遍认为,如果说2023年是生成式人工智能技术“狂奔的一年”,那么2024年则有望成为人工智能应用大发展的“元年”。随着今年AI大模型与各类文本生成、文生图、文生视频工具的发展一路“狂飙”,全球传媒业也将迎来内容生产、传播与消费方式的全方位变革。
人工智能(AI)语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
资料图:高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”在2025年上海两会期间,上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示,未来,行业垂类大模型将成为中国大模型产业的主战场。
潮新闻 记者 肖淙文 实习生 仇萌在刚刚结束的深圳文博会上,华策集团展出通过国家备案的自研“有风”大模型。 受访者供图OpenAI又“炸场”了。近日,具备“听、看、说”出色本领的“GPT-4o”亮相,新模型能够处理50种不同的语言,还能读取人的情绪。
封面新闻记者 张峥这两天,“人工智能”不仅成了两会上代表委员们讨论的热词,“人工智能+”还被写入政府工作报告。那么,人工智能怎么影响我们的生活,作为家长该怎样把AI讲给孩子听呢?怎样立足前沿科技,引导帮助孩子做好未来规划?3月7日,封面新闻记者对话了“清华爸爸”王鹏。
未来,MOSS的优化将会围绕三方面展开。 复旦大学供图中新网上海3月2日电 (陈静 殷梦昊 许文嫣)由美国OpenAI公司开发的ChatGPT模型在全球点燃了新一轮AI热潮。前不久,复旦大学计算机科学技术学院邱锡鹏团队发布类ChatGPT模型MOSS,备受关注。
AI语料新生态❷行业破局 “当前全球通用的50亿大模型数据训练集中,国内语料数据文本量仅占全球的1.3%”,国内AI大模型激战正酣,却面临高质量中文语料枯竭的困境。 如何破解?“语料机构”“语料联盟”“算料联盟”等越来越扮演着关键角色。
随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手和驱动新质生产力的关键引擎。大模型如何改变我们的生活,又如何赋能千行百业?未来的发展又将走向何方?
中国小康网 独家专稿文|《小康》·中国小康网 袁凯做ChatGPT好比踢足球,踢足球都是盘带、射门,但是要做到梅西那么好也不容易。常识 在人工智能领域,一个基础常识是,算法训练是一件没有办法弯道超车的事情。
基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强在全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。
中新网北京7月10日电(中新财经记者 李金磊)“以改革促进新质生产力发展,重要的在于找好重点、焦点和着力点。” 中国经济体制改革研究会常务副会长兼秘书长赵艾接受中新网专访时表示,要把重点、焦点和着力点放在市场、创新、企业家三个方面。
21世纪经济报道记者缴翼飞 北京报道近日,多省份两会陆续召开,“人工智能”成为地方政府工作报告的热词。1月15日,广东省十四届人大三次会议在广州开幕,政府工作报告提出,实施“人工智能+”行动,加快智算中心和数据基础设施建设。