科学大模型训练数据稀缺

资讯

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始
【环球时报记者刘扬环球时报特约记者陈山】近年来依托大模型驱动的人工智能（AI）已经渗入现代社会的方方面面，但它的高速发展离不开海量数据的支持，以至于业内将数据形容为推动AI发展的“燃料”和“矿产”。
中国青年网
关于大模型竞争，傅盛捅破的不只有数据壁垒
尽管OpenAI下一代旗舰模型的上线时间还是未知数，但多方消息指向同一个可能性：性能没那么大飞跃了。来自OpenAI的员工和研究人员表示，高质量文本和其他数据的供应不足是GPT模型性能减速的原因之一。
快消八谈
乌镇“智”新时刻丨大模型面临高质量数据短缺国产 AI 数据合成与生产平台乌镇“首发”
封面新闻记者张越熙11月 19 日下午，行业大模型、具身智能、算力、芯片、数据合成等10 项首发成果在乌镇峰会登台路演，其中 AI 数据合成与生产平台AIGD（AI Generated Data）因聚焦“数据合成”获广泛关注。
封面新闻
1评论
AI训练数据荒下，合成数据成为“开源”新解法？
21世纪经济报道记者冯恋阁福州报道生成式人工智能技术不断发展，训练数据来源成为人们最关注的问题之一。去年11月，国家数据局等17部门联合印发的《“数据要素×”三年行动计划（2024—2026年）》提到，要提升数据供给水平、建设高质量语料库和基础科学数据库。
21世纪经济报道
破解大模型中文语料不足问题，并非毫无办法｜新京报专栏
资料图：高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。
新京报
6评论
GPT-5推迟发布只因“数据饥饿”？上海破题大模型语料训练技术路线和供给
启明创投主管合伙人周志峰最近在与美国AI界交流过程中，听闻OpenAI的GPT-5或推迟到2025年底发布，其原因之一，可能是用于大模型训练的13万亿数据依旧不够用。为此，OpenAI不得不勉为其难，将相同数据“回炉”训练。
上观新闻
5评论
高质量数据：大模型竞争的下一站
尽管OpenAI下一代旗舰模型的上线时间还是未知数，但多方消息指向同一个可能性：性能没那么大飞跃了。来自OpenAI的员工和研究人员表示，高质量文本和其他数据的供应不足是GPT模型性能减速的原因之一。
北京商报
1评论
AI大模型“爆发”须防范数据法律风险
在科技飞速发展的当下，AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域，深度融入人们的生活与工作，为社会带来了前所未有的便利与效益。然而，繁荣背后潜藏危机，AI大模型在训练和应用过程中，面临着一系列复杂的数据法律风险。
澎湃新闻
1评论
贵数所上线572个人工智能高质量训练数据集
近日，贵阳大数据交易所以全国首个数据要素登记行业节点DOID为载体，上线572个人工智能高质量训练数据集，首创数据要素行业稀有地图，为人工智能大模型发展精准赋能。
天眼新闻
全国首个罕见病领域人工智能大模型推出
在对话框中输入“发现孩子从2岁起发育、语言和动作都明显落后，交流也无法完成”等症状，几秒钟后，人工智能（AI）大模型就会给出“需警惕罕见遗传性疾病（如雷特综合征、天使综合征等）或复杂神经发育障碍”的判断，并给出就诊科室、补充检查等医学建议。
中国蓝新闻
互联网30年30物｜中国AI大模型“百模大战”下蝶变
开栏语1994年4月，中国全功能接入互联网，成为国际互联网大家庭中的第77个成员。今年正是中国全功能接入互联网的第30个年头，也是“半甲子”的重要节点。短短30年的发展历程，大潮激荡、风卷云涌，有太多“物”值得铭记。
新京报
“2024科学智能创新论坛”发布四个大模型，它们有何“绝活”？
11月11日，在复旦大学和上海科学智能研究院主办的“2024科学智能创新论坛”上，气候科学大语言模型、“女娲-基因导航大模型”、“女娲-生命流体大模型”和“女娲-生物结构大模型”正式发布。这些大模型有何“绝活”和亮点？为何以“女娲”命名三个生命科学大模型？
上观新闻
92评论
字节发布全新AI数字人模型，大模型变现前景可期
2月6日早盘，A股整体小幅低开。上证指数开盘报3226.57点，跌0.09%。深证成指开盘报10142.85点，跌0.21%。创业板指开盘报2059.45点，跌0.17%。科技赛道维持高热度，昨日大涨近9%的信创ETF（562570）低开后走强翻红。
每日经济新闻
四川成都：TasiChat大模型完成国家级备案
来源：科技日报刘侠科技日报记者滕继濮22日记者获悉，日前四川省互联网信息办公室公布了最新一批生成式人工智能服务备案信息公告。其中，成都它思科技有限公司（以下简称“它思科技”）自主研发的TasiChat大模型成功通过“生成式人工智能服务备案”，获得备案批号。
环球网
14评论
解读｜肖仰华：数理能力达到博士水平的o1模型将带来哪些影响？
·专家级推理能力并非题海战术，需要具备强大的思维能力。大模型推理能力训练的难点在于人类大量的思维过程从不表达，因此思考过程的数据极度稀缺，他推测OpenAI此次应该是利用了大量的合成数据。
澎湃新闻
13评论
对话腾讯汤道生：行业对大模型过去太乐观，现在又太悲观
21世纪经济报道记者白杨深圳报道今年6月，高盛发布报告《Gen AI: Too much to spend, too little benefit?（生成式AI：投入过多，收益过少？）》，引发了许多人对AI泡沫的担忧。
21世纪经济报道

加载更多

视频

问答

斯坦福大学Alpaca模型训练成本低，性能比肩GPT-3.5，这是否能为大模型的研究提供新思路？
Alpaca是由Meta的LLaMA 7B微调而来的全新模型，仅用了52k数据，性能约等于GPT-3.5。关键是训练成本奇低，不到600美元。具体花费如下：在8个80GB A100上训练了3个小时，不到100美元；生成数据使用OpenAI的API，500美元。
头条问答