大模型训练完后数据存在哪里

资讯

两会对话丨黄海清委员：高质量语料数据决定大模型训练效果上限，建议加快明确合理使用规则
“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”在2025年上海两会期间，上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示，未来，行业垂类大模型将成为中国大模型产业的主战场。
澎湃新闻
背诵不等于理解，深度解析大模型背后的知识储存与提取
两种数据集的结果一致，下面以 BioS 为例，展示一个样例条目:Anya Briar Forger was born on October 2， 1996. She spent her early years in Princeton， NJ. She received mentorship and guidance from faculty members at MIT. She completed her education with a focus on Communications. She had a professional role at Meta Platforms. She was employed in Menlo Park， CA.
机器之心Pro
6评论
美国媒体揭开大模型阴暗面：训练用的数据可能有点脏
但归根结底，目前并没有AI已经产生像人类一样的自我意识，它们能够模仿人类讲话，主要原因是算法“吸收”了大量的文本——大部分是从互联网上抓取的。
科创板日报
21评论
B端训练数据哪里来？︱AI大模型十问（一）
AI大模型不断涌现，“百模大战”愈演愈烈。但不论是To B还是To C的大模型，都面临训练数据日渐匮乏的问题。业内有报告预测，语言数据将于2030~2040年耗尽，其中能训练出更好性能的高质量语言数据将于2026年耗尽；此外，视觉数据将于2030~2060年耗尽。
第一财经
未来所有公共数据或被置于大模型中
欧洲科学院院士、琶洲实验室副主任、华南理工大学计算机科学与工程学院院长陈俊龙发表演讲。 “数据共享必须考虑隐私和安全的问题，当前除同态加密、差分隐私、联邦学习、安全多方计算四种隐私保护机器学习方法外，宽度学习在国内外的应用也非常广泛。
南方都市报

视频

在线举报