AI大模型不断涌现,“百模大战”愈演愈烈。但不论是To B还是To C的大模型,都面临训练数据日渐匮乏的问题。业内有报告预测,语言数据将于2030~2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽;此外,视觉数据将于2030~2060年耗尽。
苹果最新杀入开源大模型战场,而且比其他公司更开放。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。
“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”在2025年上海两会期间,上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示,未来,行业垂类大模型将成为中国大模型产业的主战场。