AI大模型不断涌现,“百模大战”愈演愈烈。但不论是To B还是To C的大模型,都面临训练数据日渐匮乏的问题。业内有报告预测,语言数据将于2030~2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽;此外,视觉数据将于2030~2060年耗尽。
例如,最新的吵的沸沸扬扬的ruozhi吧数据也还不错的COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning,提供了一个高质量的中文数据集。
为什么我们使用chatgpt问一个问题,回答时,他是一个字或者一个词一个词的蹦出来,感觉是有个人在输入,显得很高级,其实这这一个词一个词蹦不是为了高级感,而是他的实现原理决定的,下面我们看下为什么是一个一个蹦出来的。
大模型那么聪明,为什么数学题总是做不对、做不会?从答高考数学卷难及格到普通数字比大小出错,大模型总算让大家觉得并非“无所不能”。这一方面让普通人开心,毕竟讲到AI取代人类看起来为时尚早,而另一方面,大模型的推理究竟“靠不靠谱”将影响着千行百业落地实际应用的速度。