预训练大模型,尤其是大语言模型已经是当前最火热的AI技术。但是,BERT出现之后,fine-tuning技术也随之流行,即将预训练模型的权重冻结,然后根据具体任务进行微调变得十分有效且被应用在很多场景。
Decoder-only Transformers :这是大多数生成式 LLM 使用的 Transformer 架构的特定变体。直到最近提出 LLaMA-2 之前,开源 LLM 主要使用 SFT 对齐,RLHF 最少。
2018年以前,能够训练出一个适配特定任务的神经网络模型,对于深度学习领域的算法工程师而言难度很大。而进入大语言模型时代后,通过几句简单的提示,普通人就可以完成同类任务。是什么让深度学习在这几年间发生了如此巨大的改变?为何当今主流大语言模型是GPT而不是其他神经网络结构呢?
“什么数据是最好的数据,我认为纸质的媒体、书、报纸是最好的。大家发现ChatGPT说的话是很漂亮很流畅的语言文字,而如果我们用论坛、微博等平台上的文字训练它,它说的内容可能就不是那么优美了。”复旦大学计算机学院教授、博士生导师黄萱菁。