本文是由中国人民大学教授Wayne Xin Zhao等人前几天刚公开的关于大语言模型的综述,论文正文部分共32页,包含了416个参考文献。本文综述了LLMs最近在四个主要方面的研究进展,包括预训练、适应调整、应用和能力评估。
该模型的核心技术是利用大规模文本数据进行预训练,然后可以很容易地进行微调来完成特定任务。其基本原理是将词向量转化为位置向量,采用Transformers作为核心结构来进行训练,进而可以生成语言模型,以此来完成下一句话的预测和文本生成等任务。
所以 GPT-2 专门爬取了大量的网络文本数据,最后得到的数据集叫 WebText,它选取了 Reddit 上的高质量帖子,最终得到 4500w 网页链接,800w 有效的文本文档,语料大小为 40G。
CBLUE又是一个CLUE榜单,大家都知道近年来NLP领域随着预训练语言模型的兴起又迎来了一波迅猛发展,得益于PTLM技术的推动,催生出一批多任务的benchmark榜单,代表性的工作是GLUE,在中文领域也有CLUE。
从 2019 年的谷歌 T5 到 OpenAI GPT 系列,参数量爆炸的大模型不断涌现。可以说,LLMs 的研究在学界和业界都得到了很大的推进,尤其去年 11 月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。
Decoder-only Transformers :这是大多数生成式 LLM 使用的 Transformer 架构的特定变体。直到最近提出 LLaMA-2 之前,开源 LLM 主要使用 SFT 对齐,RLHF 最少。