最近大模型发展卷的很,小弟都被整抑郁了。想要研究学习大模型,应该从哪里开始呢?目前大模型发展生态最好的当属Meta的LLaMA模型。如果GPT系列是Windows操作系统(巧了,OpenAI的大东家目前就是微软),那么LLaMA就是Linux。
现在,15小时、几千块钱、85亿 token数据,即可训出中文LLaMA2。从整个训练的 Loss 记录来看,在利用 Colossal-AI 系统降本增效能力的同时,模型收敛性也得到充分保证,仅通过约 8.5 B tokens,数千元算力成本,让模型达到如上效果。
在 TRL 中实现 DPO 训练器的好处是,人们可以利用 TRL 及其依赖库 中已有的 LLM 相关功能。接着,我们继续进行 DPO 训练,我们把 SFT 生成的模型作为 DPO 的基础模型和参考模型,并在上文生成的 stack-exchange preference 数据上,以 DPO 为目标函数训练模型。
1 大模型特点。2 LLaMA聚焦。Attention结构 :sparse attention,low-rank attention,multi-query attention,grouped-query attention,...