1. 背景近几年,随着“大模型”概念的提出,深度学习模型越来越大,如何训练这些大模型成为一个亟待解决的工程问题。最初的视觉模型只有几百兆的参数量,而现在的语言模型中,动则百亿,千亿的参数量,甚至万亿的大模型也是见怪不怪。如此巨大的参数量将会消耗巨大的存储空间。
2021 年初 Google 的 Switch Transformer 模型采用了相同的混合专家系统架构,参数量已达到 1.6 万亿。Q3:和 deep speed Metro LM 相比,Colossal-AI 最大的技术优势是什么?
【1】图二. 引用自:Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models . arXiv: 1910.02054v3 , 2020-05-13.
在OpenAI大走闭源之路,几乎已经要变成“CloseAI”的同时,其身后老板微软却搞起了开源。4月13日,微软宣布开源DeepSpeed-Chat,号称可以通过这一项目将ChatGPT等大语言模型的训练速度提升15倍以上,并大幅降低成本。
例如,最新的吵的沸沸扬扬的ruozhi吧数据也还不错的COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning,提供了一个高质量的中文数据集。
llm-course在上次介绍(北方的郎:llm-course,狂飙13.5K Star,GitHub上最全的开源大模型教程)后又有了更新,增加了新的章节包括“LLM工程师”等部分,Star也狂飙到了25K。GitHub地址:https://github.