TensorFlow in Action教你使用TensorFlow 2构建、训练和部署深度学习模型。第1部分重点介绍了基础知识,比如TensorFlow是如何工作的,以及如何实现简单、精简的机器学习模型,如卷积神经网络、循环神经网络和transformer:第一章介绍了TensorFlow, ML中使用的不同类型的硬件及其取舍,以及何时和何时不使用TensorFlow。
【1】图二. 引用自:Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models . arXiv: 1910.02054v3 , 2020-05-13.
该模型的核心技术是利用大规模文本数据进行预训练,然后可以很容易地进行微调来完成特定任务。其基本原理是将词向量转化为位置向量,采用Transformers作为核心结构来进行训练,进而可以生成语言模型,以此来完成下一句话的预测和文本生成等任务。