有了高效的分布式训练框架,自然也需要优化的分布式训练集群。NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一个分布式集群的参考架构,最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs组建,旨在帮助AI 研究人员快速搭建一套强大、灵活、高效的系统,以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。
自从彻底搞懂Self_Attention机制之后,笔者对Transformer模型的理解直接从地下一层上升到大气层,任督二脉呼之欲出。于是在肾上腺素的驱使下,笔者熬了一个晚上,终于实现了Transformer模型。
全新 Jetson Orin Nano Super 开发者套件做出了以下改进:生成式 AI 性能提升至 1.7 倍。适用于 Jetson Orin Nano 和 Orin NX 模组的性能升级支持和文档将于 1 月上半月随 JetPack 6.1.1 一起发布。
【1】图二. 引用自:Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models . arXiv: 1910.02054v3 , 2020-05-13.