深度学习中,我们一直在训练模型,通过反向传播求导更新模型的权重,最终得到一个泛化能力比较强的模型。不过执行模型操作的算子会变化,可能从Pytorch->TensorRT或者TensorFlow->TFLITE,也就是实现算子的方式变了,同一个卷积操作,在Pytorch框架中是一种实现,在TensorRT又是另一种时间,两者的基本原理是一样的,但是精度和速度不一样,TensorRT可以借助Pytorch训练好的卷积的权重,实现与Pytorch中一样的操作,不过可能更快些。
Makridakis et al., The M5 Accuracy competition: Results, findings and conclusions,D. Salinas et al., DeepAR: Probabilistic forecasting with autoregressive recurrent networks, International Journal of Forecasting .
在 nvdia gpu,x86、arm 和 部分 AI 芯片平台上,均支持 8bit 的计算,效率提升从 1 倍到 16 倍不等,其中 tensor core 甚至支持 4bit计算,这也是非常有潜力的方向。
每经记者:蔡鼎 每经编辑:兰素英一直以来,从氨基酸序列出发预测蛋白质的三维结构是结构生物信息学中最具挑战的问题。但几年前,由Google DeepMind创建的基于深度学习的人工智能测序式AlphaFold解决了这个问题,一时间成为头条新闻。
NVIDIA NeMo Megatron 是一个大型可定制语言模型,包含在 NVIDIA NeMo 中。除此之外,NVIDIA 还能够提供:NVIDIA Riva:一款用于构建和部署语音 AI 应用的 GPU 加速软件开发工具包,包含了十种语言的预训练模型。
但实际上,经过这么多年的发展,像英特尔® 至强® 可扩展处理器这种 AI build-in 的 CPU 在支持模型训练上已经有了极大的提升,基本上每一代 CPU 都比上一代提升个 1.5 倍左右,运用或不运用 CPU 模型训练加速库的差别,能达到 8 倍。