深度学习中,我们一直在训练模型,通过反向传播求导更新模型的权重,最终得到一个泛化能力比较强的模型。不过执行模型操作的算子会变化,可能从Pytorch->TensorRT或者TensorFlow->TFLITE,也就是实现算子的方式变了,同一个卷积操作,在Pytorch框架中是一种实现,在TensorRT又是另一种时间,两者的基本原理是一样的,但是精度和速度不一样,TensorRT可以借助Pytorch训练好的卷积的权重,实现与Pytorch中一样的操作,不过可能更快些。
希望通过本系列教程,带领大家学会如何把自己的 PyTorch 模型部署到 ONNX Runtime/TensorRT 上,并学会如何把 OpenMMLab 开源体系中各个计算机视觉任务的模型用 MMDeploy 部署到各个推理引擎上。
本文内容参考《深度学习计算机视觉实战》,该书内容包括深度学习与计算机视觉基础介绍、常用的OpenCV进行模型训练前处理与后处理算法、计算机视觉案例实战、Windows/Linux/Android/国产化平台的模型部署,学习路线如下:
在 nvdia gpu,x86、arm 和 部分 AI 芯片平台上,均支持 8bit 的计算,效率提升从 1 倍到 16 倍不等,其中 tensor core 甚至支持 4bit计算,这也是非常有潜力的方向。
1. 背景介绍在字节跳动,基于深度学习的应用遍地开花,工程师关注模型效果的同时也需要关注线上服务一致性和性能,早期这通常需要算法专家和工程专家分工合作并紧密配合来完成,这种模式存在比较高的 diff 排查验证等成本。
去年7月,智东西公开课曾策划推出 NVIDIA Triton 推理引擎专场,NVIDIA 高级深度学习软件架构师何成杰和蚂蚁集团高级技术专家饶星,两位技术专家围绕主题《面向多框架的AI模型部署服务 Triton 及其在蚂蚁预测引擎中的应用实践》,对 Triton 推理引擎的多框架
TensorFlow in Action教你使用TensorFlow 2构建、训练和部署深度学习模型。第1部分重点介绍了基础知识,比如TensorFlow是如何工作的,以及如何实现简单、精简的机器学习模型,如卷积神经网络、循环神经网络和transformer:第一章介绍了TensorFlow, ML中使用的不同类型的硬件及其取舍,以及何时和何时不使用TensorFlow。