作者|王益OneFlow社区编译翻译|杨婷最近,我在处理 PyTorch 分布式和 TorchRec 相关的工作,为此,我开始学习 PyTorch 2.0。在业余时间,我也在跟着Alpa作者学习JAX和XLA。
最近Reddit上有个帖子从三个方面对比了两个框架,结果竟然是平手?在模型可用性方面,PyTorch 和 TensorFlow 分歧很大,PyTorch 和 TensorFlow 都有自己的官方模型存储库,但从业者可能希望利用多个来源的模型。
本篇报告中将涵盖以下主题:为何谷歌的 TensorFlow 输给了 PyTorch,谷歌为何没能利用其在人工智能领域的早期领导地位,机器学习模型训练时间的主要构成成分,内存容量、带宽、成本墙,模型优化,为何其他人工智能硬件公司至今无法撼动英伟达的统治地位,为何硬件地位逐渐重要,英伟达在 CUDA 上的竞争优势是如何消失的,以及英伟达的竞争对手在大型云的芯片训练上所取得的重大胜利。目前来说,虽然挑战不断,但谷歌仍是处于机器学习模型的最前沿。