Optimizing Network Performance for Distributed DNN Training on GPU Clusters: ImageNet/AlexNet Training in 1.5 Minute,见原文链接。
在 GPT 3B 模型上线时,我们使用 python-rpc 的 Task 模式部署。随着模型参数越来越大, 单个T4卡已经无法存放下,为了部署 13B 模型,我们遇到了以下问题:资源浪费, 使用 Transformers 接口加载模型, 需要先将模型完全加载到内存后再写入 GPU 中,因此,容器至少需要 73G 内存,然而 V100 单卡容器最多只有 46G 内存, 也就是说这个服务至少需要2 张 V100 才能完成部署。
潮新闻客户端 记者 金春华图源:视觉中国这两天大概是我们见证AI大发展的时刻。当地时间3月17日,北京时间18日凌晨,马斯克旗下xAI公司宣布正式开源其大模型Grok-1。该模型引人关注的有两点:一是参数达到3140亿,远超OpenAI GPT-3.