在 GPT 3B 模型上线时,我们使用 python-rpc 的 Task 模式部署。随着模型参数越来越大, 单个T4卡已经无法存放下,为了部署 13B 模型,我们遇到了以下问题:资源浪费, 使用 Transformers 接口加载模型, 需要先将模型完全加载到内存后再写入 GPU 中,因此,容器至少需要 73G 内存,然而 V100 单卡容器最多只有 46G 内存, 也就是说这个服务至少需要2 张 V100 才能完成部署。
PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!开发团队成员@Horace He表示:我们不把它看作是库或者框架,更希望大家能把它当成个例子,根据自己的需求“复制粘贴”。
AI兴起之后,GitHub上涌现出很多免费的神级AI项目,让人眼花缭乱。项目介绍:Ollama现在特别的火,它可以帮助用户在本地电脑上运行、创建和管理大模型,整体使用的感觉和Docker很像,特别简单,并且现在很多项目都支持Ollama的接入方式。