大模型gpu使用率高

资讯

史上最强AI？马斯克20万块GPU烧出的是史上能耗最高大模型
20万块GPU“烧出”的Grok 3到底是不是地表最强AI？对此不乏争议。但毋庸置疑的是，Grok 3绝对是有史以来能耗最高的大模型。训练消耗的能源相当于一座小城市一年的用电量，或者4万多辆燃油车一年的碳排放量。
新黄河
阿里云李鹏：进一步压榨云上GPU资源，将大模型训推效率最大化
2024中国生成式AI大会于4月18-19日在北京举行，在大会第二天的主会场AI Infra专场上，阿里云高级技术专家、阿里云异构计算AI推理团队负责人李鹏以《AI基础设施的演进与挑战》为题发表演讲。
智东西
大模型工业化的方法论，都藏在GPU里
比如，从整体执行效率来看，经过 Megatron 优化的几乎所有模型都有 30% 的吞吐量提升，并且随着模型大小的增加，可以实现更高的 GPU 利用率。在 1750 亿参数的 GPT-3 模型上，GPU 利用率可以达到 52.8%。
DataFunTalk
AI大模型被曝不及预期 “平替”英伟达的国产GPU路在何方？｜封面财经
11月13日，中国证监会官网显示，国内全功能GPU独角兽企业摩尔线程智能科技股份有限公司在北京证监局办理辅导备案登记，正式启动A股上市进程。
封面新闻
82评论
院士专家热议大模型时代算力发展新方向_人民邮电报
来源：人民邮电报本报讯 ChatGPT的横空出世加速推动人工智能时代的到来，尤其是大模型的高歌猛进，对GPU智算、网络、存储等算力产业的每一环都提出了新需求与新挑战。
环球网
如何在普通显卡上训练一个“万亿大模型”？
1. 背景近几年，随着“大模型”概念的提出，深度学习模型越来越大，如何训练这些大模型成为一个亟待解决的工程问题。最初的视觉模型只有几百兆的参数量，而现在的语言模型中，动则百亿，千亿的参数量，甚至万亿的大模型也是见怪不怪。如此巨大的参数量将会消耗巨大的存储空间。
DL工程实践
12评论
李彦宏戳破大模型“跑分”假象：榜单不代表所有实力，未来模型的差距会变大
每当有新版本的大模型发布时，业界总是热衷于引用第三方榜单数据，拿自家大模型和GPT-4一起"跑个分"，声称已经在某些指标上实现了超越，以此来证明自己的大模型技术实力。但在近日百度董事长李彦宏和内部员工的一场交流中，他捅破了大模型行业跑分的"窗户纸"。
第一财经
没有差距、没有壁垒？李彦宏内部讲话解析大模型三大认知误区
“外界对大模型有相当多的误解”，近日，李彦宏的一则内部讲话流出。南都记者了解到，在最近一次和员工交流中，李彦宏谈及三个大模型认知误区，涵盖了大模型竞争、开源模型效率、智能体趋势等热点话题。李彦宏认为，“未来大模型之间的差距可能会越来越大。
南方都市报
1评论
Deepseek项目本地部署需谨慎，提前避坑——大模型小知识
最近跟风研究大模型及相关开源软件，一边学一边记笔记，以防日后想不起来了。32B就是320亿参数，现在有1.5B，7B，8B，14B，32B，70B，671B的模型，除671B以外都是蒸馏出来的。
tobelic
39评论
李彦宏内部讲话曝光：开源模型效率不高，解决不了算力问题
每经记者：可杨每经编辑：张海妮“外界对大模型有相当多的误解。”近日，李彦宏的一则内部讲话曝光。李彦宏认为未来大模型之间的差距可能会越来越大。
每日经济新闻
5评论

视频

在线举报