每经记者:岳楚鹏 每经编辑:兰素英2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。此前,拥有671B参数的MoE架构大模型DeepSeek-R1在推理时困难重重。
如图所示,KTransformers 团队于 2 月 10 日成功在 24G 显存 + 382 GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版,速度提高 3~28 倍。
来源:【通信信息报社】(记者 林婉玲)第七届数字中国建设峰会·2024智算云生态大会日前已揭开帷幕,同期还陆续举办了智算云论坛与行业大模型论坛。从其中,我们可以敏锐的捕捉到两个关键词“大模型”“智算云”。
界面新闻记者 | 佘晓晨界面新闻编辑 | 宋佳楠3月31日,清华系创业公司无问芯穹在上海发布了大模型开发与服务平台“无穹Infini-AI”,公司发起人汪玉携联创团队首次集体公开亮相。这是一家主要做大模型软硬件一体化计算加速解决方案的公司,成立不到一年,背后已有豪华阵容加持。
记者11日从清华大学获悉,针对大规模光电智能计算难题,清华大学电子工程系副教授方璐课题组、自动化系戴琼海院士课题组,摒弃传统电子深度计算范式,另辟蹊径,首创分布式广度光计算架构,研制大规模干涉-衍射异构集成芯片太极(Taichi),实现160 TOPS/W的通用智能计算。
从2023年2月20日“国内第一个对话式大型语言模型”MOSS发布,到4月21日该模型正式开源,两个月间,多家中国企业和研究机构以加速度扎堆冲入被ChatGPT轰炸出来的AI大模型赛道。在梳理这些大模型所试图呈现的特点之后,我们该如何看待这种趋势?·如何判断各家大模型的水平?
之前跟一位研究人工智能的朋友聊天,说自ChatGPT爆火后,互联网、游戏、金融、医药,甚至是殡葬行业,各领域的企业都开始研究什么是GPT-4,纷纷有了入局AI领域的想法。目前入局AI大模型似乎有两种模式。