机器之心报道机器之心编辑部最近 DeepSeek 太火,问题来了,你是不是经常遇到这个情况?不卡顿、联网的、满血版 DeepSeek R1 越来越香,也越来越难享用到?问小白来了,火速上线、火线支援。打开 App 就能直接用的 DeepSeek-R1 671B 满血版!
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。
倒反天罡了,新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版,7B反超671B。对于TTS,考虑了Best-of-N、Beam Search和Diverse Verifier Tree Search三种方法。
2月12日,济南市中未来产业发展有限公司(简称“市中产发”)联合华为基于济南市的市中区存算一体化智算中心(国家大学科技园节点)国产昇腾算力部署DeepSeek-V3和DeepSeek-R1大模型,并在“市中云“实现业务上线,助力“昇腾+DeepSeek”在智慧政务服务、智慧医疗等