人民财讯3月7日电,新开普(300248)3月6日在机构电话交流会表示,公司自研的星普大模型,通过SFT+RL(监督微调+强化学习)的训练技术,在内部测评验证中,实现了与DeepSeek-R1相近的智能推理效果,而算力消耗仅约为其1/20,下一步将参加行业评测,以获取行业公认数据
近日,海信自研的星海大模型接入DeepSeek,在智慧生活和智慧城市领域为用户带来全新的智能交互体验。海信于2024年自研星海大模型,覆盖语言大模型、视觉生成大模型、多模态理解大模型三大系列,在语言理解、文本创作、自然对话、图像创作、万物识别、场景画质等能力上行业领先。
这不,就在过去短短一周时间里:DeepSeek 开源五连发,集中在 AI Infra,为我们带来了包括为 Hopper GPU 开发的高效 MLA 解码内核 FlashMLA、专为专家混合和专家并行定制的通信库 DeepEP 、专为 FP8通用矩阵乘法优化的高效计算库 DeepGEMM、以及还有 DeepSeek 创始人梁文锋亲自参与开发的双向流水线并行算法 DualPipe、专家并行负载均衡算法、DeepSeek Infra 中的性能分析数据。
本文深入剖析全球各大公司推出的大型语言模型,包括 OpenAI 的 GPT 系列、Google 的 PaLM、DeepSeek、Meta 的 LLaMA 以及百度文心一言,从模型特点、优势与劣势等维度进行详细对比。