吴文锋deepseek

资讯

DeepSeek 创始人梁文锋访谈：为什么我们要开源？
很多人不敢相信，一家名不见经传的中国小公司，据说只有200个员工，只用550万美元的训练成本，就做出了可以与业界顶级模型媲美的产品，要知道那些顶级模型的训练成本在1亿美元左右，这怎么可能?
阮一峰的网络日志
407评论
出现比雷军、马云、马化腾更厉害的人，Deepseek的创始人梁文锋！
2024 年 5 月，Deepseek 发布了 v2 开源模型，因为在模型结构上有突破性创新，把模型成本大幅降低，被大家叫做 “AI 届拼多多”。
战神说事
DeepSeek 横空出世送给世界大礼，我这外行不用不知道，一用吓一跳
这包括整个硅谷，包括al巨头英伟达，包括《纽约时报》、《经济学人》、英国《金融时报》一众媒体和X平台和meta。
鱼玄2025
6评论
DeepSeek 上演“一夜成名”奇迹，探秘其“破圈”神操作
首先，强大的技术基因是DeepSeek破圈的基石。以DeepSeek-V3为例，它凭借创新的多头潜在注意力和DeepSeek MoE架构，以仅1.2m H800 GPU小时的训练成本、558万美元的花费，在多项评测中超越GPT-4等国际顶尖模型。
雨樱
《Deepseek是什么？》
多头潜在注意力机制:通过压缩 attention 机制中的 key 和 value，减少推理过程中所需的 KV 缓存，从而提升推理速度。
三丫爱分享
41评论
美股震撼、科技巨头恐慌，95后成群的DeepSeek如何就一夜“破圈”？
示意图似乎就在一夜之间，来自中国的AI公司DeepSeek（深度求索）在大洋彼岸全面“破圈”，从高高在上的美股巨头，到使用AI工具的普通用户都被DeepSeek最新发布的R1模型深深震撼。
爱济南新闻客户端
10评论

视频

加载更多