1 发布多个大模型:基于自研训练框架、自建智算集群和万卡算力等资源,仅用半年时间便已发布并开源多个百亿级参数大模型,如 DeepSeek-LLM 通用大语言模型、DeepSeek-Coder 代码大模型,并在 2024 年 1 月率先开源国内首个 MoE 大模型,各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。
据传,自deepseek在国外大火之后,美国已经开始进行了反制措施,前后派了不少黑客高手来黑deepseek的系统,甚至还以威胁国家安全的风险将其上会研究,要是没有国家出手援助,等待deepseek的结果肯定好不。
印度,一个能把Excel表格写出《摩诃婆罗多》史诗感的国度,软件外包界的扫地僧,硅谷CEO批发市场,此刻正对着中文大模型的城墙挠头——你说他们连火车顶都能开发成「人体外挂车厢」,怎么就被几行方块字难住了?