北京日报客户端 | 记者 孙奇茹10月30日,北京人工智能大模型企业百川智能发布Baichuan2-192K大模型,其上下文窗口长度达192K,是目前全球最长的上下文窗口,能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万
·大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。
21世纪经济报道记者李域 深圳报道量化私募巨头幻方成为了AI大模型市场中的“鲶鱼”。7月4日,AI公司深度求索(DeepSeek)发文称,DeepSeek API已经上线128K上下文长度,价格保持不变,还在大家熟悉的,即“每百万tokens输入1元、输出2元”。
4 月 17 日,两家大模型企业相继宣布重大更新。午间,MiniMax在其公众号宣布正式推出abab 6.5 系列模型,其中abab 6.5 包含万亿参数,支持 200k tokens的上下文长度,abab 6.5s 与 abab 6.
2020 年,通过增加大模型参数量的方法,OpenAI 在具有 1750 亿参数量的 GPT-3 上发现,大模型可以根据提示词中提供的信息,来执行新任务或改进现有任务。随后他们趁热打铁,一起研究能否使用上下文学习,来替代成本高昂的指令微调方法。
9月5日,头部大模型初创公司面壁智能官宣实现旗下模型新一轮迭代。正式进化的MiniCPM 3.0基座模型,再次以小博大,以仅为4B的参数,在包括自然语言理解、知识、代码、数学等多项能力上已实现超越GPT-3.5的性能。南都记者了解到,此次MiniCPM 3.
本报记者 陈子帅 杨沙沙 马梦阳编者的话:一款擅长处理长文本的国产大模型日前引发广泛关注。据香港《南华早报》报道,中国人工智能公司“月之暗面”(Moonshot AI)宣布旗下大模型Kimi已经能够处理200万汉字的无损上下文,比去年10月时20万汉字的水平有了明显突破。
同行几乎每月都在发布大模型开源消息,腾讯的类似新闻发生在6个月前。11月5日,腾讯将MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源,这两个模型已在腾讯业务场景落地,支持企业及开发者精调、部署等不同场景的使用需求。
界面新闻记者 | 李京亚界面新闻编辑 | 大模型一周年之际,业界对各类工作的重要程度开始达成共识,比如多位开发者就公认,扩展大模型上下文长度是非常重要的工作,甚至会成为大模型落地的瓶颈,向量数据库则是另一个。
在这波 AI 浪潮中,面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。自从面壁智能 2 月份发布性能小钢炮 1.0 后,接连几月陆续迭代升级,其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。
记者 黄寿赓近日,月之暗面(Moonshot AI)旗下国产大模型Kimi智能助手凭借200万字级的长上下文处理能力骤然走红,一举站到国产大模型行业前列。Kimi走红引发A股新一轮AI行情,华策影视、掌阅科技等股连续获得涨停。