昨天,斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现:当相关信息出现在输入上下文的开始或结束时,大模型的性能通常最高,而当大模型必须访问长上下文中间的相关信息时,性能显著下降。
北京日报客户端 | 记者 孙奇茹10月30日,北京人工智能大模型企业百川智能发布Baichuan2-192K大模型,其上下文窗口长度达192K,是目前全球最长的上下文窗口,能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万
21世纪经济报道记者李域 深圳报道量化私募巨头幻方成为了AI大模型市场中的“鲶鱼”。7月4日,AI公司深度求索(DeepSeek)发文称,DeepSeek API已经上线128K上下文长度,价格保持不变,还在大家熟悉的,即“每百万tokens输入1元、输出2元”。
·大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。
2020 年,通过增加大模型参数量的方法,OpenAI 在具有 1750 亿参数量的 GPT-3 上发现,大模型可以根据提示词中提供的信息,来执行新任务或改进现有任务。随后他们趁热打铁,一起研究能否使用上下文学习,来替代成本高昂的指令微调方法。
9月5日,头部大模型初创公司面壁智能官宣实现旗下模型新一轮迭代。正式进化的MiniCPM 3.0基座模型,再次以小博大,以仅为4B的参数,在包括自然语言理解、知识、代码、数学等多项能力上已实现超越GPT-3.5的性能。南都记者了解到,此次MiniCPM 3.
·大模型开源基金包括三个“1000”,智谱AI将为大模型开源社区提供1000张卡助力开源开发,提供1000万元现金支持与大模型相关的开源项目,为优秀开源开发者提供1000亿免费API tokens。GLM-4文生图和多模态理解得到增强。
界面新闻记者 | 李京亚界面新闻编辑 | 大模型一周年之际,业界对各类工作的重要程度开始达成共识,比如多位开发者就公认,扩展大模型上下文长度是非常重要的工作,甚至会成为大模型落地的瓶颈,向量数据库则是另一个。
每经记者:杨昕怡 每经编辑:刘雪梅“通往AGI(通用人工智能)的话,长上下文会是一个很重要的点,从某种程度上看,所有问题都是上下文长度问题。”在今年2月末接受《每日经济新闻》记者采访时,AI创业公司月之暗面方面曾指出了突破长文本处理技术的重要意义。
在这波 AI 浪潮中,面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。自从面壁智能 2 月份发布性能小钢炮 1.0 后,接连几月陆续迭代升级,其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。