每经记者:蔡鼎 每经编辑:兰素英从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭
北京日报客户端 | 记者 孙奇茹10月30日,北京人工智能大模型企业百川智能发布Baichuan2-192K大模型,其上下文窗口长度达192K,是目前全球最长的上下文窗口,能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万
北京日报客户端 | 记者 孙奇茹11月16日,百川智能与鹏城实验室宣布携手探索大模型训练和应用,双方展示了合作研发的基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,该模型基于“鹏城云脑”国产算力平台训练,未来可升级至192K,是基于国产算力训练的最长上下文窗口。
昨天,斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现:当相关信息出现在输入上下文的开始或结束时,大模型的性能通常最高,而当大模型必须访问长上下文中间的相关信息时,性能显著下降。
本报讯 (记者袁传玺)1月27日凌晨,阿里云通义重磅开源支持100万Tokens上下文的Qwen2.5-1M模型,推出7B及14B两个尺寸,均在处理长文本任务中稳定超越GPT-4o-mini;同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。
机器之心报道编辑:佳琪、蛋酱就在国内各家大模型厂商趁年底疯狂卷的时候,太平洋的另一端也没闲着。就在今天,谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版,并再次登顶 Chatbot Arena 排行榜。
近日,AI智能助手Kimi宣布支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo,支持128k上下文,大约相当于10万汉字。