昨天,斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现:当相关信息出现在输入上下文的开始或结束时,大模型的性能通常最高,而当大模型必须访问长上下文中间的相关信息时,性能显著下降。
北京日报客户端 | 记者 孙奇茹10月30日,北京人工智能大模型企业百川智能发布Baichuan2-192K大模型,其上下文窗口长度达192K,是目前全球最长的上下文窗口,能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万
·大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。
北京日报客户端 | 记者 孙奇茹11月16日,百川智能与鹏城实验室宣布携手探索大模型训练和应用,双方展示了合作研发的基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,该模型基于“鹏城云脑”国产算力平台训练,未来可升级至192K,是基于国产算力训练的最长上下文窗口。
“想象一下,你正踏上一片遥远的沙漠星球,那里的沙丘像金色的海浪一样延绵不绝,而一场关于权力、背叛和复仇的史诗故事正缓缓展开。”这并非来自影评人的遐想,而是当下国内一家热门AI初创公司智能机器人的“阅读总结”。
·Yi-34B在关键指标上胜过市场上已有的领先开源模型,包括备受推崇的Meta的Llama 2,其分别在Hugging Face英文开源社区平台和C-Eval中文评测的最新榜单爬升到第一位,成为全球开源大模型“双料冠军”。