昨天,斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现:当相关信息出现在输入上下文的开始或结束时,大模型的性能通常最高,而当大模型必须访问长上下文中间的相关信息时,性能显著下降。
界面新闻记者 | 李京亚界面新闻编辑 | 大模型一周年之际,业界对各类工作的重要程度开始达成共识,比如多位开发者就公认,扩展大模型上下文长度是非常重要的工作,甚至会成为大模型落地的瓶颈,向量数据库则是另一个。
2020 年,通过增加大模型参数量的方法,OpenAI 在具有 1750 亿参数量的 GPT-3 上发现,大模型可以根据提示词中提供的信息,来执行新任务或改进现有任务。随后他们趁热打铁,一起研究能否使用上下文学习,来替代成本高昂的指令微调方法。
比如我要生成下面的图片,我需要告诉ai我的要求,于是我输入了prompt:small blue kiddie size pool in background with dog laying inside it eating bubbles 35mm lens。
·大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。
今天举行的书生·浦语2.0(InternLM2)发布会暨书生·浦源大模型挑战赛启动仪式上,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布了新一代大语言模型书⽣·浦语2.0(InternLM2)。