昨天,斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现:当相关信息出现在输入上下文的开始或结束时,大模型的性能通常最高,而当大模型必须访问长上下文中间的相关信息时,性能显著下降。
为什么我们使用chatgpt问一个问题,回答时,他是一个字或者一个词一个词的蹦出来,感觉是有个人在输入,显得很高级,其实这这一个词一个词蹦不是为了高级感,而是他的实现原理决定的,下面我们看下为什么是一个一个蹦出来的。
北京日报客户端 | 记者 孙奇茹11月16日,百川智能与鹏城实验室宣布携手探索大模型训练和应用,双方展示了合作研发的基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,该模型基于“鹏城云脑”国产算力平台训练,未来可升级至192K,是基于国产算力训练的最长上下文窗口。
2020 年,通过增加大模型参数量的方法,OpenAI 在具有 1750 亿参数量的 GPT-3 上发现,大模型可以根据提示词中提供的信息,来执行新任务或改进现有任务。随后他们趁热打铁,一起研究能否使用上下文学习,来替代成本高昂的指令微调方法。
今天举行的书生·浦语2.0(InternLM2)发布会暨书生·浦源大模型挑战赛启动仪式上,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布了新一代大语言模型书⽣·浦语2.0(InternLM2)。
◎本报记者 陈 曦目前成熟的生成式AI模型大多基于英文数据进行训练,在国内各行各业的应用环境中,中文大模型显然更“接地气”。通过中文或英文数据训练出来的大模型,差异比较大,中文的上下文理解和语义的多解性要大于英文。