人类:LLM+ 记忆 + 工具 + 规划。图 1. 由 LLM 驱动的智能体系统。如图 1 所示,在基于 LLM 的智能体中,LLM 的充当着智能体的“大脑”的角色,同时还有 3 个关键部分:规划 : 智能体会把大型任务分解为子任务,并规划执行任务的流程;
Agent(智能体)的概念大家应该并不陌生了,今天分享通过可视化的方式构建各种各样强大的智能体。关于Agent的定义,我并不想引用官方正式的说法。而是按照我的理解通俗地解释一下。大模型好比是面粉,可以做出各种面食,虽然能解决温饱但不一定好吃。
来自斯坦福大学、微软研究、加利福尼亚大学洛杉矶分校的研究人员对此进行了研究,并发表了论文《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》。
开源 LLMs 作为核心组件:支持在 ModelScope 社区的多个开源 LLMs 上进行模型训练,并开源了配套的中英文工具指令数据集 MSAgent-Bench,用于增强开源大模型作为 Agent 中枢的规划调度能力。
来自斯坦福的研究者提出了 IMMA, 一种利用隐空间多层图 来表征多种独立的交互类型,并使用一种新型的多层图注意力机制 来描述个体间交互强度的行为及轨迹预测模型。下面 Figure 1 介绍了生活中人与人之间交互的一个实例。
Facebook在2006年推出的News Feed可以看作是信息流产品的开端,而国内的移动互联网经过10多年的发展,信息流也早已成为主流形态,更发展出了以今日头条为代表的资讯信息流单列模式,以淘宝、小红书为代表的电商/社区内容双列模式,以抖音为代表的短视频沉浸式模式。