来源:证券日报 本报记者 龚梦泽纵观自动驾驶技术的发展历程,人工智能的不断突破显著提升了自动驾驶的感知性能。2025年以来,一种全新的技术范式,即视觉语言动作模型(VLA,Vision-Language-Action)正在加速崛起。
未经微调的 GPT-3 模型在许多 NLP 任务上取得了可喜的结果,甚至偶尔超越了针对该特定任务进行微调的最先进模型:在 CoQA 基准测试中,零样本设置中的 F1 为 81.5,单样本设置中的 F1 为 84.0,少样本设置中的 F1 为 85.0,而微调 SOTA 获得的 F1 分数为 90.7。
Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, and Xiangyu Zhang. Vary: Scaling up the vision vocabulary for large vision-language models. arXiv preprint arXiv:2312.06109, 2023.
近日,理想汽车宣布基于端到端及VLM视觉语言模型和世界模型的全新一代理想智能驾驶正式开启万人体验团招募,新一代产品将进入有监督(L3级别及以下)自动驾驶的新阶段,理想汽车自动驾驶产品面向车主免费。特斯拉是最早在智能驾驶上应用端到端大模型的企业。
·PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。作为一种多模态具身VLM,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。
过去几个月时间里,由ChatGPT在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据《华尔街日报》,虽然谷歌早在两年前就做出了类似ChatGPT的人工智能聊天工具,但谷歌对AI的小心谨慎态度让其失去了对生成式AI的先机。