视觉语言模型的重要性

资讯

视觉语言动作模型如何重塑自动驾驶竞争格局
来源：证券日报本报记者龚梦泽纵观自动驾驶技术的发展历程，人工智能的不断突破显著提升了自动驾驶的感知性能。2025年以来，一种全新的技术范式，即视觉语言动作模型（VLA，Vision-Language-Action）正在加速崛起。
环球网
74评论
马修军谈视觉语言通用模型与具身智能
马修军作主旨演讲。范宇斌摄中新网上海7月8日电(记者范宇斌)2023世界人工智能大会“科技与人文——共筑无障碍智能社会”论坛8日在上海世博中心召开。
中国新闻网
视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂
应对挑战，淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型安全对齐方法，PSA-VLM。
量子位
2023年的7个顶级大模型【含视觉语言模型】
未经微调的 GPT-3 模型在许多 NLP 任务上取得了可喜的结果，甚至偶尔超越了针对该特定任务进行微调的最先进模型:在 CoQA 基准测试中，零样本设置中的 F1 为 81.5，单样本设置中的 F1 为 84.0，少样本设置中的 F1 为 85.0，而微调 SOTA 获得的 F1 分数为 90.7。
新缸中之脑
8评论
带你认识微信多模态大模型 POINTS
Haoran Wei， Lingyu Kong， Jinyue Chen， Liang Zhao， Zheng Ge， Jinrong Yang， Jianjian Sun， Chunrui Han， and Xiangyu Zhang. Vary: Scaling up the vision vocabulary for large vision-language models. arXiv preprint arXiv:2312.06109， 2023.
媛媛不是程序员
当视觉大模型陷入认知失调马里兰大学构建了一个幻觉自动生成框架
本文从以下三个方面评估了通过 AutoHallusion 生成的基准数据集:多样性:衡量数据集中不同场景和对象的数量，包括 200 个/160 个样本。
数据派THU
1评论
LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V
【新智元导读】近日，LeCun和谢赛宁等大佬，共同提出了这一种全新的SOTA MLLM——Cambrian-1。
新智元
3评论
通义千问多模态大模型又进化了，能够根据图片识人、答题、创作、写代码
潮新闻客户端记者张云山1月26日，阿里云公布多模态大模型研究进展。
钱江晚报
9评论
端到端大模型引领自动驾驶革命，理想、特斯拉等车企竞相布局
近日，理想汽车宣布基于端到端及VLM视觉语言模型和世界模型的全新一代理想智能驾驶正式开启万人体验团招募，新一代产品将进入有监督（L3级别及以下）自动驾驶的新阶段，理想汽车自动驾驶产品面向车主免费。特斯拉是最早在智能驾驶上应用端到端大模型的企业。
第一财经
1评论
CVPR23｜媲美有监督模型的开放语义分割
特别是，在COCO数据集上训练并在ADE20K-150上进行评估时，该模型实现了29.6%的mIoU，比先前的最新技术水平高出8.5%。
极市平台
5620亿参数！谷歌发布史上最大“通才”AI模型，可让机器人更自主
·PaLM-E是迄今为止已知的最大VLM（视觉语言模型）。作为一种多模态具身VLM，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力（模型有不可预测的表现）。
澎湃新闻
7评论

加载更多

视频

问答

谷歌发布全球最大视觉语言模型PaLM-E，5620亿参数，几乎拥有所有语言能力，哪些信息值得关注？
过去几个月时间里，由ChatGPT在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据《华尔街日报》，虽然谷歌早在两年前就做出了类似ChatGPT的人工智能聊天工具，但谷歌对AI的小心谨慎态度让其失去了对生成式AI的先机。
头条问答