视觉语言模型

资讯

视觉语言动作模型如何重塑自动驾驶竞争格局
来源：证券日报本报记者龚梦泽纵观自动驾驶技术的发展历程，人工智能的不断突破显著提升了自动驾驶的感知性能。2025年以来，一种全新的技术范式，即视觉语言动作模型（VLA，Vision-Language-Action）正在加速崛起。
环球网
61评论
视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂
应对挑战，淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型安全对齐方法，PSA-VLM。
量子位
1评论
5620亿参数！谷歌发布全球最大视觉语言模型PaLM-E：几乎拥有所有语言能力，能识别图像信息、操控机器人……
据《华尔街日报》，虽然谷歌早在两年前就做出了类似ChatGPT的人工智能聊天工具，但谷歌对AI的小心谨慎态度让其失去了对生成式AI的先机。
每日经济新闻
156评论
2023年的7个顶级大模型【含视觉语言模型】
未经微调的 GPT-3 模型在许多 NLP 任务上取得了可喜的结果，甚至偶尔超越了针对该特定任务进行微调的最先进模型:在 CoQA 基准测试中，零样本设置中的 F1 为 81.5，单样本设置中的 F1 为 84.0，少样本设置中的 F1 为 85.0，而微调 SOTA 获得的 F1 分数为 90.7。
新缸中之脑
8评论
视觉语言智能和边缘 AI 2.0
VILA 是 NVIDIA 研究部门与麻省理工学院共同开发的高性能视觉语言模型系列。如需使用多模态 Web UI，通过在 Jetson Orin 上运行的 ASR/TTS 与 VILA 对话，请参见 llamaspeak 智能体教程:见原文链接。
NVIDIA英伟达中国
GPT-4V开源平替！清华浙大领衔，LLaVA等开源视觉模型大爆发
极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。如今，GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。
新智元
14评论
LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V
【新智元导读】近日，LeCun和谢赛宁等大佬，共同提出了这一种全新的SOTA MLLM——Cambrian-1。
新智元
3评论
通义千问推出视觉理解模型Qwen2-VL-72B API已上线阿里云
来源：环球网【环球网科技综合报道】8月30日，阿里通义千问发布第二代视觉语言模型Qwen2-VL，旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼平台。 2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，成为开源社区最受欢迎的多模态模型之一。
环球网
1评论
通义千问多模态大模型又进化了，能够根据图片识人、答题、创作、写代码
潮新闻客户端记者张云山1月26日，阿里云公布多模态大模型研究进展。
钱江晚报
9评论
5620亿参数！谷歌发布史上最大“通才”AI模型，可让机器人更自主
·PaLM-E是迄今为止已知的最大VLM（视觉语言模型）。作为一种多模态具身VLM，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力（模型有不可预测的表现）。
澎湃新闻
7评论

视频

问答

谷歌发布全球最大视觉语言模型PaLM-E，5620亿参数，几乎拥有所有语言能力，哪些信息值得关注？
过去几个月时间里，由ChatGPT在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据《华尔街日报》，虽然谷歌早在两年前就做出了类似ChatGPT的人工智能聊天工具，但谷歌对AI的小心谨慎态度让其失去了对生成式AI的先机。
头条问答