3 月 20 日,Carbon3D 公司的 CLIP 技术(Continuous Liquid Interface Production,连续液面生产),登上了权威学术杂志 Science 的封面。但是,这张图给我的第一印象不过是光固化(SLA)的改进。
编译 | 蒋宝尚、陈彩娴2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色。2021年,OpenAI 联合创始人 Ilya Sutskever预测语言模型会转向视觉领域。
去年,几乎每周都有研究团队推出自己的LMM,比如 DeepMind 的 Flamingo、Salesforce 的 BLIP、微软的 KOSMOS-1、Google 的 PaLM-E,还有腾讯的 Macaw-LLM。
浩楠 晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI“扒开”了脑子。没想到,这个性能强大的AI竟和人类思维方式如此相像。打个比方,无论你听到“炸鸡”二个字,还是看到炸鸡实物,都可能流口水。
本文是Stable Diffusion 系列的最后一篇文章,今天详细讲解一下stable diffusion 中文本编码器的结构,也即在Stable Diffusion中挖呀挖呀挖(三) 文章结束讲到文本编码器,整体回顾一下Stable Diffusion 整体架构,文本编码器处
除了vision transformer,另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型,这两个工作也像ViT一样带动了一波新的研究高潮。