模型采用 stable diffusion 这一当下的主流框架作为整个模型基础框架,整个框架主要由两个阶段组成:在称为 Frames Encoding 这一初始阶段,ReferenceNet 用于从 reference image 和 motion frames 中提取特征。
来源:环球网 【环球网科技综合报道】把一段音频、一张照片输入AI模型,就能让图中人物开口唱歌说话,让奥黛丽赫本唱《上春山》、陶俑仕女说英文RAP、爱因斯坦说中文段子。不久前,这款名为EMO的模型因为阿里通义实验室的一篇论文火遍海内外,模型的产品化进程也广受关注。
对于许多爱听音乐的用户而言,手机里常备的音乐应用想必会有网易云音乐、QQ音乐、或者是虾米音乐等。相对于大众化的音乐应用,小编更喜欢使用一些小众且有新意的音乐应用。毕竟有时候想听歌了,只是想听听那时那刻心情状态下的音乐,而不是听一下重复来重复去的歌曲。