自2022年起,生成式 AI 的爆发助推语音技术快速升级。语音作为高频的交互形式,在多个领域的需求颇为强烈,尤其是在追求高自然度语音合成上,业界与学术界均投入诸多研发资源。火山引擎语音团队曾于2023年推出 zero-shot (零样本学习)的极速版声音克隆。
先来欣赏一段音视频,或许你会有惊喜发现呢?没错,这就是动漫海绵的配音模仿者的声音呈现。不同的是,这位即将奔四的美国喜剧动画主角,如今在模仿者的演绎下一改往日的单一语言以及固定风格,居然一股脑儿说出了译制腔、TVB腔、粤语甚至上海话。
7月25日,火山引擎2024“AI创新巡展”首站成都站透露了字节豆包大模型的最新进展:截至7月,豆包大模型日均Tokens使用量已突破5000亿,平均每家企业客户日均Tokens使用量较5月15日模型发布时期增长22倍。
「火山爆发,震撼天地。」这八个字会在你的头脑中触发怎样的影像?是否与下面的视频类似?提示词:火山喷发,升起巨大蘑菇云,岩浆顺着山体往下流,镜头拉近,岩浆正在火山口跳动冒出。这段 10 秒的视频是豆包视频生成模型基于以上提示词想象创造的。