前期我们介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型等,随着大模型的不断进步,其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。Seed-TTS 推理包含四个功能模块:(1) 语音标记器从参考语音中学习标记信息。
简单的说就是你录一段你的说话发音,要正常的。不能说了半分钟都是相同的内容,可以朗读一小段文章之类,效果估计会比较好。如果只是啊哦额之类的半分钟,估计模拟不出来什么东西。然后就可以用一篇文章试试,是不是类似你自己朗读的发音了。
9月26日,合肥市公安局高新分局发布警情通报称,对于网上传播涉卢某某的音视频,9月22日抓获犯罪嫌疑人王某某,并在其电脑、手机和制作AI音频的网站中发现伪造相关音视频的证据;结合其供述、调查取证,并经部、省专业机构检验鉴定,认定报案所涉网传音视频系伪造。
来自香港科技大学的研究团队发表了《Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey》,深入探讨可控语音合成技术的最新进展,从基础的控制方法到利用自然语言提示的高级技术,全面梳理当前研究的现状。