【环球网科技综合报道】8月13日,阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。
钱江晚报·小时新闻记者 张云山12月22日,阿里巴巴达摩院发布新一代语音识别模型Paraformer,该模型为业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。
来源:环球网 【环球网科技综合报道】8月24日消息,国内GPU与AI计算解决方案提供商摩尔线程宣布,正式开源了其音频理解大模型——MooER(摩耳)。据介绍,该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
2月18日,上海阶跃星辰智能科技有限公司发布消息称,公司与吉利汽车集团联合开源了两款阶跃 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型。目前,已经可以在跃问 App 内体验。
上期图文教程,我们分享了微软TTS真人转语音大模型,但是微软的TTS模型只有针对新用户免费一年,其他用户都是收费的,虽然微软开源了部分TTS的功能,但是针对真人类似的富有情感的TTS模型并没有进行开源,本期介绍的ChatTTS是一个开源的真人转语音模型。
10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。
去年,Stability AI开源了文生图网红模型Stable Diffusion,直接带火了整个AI作画社区。那么这次开源的StableLM语言模型会不会也带来一些积极的影响?https://mp.weixin.qq.