开源音频生成大模型

资讯

摩尔线程：正式开源音频理解大模型MooER
来源：环球网【环球网科技综合报道】8月24日消息，国内GPU与AI计算解决方案提供商摩尔线程宣布，正式开源了其音频理解大模型——MooER（摩耳）。据介绍，该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
环球网
1评论
摩尔线程正式开源音频理解大模型MooER
8月23日，摩尔线程宣布开源音频理解大模型—MooER（摩耳）。据摩尔线程方面介绍，MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型，不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。
界面快讯
早资道 | 阿里通义开源音频语言模型Qwen2-Audio；星巴克中国回应换帅
阿里通义开源音频语言模型Qwen2-Audio8月13日消息，阿里通义大模型音频语言模型Qwen2-Audio宣布开源，Qwen2-Audio可直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
封面新闻
1评论
趣丸科技开源语音大模型MaskGCT
10月24日，趣丸科技宣布与香港中文大学（深圳）联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的技术范式，在声音克隆、跨语种合成、语音控制等任务中性能表现突出。
界面快讯
阿里通义开源音频语言模型Qwen2-Audio
8月13日，记者了解到，阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。据悉，Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。
第一财经
2评论
英伟达对外展示了一款模型，可以生成音乐和音频
当地时间11月25日，芯片巨头英伟达展示了一款用于生成音乐和音频的人工智能模型Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布Fugatto技术。
澎湃新闻
几句话就能写歌，还能模拟各种音效，Meta发布开源AI工具AudioCraft
Meta称，这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大模型，不仅可以生成各种模拟音频效果，还能减少音损。
智东西

视频

在线举报