开源语音模块

资讯

阿里通义开源音频语言模型Qwen2-Audio 可直接进行语音问答
【环球网科技综合报道】8月13日，阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
环球Tech
摩尔线程：正式开源音频理解大模型MooER
来源：环球网【环球网科技综合报道】8月24日消息，国内GPU与AI计算解决方案提供商摩尔线程宣布，正式开源了其音频理解大模型——MooER（摩耳）。据介绍，该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
环球网
1评论
阿里达摩院开源新一代重磅语音模型，推理效率较传统模型提升10倍
钱江晚报·小时新闻记者张云山12月22日，阿里巴巴达摩院发布新一代语音识别模型Paraformer，该模型为业界首个应用落地的非自回归端到端语音识别模型，在推理效率上最高可较传统模型提升10倍，且识别准确率在多个权威数据集上名列第一。
钱江晚报
能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言
没错，OpenAI新开源了一个名为「Whisper」的新语音识别系统，据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性!
量子位
11评论
开源数字人实时对话：形象可自定义，支持语音输入
池炜恒（池化）投稿量子位 | 公众号 QbitAI开源数字人实时对话Demo来了～支持语音输入和实时对话，数字人形象可自定义的那种。生成的数字人效果belike：目前这个数字人实时对话Demo已在阿里巴巴ModelScope魔搭社区上线。
量子位
8评论
正式开源！网易有道上线“易魔声”语音合成引擎
11月10日，网易有道正式上线“易魔声”开源语音合成（TTS）引擎，所有用户可免费在开源社区GitHub进行下载使用，通过其提供的web界面及批量生成结果的脚本接口，轻松实现音色的情感合成与应用。
环球Tech
3评论

视频

在线举报