【环球网科技综合报道】8月13日,阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。
来源:环球网 【环球网科技综合报道】8月24日消息,国内GPU与AI计算解决方案提供商摩尔线程宣布,正式开源了其音频理解大模型——MooER(摩耳)。据介绍,该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
钱江晚报·小时新闻记者 张云山12月22日,阿里巴巴达摩院发布新一代语音识别模型Paraformer,该模型为业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。
池炜恒(池化) 投稿量子位 | 公众号 QbitAI开源数字人实时对话Demo来了~支持语音输入和实时对话,数字人形象可自定义的那种。生成的数字人效果belike:目前这个数字人实时对话Demo已在阿里巴巴ModelScope魔搭社区上线。