来源:环球网 【环球网科技综合报道】8月24日消息,国内GPU与AI计算解决方案提供商摩尔线程宣布,正式开源了其音频理解大模型——MooER(摩耳)。据介绍,该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
8月23日,摩尔线程宣布开源音频理解大模型—MooER(摩耳)。据摩尔线程方面介绍,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。
阿里通义开源音频语言模型Qwen2-Audio8月13日消息,阿里通义大模型音频语言模型Qwen2-Audio宣布开源,Qwen2-Audio可直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。
10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的技术范式,在声音克隆、跨语种合成、语音控制等任务中性能表现突出。
8月13日,记者了解到,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio。据悉,Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。