开源模型语音

资讯

阿里通义开源音频语言模型Qwen2-Audio 可直接进行语音问答
【环球网科技综合报道】8月13日，阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
环球Tech
Meta语音达LLaMA级里程碑！开源MMS模型可识别1100+语言
在语音方面，Meta又达到了另一个LLaMA级的里程碑。在Massively Multilingual Speech项目中，研究者通过结合wav2vec 2.0和一个新的数据集来克服了一些挑战。
新智元
11评论
Meta推出又一开源AI模型！支持1100种语言的“文本转语音”服务
Meta公司周一推出了一个开源AI语言模型——大规模多语言语音模型。该模型可以识别超过4000种口语，是以往任何已知技术的40倍;
科创板日报
1评论
全球最大开源翻译模型！Meta出品，支持100种语音、语言！
8月23日，全球社交、科技巨头Meta（Facebook、Instagram等母公司）在官网宣布，开源多语音、语言，翻译、转录大模型SeamlessM4T。（开源地址：https://github.
AIGC开放社区
文化湾企说丨广州趣丸科技：联合港中大（深圳）开源首个语音大模型，效果全球领先跻身第一梯队
南方财经全媒体见习记者张梦琦实习生李而璐广州报道在当今科技与社交领域蓬勃发展的浪潮中，趣丸科技犹如一颗璀璨的明星，备受行业内外关注。
21世纪经济报道
阿里达摩院开源新一代重磅语音模型，推理效率较传统模型提升10倍
钱江晚报·小时新闻记者张云山12月22日，阿里巴巴达摩院发布新一代语音识别模型Paraformer，该模型为业界首个应用落地的非自回归端到端语音识别模型，在推理效率上最高可较传统模型提升10倍，且识别准确率在多个权威数据集上名列第一。
钱江晚报
摩尔线程：正式开源音频理解大模型MooER
来源：环球网【环球网科技综合报道】8月24日消息，国内GPU与AI计算解决方案提供商摩尔线程宣布，正式开源了其音频理解大模型——MooER（摩耳）。据介绍，该模型是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。
环球网
1评论
阶跃星辰联合吉利首次开源视频生成模型和语音模型
2月18日，上海阶跃星辰智能科技有限公司发布消息称，公司与吉利汽车集团联合开源了两款阶跃 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型。目前，已经可以在跃问 App 内体验。
北青网
ChatTTS真人文本转语音模型，富有韵律与情感，且免费开源
上期图文教程，我们分享了微软TTS真人转语音大模型，但是微软的TTS模型只有针对新用户免费一年，其他用户都是收费的，虽然微软开源了部分TTS的功能，但是针对真人类似的富有情感的TTS模型并没有进行开源，本期介绍的ChatTTS是一个开源的真人转语音模型。
人工智能研究所
16评论
内容出海“利器”：趣丸科技与港中大（深圳）发布首款开源模型
10月24日，趣丸科技宣布与香港中文大学（深圳）联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。
南方+客户端

视频

问答

如何看待Stability AI最新开源的语言模型「StableLM」？
去年，Stability AI开源了文生图网红模型Stable Diffusion，直接带火了整个AI作画社区。那么这次开源的StableLM语言模型会不会也带来一些积极的影响？https://mp.weixin.qq.
头条问答