阿里开源语音

资讯

阿里通义开源音频语言模型Qwen2-Audio
8月13日，记者了解到，阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。据悉，Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。
第一财经
2评论
阿里通义开源音频语言模型Qwen2-Audio
阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
界面快讯
阿里通义开源音频语言模型Qwen2-Audio 可直接进行语音问答
【环球网科技综合报道】8月13日，阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
环球Tech
早资道 | 阿里通义开源音频语言模型Qwen2-Audio；星巴克中国回应换帅
阿里通义开源音频语言模型Qwen2-Audio8月13日消息，阿里通义大模型音频语言模型Qwen2-Audio宣布开源，Qwen2-Audio可直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
封面新闻
1评论
阿里达摩院开源新一代重磅语音模型，推理效率较传统模型提升10倍
钱江晚报·小时新闻记者张云山12月22日，阿里巴巴达摩院发布新一代语音识别模型Paraformer，该模型为业界首个应用落地的非自回归端到端语音识别模型，在推理效率上最高可较传统模型提升10倍，且识别准确率在多个权威数据集上名列第一。
钱江晚报
阿里「杀手锏」级语音识别模型来了！推理效率较传统模型提升10倍
——不仅识别准确率“屠榜”几大权威数据集，一路SOTA，推理效率上相比传统模型，也最高可提升10倍。
量子位
2评论
开源数字人实时对话：形象可自定义，支持语音输入
池炜恒（池化）投稿量子位 | 公众号 QbitAI开源数字人实时对话Demo来了～支持语音输入和实时对话，数字人形象可自定义的那种。生成的数字人效果belike：目前这个数字人实时对话Demo已在阿里巴巴ModelScope魔搭社区上线。
量子位
8评论
阿里最新模型效果可比肩 Sora，但 0 代码“假”开源让网友骂翻天？
目前，EMO 相关论文已发表于 arXiv，同时在 GitHub 上出现了同名疑似开源的 repo，该项目 GitHub Star 数已达到 3.6 k，但仍然是空仓。目前该 repo 并不在阿里官方的 GitHub 目录下，也没有任何地方显示该 repo 与阿里官方直接相关。
InfoQ
15评论
阿里通义实验室黄斐：开源进入千问时代，即将发布的推理模型会更好用
阿里通义千问已成全球第一大开源模型系列，将“很快”放出基于最新模型Qwen2.5-Max的推理模型。2月21日，全球开发者大会（GDC）在上海开幕，在阿里云魔搭社区主办的论坛上，据阿里巴巴通义实验室科学家黄斐介绍，到目前为止，整个通义千问（Qwen）系列模型的下载量达到了1.
澎湃新闻
15评论
使用魔搭开发自己的语音AI：从入门到精通
简介: 语音AI是最早从实验室走向应用的AI技术，其发展史就是不断创新、解锁应用的历史，从1995年 Dragon Dictate的桌面孤立词语音识别，到2011年苹果的手机语音助手SIRI，再到当下百花齐放的各种智能语音应用。
阿里云开发者
2评论
ModelScope语音交互技术
从早期的孤立词语音识别、PC端的Speech API，到1997年桌面连续词语音识别，2009年之后深度学习在语音识别领域兴起，基于深度神经网络的语音识别显著提升了连续语音识别系统的性能。
DataFunTalk

加载更多

视频

问答

一波三折，阿里开源十余载，历经艰辛，如愿以偿还是竹篮打水一场空？
头条问答