大模型音频通义

资讯

阿里大模型产品“通义听悟”发布音视频问答助手等新功能
3月19日，阿里大模型产品“通义听悟”发布多项新功能，上线音视频问答助手“小悟”、一键AI改写、思维导图生成等六大功能。其中，音视频问答助手“小悟”支持对单个最长6小时、一次性上百条音视频的内容理解问答。通义听悟向所有中国大陆高校师生赠送500小时音视频转写时长。
界面快讯
阿里云披露大模型最新进展：“通义听悟”攻向音视频赛道
作为大模型最为活跃的领域，自然语言处理成为众多科技公司在研发上的主攻方向，阿里也不例外。6月1日，阿里云对外披露通义大模型最新进展，瞄向AI音视频赛道推出“通义听悟”，并且正式开启公测。这距离“通义千问”的发布还不到两个月的时间。
第一财经
1评论
阿里云通义大模型抢占音视频赛道，CTO周靖人：还要上新
时隔不到两月，“阿里版GPT”又“上新”了。6月1日，阿里云宣布通义大模型进展：聚焦音视频内容的AI新品“通义听悟”开放公测。通义听悟接入了通义千问大模型的理解与摘要能力，能帮助用户完成对音视频内容的转写、检索、摘要和整理。
南方都市报
阿里开源首个全模态大模型，通义总经理：开源比拼技术领先力
3月27日，阿里宣布开源Qwen2.5-Omni，这是通义系列模型中首个端到端全模态大模型。据阿里介绍，Qwen2.5-Omni可同时处理文本、图像、音频和视频等多种模态数据的输入，并实时生成文本与自然语音合成输出。相较于GPT-4o、Gemini-1.
南方都市报
超越LLama2，通义千问登顶HuggingFace开源大模型排行榜榜首
12月8日消息，全球最大的开源大模型社区HuggingFace日前公布了最新的开源大模型排行榜，阿里云通义千问力压Llama2等国内外开源大模型登顶榜首。
随申Hi-新闻晨报
全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一
澎湃新闻记者胡含嫣又一个国产大模型应用火出圈！两个月前，阿里巴巴通义实验室公开了一篇能够让照片唱歌说话的生成式AI模型论文，EMO（Emote Portrait Alive），在海外媒体和社交平台引起热烈反响，被一批科技圈大V轮番转发。
澎湃新闻
7评论
大模型应用竞争转写赛道，比谁更能“听懂”音视频
阿里云峰会上，阿里云智能集团CTO周靖人介绍通义听悟。（受访者供图/图）距离阿里云大模型“通义千问”问世不到两个月时间，阿里云于2023年6月1日在广州的阿里云峰会上发布了通义家族新成员——通义听悟。
南方周末
用大模型自动做笔记、提取PPT、整理访谈，阿里云AI新产品“通义听悟”开放公测【内含福利】
6月1日，阿里云宣布通义大模型进展，聚焦音视频内容的AI新品“通义听悟”正式上线，成为国内首个开放公测的大模型应用产品。
封面新闻
阿里云诠释“通义听悟”：AI大模型化身工作生活好帮手
作为国内首个开放公测的大模型应用产品，聚焦音视频领域的工作学习AI助手阿里云通义听悟一经问世，就受到了广大用户的追捧。
中国电子报
阿里云大模型再开源！通义千问720亿、18亿参数模型填补行业空缺
作者 | 香草编辑 | 李水青智东西12月1日报道，今日，阿里云在北京举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B，并同步开源了通义千问18亿参数模型Qwen-1.8B和通义千问音频大模型Qwen-Audio。
智东西
720亿、千亿级参数大模型接连开放国产开源大模型进入参数时代
封面新闻记者欧阳宏宇围绕开源大模型打响的混战正演变为参数之争。12月1日，阿里云宣布开源通义千问720亿参数模型Qwen-72B，18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
封面新闻
阿里通义开源音频语言模型Qwen2-Audio
8月13日，记者了解到，阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。据悉，Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。
第一财经
2评论
逐浪AIGC丨阿里云宣布通义千问开源720亿参数模型
21世纪经济报道记者白杨北京报道12月1日，阿里云宣布开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。此前，通义千问已经开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL。
21世纪经济报道
1评论
通义千问开源720亿和18亿参数两款大语言模型
新京报贝壳财经讯（记者罗亦丹）12月1日，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B，这是继通义千问此前开源140亿参数大语言模型后又一次开源之举。此外，通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
新京报
早资道 | 阿里通义开源音频语言模型Qwen2-Audio；星巴克中国回应换帅
阿里通义开源音频语言模型Qwen2-Audio8月13日消息，阿里通义大模型音频语言模型Qwen2-Audio宣布开源，Qwen2-Audio可直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
封面新闻
1评论
阿里凌晨开源首个全模态大模型Qwen2.5-Omni，手机可部署，甚至可识别情绪
潮新闻客户端记者张云山3月27日凌晨，阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。在权威的多模态融合任务OmniBench等测评中，Qwen2.
钱江晚报
阿里开源首个全模态大模型，将给产业带来哪些机会？
界面新闻记者 | 肖芳界面新闻编辑 | 文姝琪3月27日凌晨，阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。目前，市场上的全模态大模型较为有限。
界面新闻
3评论
一张照片，想唱就唱！国产大模型推出照片唱歌功能
把一段音频、一张照片输入AI模型，就能让图中人物开口唱歌说话，让奥黛丽赫本唱《上春山》、陶俑仕女说英文RAP、爱因斯坦说中文段子。不久前，这款名为EMO的模型因为阿里通义实验室的一篇论文火遍海内外，模型的产品化进程也广受关注。
南方+客户端
2评论
大模型升级、降价，阿里云CTO周靖人：全面投入升级AI大基建
“阿里云正在围绕AI时代，树立一个AI基础设施的新标准，全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系，让数据中心成为一台超级计算机，为每个AI和应用提供高性能、高效的算力服务。
随申Hi-新闻晨报
1评论
一克商评｜期待中国科技带来更高效、便捷的技术支持，推动体育赛事可持续发展
阿里通义开源音频语言模型Qwen2-Audio，相关论文入选顶会ACL 2024阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。
封面新闻

加载更多

视频

问答

在线举报