e公司讯,9月5日,端到端通用语音大模型心辰Lingo在外滩大会正式发布。心辰Lingo在处理对话时直接理解语音,捕捉语气、节奏和情绪,并进行语音回复,减少了信息处理过程中的损失,让“机器”更懂人。这也是国内首个端到端语音大模型,开创了人机交互新方式。
潮新闻客户端 记者 张云山教育科技公司精准学宣布,公司已在AI语音交互技术上取得领先性的突破,成功训练了中国首个语音端到端大模型“心流知镜-s(V02)”,可直接实现语音输入-语音输出的交互,使其更适配辅学场景,使大模型达到“真人老师”级别的自然对话交流体验。
钱江晚报·小时新闻记者 张云山12月22日,阿里巴巴达摩院发布新一代语音识别模型Paraformer,该模型为业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。
8月19日,科大讯飞股份有限公司(科大讯飞,002230)发布星火语音大模型更新,推出对标GPT-4o的语音功能产品——星火极速超拟人交互。星火极速超拟人可实现随时打断、插话后实时回复,感知情绪变化,改变方言、情感和强度,还可以模仿不同角色进行交流。
2月22日,2025全球开发者先锋大会(GDC)正式开幕。这是2月21日在上海徐汇西岸穹顶艺术中心拍摄的2025全球开发者先锋大会“模速空间”专场活动现场。2月21日至23日,以“模塑全球 无限可能”为主题的2025全球开发者先锋大会在上海举办。
来自香港科技大学的研究团队发表了《Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey》,深入探讨可控语音合成技术的最新进展,从基础的控制方法到利用自然语言提示的高级技术,全面梳理当前研究的现状。
到 2024 年 11 月底,豆包 APP 的累计用户规模已超 1.6 亿,每日平均新增用户下载量稳定在 80 万,日活跃用户数接近 900 万,增长率超过 15%,在全球 AI 应用中排名第二,仅次于 ChatGPT,在国内 AI 应用领域,与 Kimi 等竞品形成了 “两超多强” 的新格局。