火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军
在刚刚过去的 ICASSP 2023 声学回声消除(AEC)挑战赛中,火山引擎 RTC 团队联合西北工业大学音频语音与语言处理研究实验室,在通用回声消除 (Non-personalized AEC) 与特定说话人回声消除 (Personalized AEC) 两个赛道上荣获冠军,并在双讲回声抑制,双讲近端语音保护、近端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍,达到国际领先水平。
其中“N”代表通用AEC,“Y”代表特定说话人AEC,绿色越深代表指标表现越好
ICASSP AEC 挑战赛由国际音频顶级会议 ICASSP 和微软联合发起,旨在激发声学回声消除领域的研究,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百度、快手、中科院、西工大等全球诸多知名企业和科研院所的参与。今年的 ICASSP AEC 也不例外,参赛队伍之多之强,使 AEC 成为 ICASSP 2023 各项赛事中竞争最为激烈的赛道之一。
ICASSP AEC 挑战赛要求各参赛队伍对 10,000 多个来自于真实音频设备和真实环境下的录音数据进行 AEC 模型训练,并根据单讲/双讲等场景中获得的主观平均意见分以及语音识别率综合评判名次。火山引擎 RTC 通过对时延补偿模块、线性 AEC模块、残留回声抑制处理模块进行优化,有效降低了 AEC 模型的复杂度,提升了回声的抑制效果。同时,通过对训练数据进行增广,使 AEC 处理框架可以覆盖更多场景的回声处理问题。最终,团队在远端单讲回声抑制、近端单讲信号保护、双讲回声抑制、双讲近端语音保护等各子场景中均发挥出色,取得总分第一的成绩。
另外,今年的 ICASSP AEC 挑战赛首次增加了特定说话人 AEC 赛道。过去,通用回声消除技术(Non-personalized AEC)在线上使用较多,特定说话人回声消除技术(Personalized AEC)则更多出现在学术研究领域。随着回声消除应用的场景越来越广泛、越来越复杂,特定说话人 AEC 也越来越受到人们关注。延续在通用 AEC 领域的技术优势,火山引擎 RTC 在特定说话人 AEC 赛道也荣获冠军。
传统 AEC + 深度学习双管齐下,解决复杂双讲场景中的回声消除难题
回声消除是音视频通话中最难的音频技术之一,而“双讲”则是回声消除应用中最复杂的场景。在视频会议、线上小班课等多人音视频通话场景中,如果近端和远端同时说话,远端的声音信号通过扬声器播放出来,又和近端的声音混合在一起被麦克风采集进去,远端就会听到回声,且听不清近端的语音内容。双讲场景回声消除比普通场景回声消除难度要大——因为既需要把远端的回声尽量消除干净,又不能矫枉过正,保护近端的语音信号尽量不被损伤。
以下是火山引擎 RTC 在双讲场景的回声消除效果。
在双讲场景中,当回声的能量远远高于目标说话人的能量(比如扬声器离麦克风太近或其他原因),就会形成超低信回比场景(比如-20db以下)。下面这段样本中,女声为目标说话人语音,男生为非目标说话人语音(回声),目标语音几乎被非目标语音完全覆盖了,回声消除挑战极大。
火山引擎 RTC 对 AEC 处理框架中的线性 AEC 模块和残留回声抑制处理模块进行了创新性优化:在线性 AEC 模块中,保护近端语音不受损伤的同时,最大程度抑制回声中的线性成分,减轻后续残留回声抑制模型的负担;在残留回声抑制模块中,基于低延时深度学习网络来抑制回声中非线性残留成分,同时在特定说话人回声消除 Track 上额外引入说话人声纹信息,在去除回声的同时也抑制非目标说话人的语音。通过以上处理,火山引擎 RTC 在超低信回比双讲场景中也取得了优秀的回声消除效果。
为线上各类互动场景提供更清晰、动听的音质体验
视频会议、在线教育、语聊房、游戏开黑、在线 KTV、“一起看”、“一起玩”……线上互动场景正变得越来越丰富,对 RTC 的技术挑战也越来越高,比如更饱满的音质、更清晰的画质、更流畅、稳定的使用体验等等。在音质方面,火山引擎 RTC 基于自研语音编码器 NICO,结合深度学习的 3A 算法、AI 降噪算法、语音检测算法等技术,不断提升音频的编码质量、抗丢包能力和处理性能,已成功为抖音世界杯“边看边聊”直播间、飞书视频会议、《Mobile Legends: Bang Bang(无尽对决)》等提供高质量的音频服务。
未来,火山引擎 RTC 还将不断探索前沿音频技术,并与业务场景高效结合,打造更具针对性的场景适配策略,持续为各类线上互动场景提供更清晰、更动听的音质体验。
点击阅读原文,了解产品更多信息:https://www.volcengine.com/contact/product?t=rtc&source=%E4%BA%A7%E5%93%81%E5%92%A8%E8%AF%A2
上一篇:GSMA:专用网络崛起,运营商全力把握5G企业级市场机遇
栏 目:技术创新
下一篇:最大的AI工具库futurepedia来了 已收集全网897种AI工具
本文标题:火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军
本文地址:
您可能感兴趣的文章
- 10-19Gartner发布2022年重要战略技术趋势
- 08-01中国电信董事长柯瑞文:算力成为数字经济的主要生产力
- 07-05亚马逊云科技中国峰会圆满落幕 就生成式AI落地、数据战略、出海等给出答案
- 08-02揭示OT安全四大挑战!Fortinet 发布《2022年全球运营技术和网络安全态势报告》
- 03-10如何通过 Serverless 提高 Java 微服务治理效率?
- 10-20人工智能、物联网、云计算、工业互联网等7个新职业国家标准颁布
- 10-19思科微软加强合作伙伴关系: 思科协作终端支持微软 Teams
- 08-03蚂蚁集团:可信密态计算(TECC)是全新的隐私计算模式 中国比欧美尝试更深
- 01-10中国北部湾港钦州自动化集装箱码头成功部署OPUS Terminal
- 03-10从MVC到云原生:CBU研发体系演进之路
阅读排行
推荐教程
- 11-01阿里云无影升级2.0 云电脑解决方案时代到来
- 11-01阿里云数据库全面Serverless化!与AI共同驱动走向一站式智能数据平台
- 11-012023云栖大会关键词:开放、大模型、MaaS、产业智能升级
- 10-31Serverless化云产品超40款阿里云发布全球首款容器计算服务
- 10-31阿里云给中国所有大学生每人送一台云服务器
- 10-31解密杭州亚运背后科技:核心系统100%上云,20多项全球首创智能应用
- 10-312023云栖大会开幕 阿里巴巴蔡崇信:打造AI时代最开放的云
- 10-31巴黎奥运会将基于阿里云实现云上转播
- 10-31马斯克440亿美元收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!
- 10-30中国广电已建700MHz基站59万站 5G用户突破1800万