L3DAS23|联丰迅声团队在国际比赛中再创佳绩!

3D音频信号处理挑战赛收官,西工大航海学院-迅声环境声音感知联合实验室分别在“语音增强”和“声音事件检测及定位”两个任务中获得第二名和第一名的好成绩。

近日,由IEEE国际会议ICASSP主办的3D音频信号处理挑战赛(L3DAS23)收官,本次比赛由西工大航海学院-迅声环境声音感知联合实验室(JLESS)参与。参赛团队由联合实验室主任、航海学院陈建峰教授指导,实验室成员白吉生黄思维尹涵贾亚飞王谋参与。参赛团队分别在“语音增强”和“声音事件检测及定位”两个任务中获得第二名和第一名的好成绩。在所有参赛队伍当中,JLESS团队综合排名第二。

参赛团队就本次比赛方法所撰写论文《3D Audio Signal Processing Systems for Speech Enhancement and Sound Localization and Detection》最终被2023年ICASSP会议所接收。

ICASSP   会议简介

国际声学、语音与信号处理会议ICASSP(International Conference on Acoustics, Speech and Signal Processing),是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。作为IEEE(电子技术与信息科学工程师协会)的一个重要会议,它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等至少十六个方向。

 L3DAS23   竞赛简介

L3DAS23挑战赛旨在促进利用机器学习方法进行3D音频信号处理的研究。所谓3D音频,又称空间音频,是指具有立体音效的多通道音频。近年来,虚拟环境中的3D音频技术应用非常广泛,例如虚拟会议、游戏开发、音乐制作、增强现实和沉浸式技术等。

该挑战赛分为两个赛道,3D语音增强赛道和3D声音事件检测及定位赛道。竞赛数据集是“半合成的”,官方通过将真实音频(由2个4通道全向麦克风进行录制)和特定室内环境下的脉冲响应进行卷积,形成带有混响的3D音频。

此外,官方还生成了麦克风正前方的室内环境彩色图像,参赛选手可以选择是否利用图片信息辅助完成相应任务。

Task1 3D语音增强

该任务的目标是增强混响环境空间声场中的语音信号。在此项任务中,模型需要从包含各种背景噪声的3D音频中提取单声道语音信号。该任务的评估指标是短时客观可理解性(Short-Time Objective Intelligibility, STOI)和单词错误率(Word Error Rate, WER)。

图1:3D语音增强任务示意图

Task2 3D声音事件检测与定位

该任务的目的是检测一组已知类别的声音事件,特别是在空间中进一步定位它们。在此项任务中,模型必须以100毫秒为间隔,检测音频中声音事件的起止时刻及其对应的声源位置。该任务的评价指标是定位误差和事件检测误差。

图2:3D声音事件检测及定位任务示意图

JLESS  未来规划

西北工业大学航海学院-迅声环境声音感知联合实验室(JLESS)成立于2021年9月,由西北工业大学航海学院以及西安联丰迅声信息科技有限责任公司双方共建。

未来,JLESS团队会持续对增强、降噪、监测、识别感知等智能音频算法进行研究和开发,加快智能声学科技创新和成果转化。

Scroll to Top