近日,第八届国际权威声学场景和事件检测及分类竞赛 (Detection and Classification of Acoustic Scenes and Events, DCASE 2022)公布了比赛结果。西工大航海学院-迅声环境声音感知实验室算法团队再创佳绩。
本次比赛由联合实验室主任陈建峰教授指导,博士生白吉生、王谋、硕士生贾亚飞、黄思维参与。算法团队在Task2-基于域泛化技术的机器状态无监督异常声音检测(Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques)赛事中斩获国际第八,国内第五的成绩;在Task3-基于真实环境的声音事件检测与定位(Sound Event Localization and Detection Evaluated in Real Spatial Sound Scenes)赛事中斩斩获国际第五,国内第四的成绩。
由电气和电子工程师协会(IEEE)声学信号处理技术委员会(AASP)组织的DCASE已经开展到了第八届,本次挑战赛引起了国内外众多尖端声学研究界的广泛关注,包括三菱电器、三星、小米、科大讯飞等公司以及苏黎世联邦理工学院、萨里大学、中国科学技术大学、中国科学院大学等高校。

本次DCASE 2022挑战赛,共设置六个任务,包括低复杂度下的声学场景识别、机器状态无监督异常声音检测、声学事件检测和定位、家居环境下声音事件监测、小样本的生物声学事件检测和自动音频字幕及基于语言的音频检索。

TASK 2——异常声音检测
异常声音检测(ASD)是用来识别目标机器发出的声音是正常的还是异常的。TASK 2是在只提供正常声音样本作为训练数据的情况下,检测机器的异常声音。机械故障自动检测是第四次工业革命的一项重要技术,包括基于人工智能的工厂自动化。

本次比赛,联合实验室的算法团队提出了一种基于自监督学习和批混合策略的异常声音检测方法。为了适应不同域之间的泛化问题,提出了批处理混合策略是将来自源域和目标域的数据随机混合在一个小批处理中,并在一个批中采用数据增强的方法提升模型的鲁棒性。此外,还采用了一种边缘损失函数来训练声学模型。最后,利用声学特征来训练异常检测器来检测异常声音。

TASK 3——声音事件检测和定位
给定真实声学场景下的空间音频,预测目标声源的类型、起止时间和活动轨迹。声音事件检测与定位系统有着广泛的应用,例如:遮挡目标的导航、特定声源的跟踪、智能家居应用、场景可视化系统和智能安防监测系统等。此次任务在真实环境下录制的多通道信号,拥有更低的信噪比,更复杂的声学环境,更小的数据集。

针对本次任务的声音事件比以往更难检测的问题,联合实验室的算法团队提出一种基于动态卷积核和多数据增强的方案。该方案利用通道注意力机制动态调整感受野的范围,进一步提取细粒度的局部特征。另外针对真实音频数据量小、泛化能力不足的问题,使用多种音频增强方法增强训练数据的数据量以及训练样本的声学特征。最终,提交的系统在多个指标上大幅优于基线系统。

2018年起,联丰迅声环境声音感知联合实验室(JLESS)算法团队连续五年组织参与DCASE挑战赛。在历届比赛中,实验室算法团队积极筹备,攻克艰难,取得了丰硕的成果,同时也积累了丰富的参赛经验,并在DCASE2020年斩获国际第二名和国际第一名。
