近日,第九届国际权威声学场景和事件检测及分类竞赛 (Detection and Classification of Acoustic Scenes and Events, DCASE 2023)公布了比赛结果。西工大航海学院-迅声环境声音感知联合实验室(JLESS)算法团队再创佳绩。本次比赛由联合实验室主任陈建峰教授指导,博士生白吉生、贾亚飞、张董哲,硕士生尹涵、黄思维、杜雨桐参与。团队在任务4B:使用软标签的声音事件检测中,获得国际第一名的成绩;在任务2:用于机器状态监测的无监督异常声音检测中,获得国际第五名的成绩;在任务3:声音事件检测和定位中,获得国际第六名的成绩。

DCASE23 竞赛简介
由电气和电子工程师协会(IEEE)声学信号处理技术委员会(AASP)组织的DCASE已经开展到了第九届,本次挑战赛涵盖了声音场景分类、异常声音检测、声音事件识别及定位、声音事件检测、生物事件检测、音频字幕及检索和拟音合成多种任务。引起了国内外众多尖端声学研究界的广泛关注,包括三星、Meta、腾讯、科大讯飞等公司以及南洋理工大学、韩国科学技术院、清华大学、上海交通大学、中国科学技术大学等高校。

Task 4B 使用软标签的声音事件检测
声音事件检测(Sound Event Detection,SED)是指从复杂的声学环境中自动识别和分类特定的声音事件,并给出这些事件实例的时间定位。图1显示了SED系统的基本流程。

任务4B的目的是探究如何使用软标签数据进一步提升声音事件检测系统的性能。针对该问题,团队成员提出了一种双分支模型结构,可同时使用硬标签和软标签进行训练,并提出了一种基于声音场景先验信息的掩码注意力融合机制进行后端信息融合。在不使用任何外部数据和预训练模型的情况下,团队提交的4个系统取得了前四名的优异成绩,并在主要指标F1MO分数上远超第五名8.71%。

Task 2无监督异常声音检测
机器故障自动检测是人工智能领域的重要发展方向,利用机器声音及时检测机器异常对于优化和节约工业生产有重要意义。异常声音检测是识别目标机器发出的声音是正常还是异常的任务。图3显示了检测系统的概览

任务2的难点是只能使用复杂工作环境下机器的正常声音建模,并且训练和测试的机器类型完全不同,这对模型的泛化性能提出了挑战。针对这一问题,团队成员提出了一种基于机器工作条件的数据生成技术进行无监督异常声音检测。在不使用模型集成和预训练模型的情况下,团队提交的系统取得了国际第五名的成绩。
Task 3声音事件检测及定位
给定多通道音频输入,声音事件定位和检测系统为每个目标声音类输出一个时间激活轨迹,当轨迹表明活动时,还会输出一个或多个相应的空间轨迹。声学场景的时空特征,可用于广泛的机器认知任务,例如对环境类型的推断、自我定位、遮挡目标的导航、特定类型声源的跟踪、智能家居应用、场景可视化系统和声学监测等。

任务3的难点是需要对声音事件(声源类别和起止时间)及声源来波方向进行估计,繁杂的任务目标对模型参数量和带标记数据量提出了要求,本团队使用了基于CNN和Conformer的网络结构,结合空间数据增强方法,最终得到国际第6名的好成绩。
未来规划
西北工业大学航海学院-迅声环境声音感知联合实验室(JLESS)成立 于2021年9月,由西北工业大学航海学院以及西安联丰迅声信息科技有限责任公司双方共建。
实验室算法团队成员已连续6年参与DCASE挑战赛,在历届比赛中,实验室算法团队积极筹备,攻克艰难,取得了丰硕的成果,同时也积累了丰富的参赛经验。
实验室团队还致力于促进算法在实际场景中的落地应用,研发基于空气声呐的标准化机器听觉解决方案,相关空气声呐产品已成功应用于违法鸣笛抓拍、工业设备异常声音诊断等安防、电力、石化及煤炭多个领域。未来,空气声呐将作为城市的耳朵,从听觉维度赋能各行各业,用科技倾听世界的声音。