在科技的浪潮中,声学场景分类技术正迎来新的突破。近日,由西北工业大学航海学院与西安联丰迅声信息科技有限责任公司主办,新加坡南洋理工大学、中科院声学所和英国萨里大学联合承办的2024年国际多媒体与博览会议(IEEE International Conference on Multimedia and Expo, ICME)挑战赛之一——域转移下的半监督声学场景分类竞赛(Semi-supervised Acoustic Scene Classification under Domain Shift)在加拿大多伦多尼亚加拉瀑布城圆满落幕。
竞赛前五名的队伍现场介绍了各自的参赛解决方案,并进行了友好的学术交流,深入探讨了声学场景分类的潜在研究方向。
此外,联丰迅声合作的论文《AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning》也在ICME 2024会议上进行了口头报告。该论文首次将大语言模型(LLMs)应用于长音频内容的总结,为智能音频感知领域带来了新的视角和可能性,展现了大语言模型在处理复杂音频数据方面的价值与潜力。
赛事简介
IEEE国际多媒体与博览大会 (ICME) 由IEEE 四大协会Computer Society、Circuits and System Society、 Signal Processing Society以及Communication Society共同主办,至今已连续举办20多届,涵盖文本分析、图形图像、视频处理、语音和音频信号处理等主题,每届大会上举办的挑战赛内容都有所不同。
声学场景分类是计算听觉场景分析中的一个关键研究问题,旨在识别环境中预定义的声学场景类别,例如广场、街道和餐馆。深度学习在声学场景分类算法中的应用极大提高了其性能,但该方法仍面临一些挑战,其中之一是由训练数据和测试数据之间的分布差距引起的分类性能下降。
尽管近年来在设备泛化等方面取得了一定进展,但不同地理区域之间涉及时间、空间、文化和语言等特征的域转移目前仍然没有得到充分的探索。此外,考虑到现实生活中可以方便获取的大量未标记信息,研究如何利用未标记数据的方法非常重要,可以潜在减少对标定数据的依赖。
因此,我们在 ICME2024 挑战赛中提出了域转移下的半监督声学场景分类竞赛。我们鼓励参赛者提出具有创新性的半监督学习技术,在域转移下开发更有效、更鲁棒的声学场景分类模型。
•ICME挑战赛网站 •
•赛事网站 •
https://ascchallenge.xshengyun.com/
竞赛组织者
白吉生
西北工业大学,西安联丰迅声信息科技有限责任公司,南洋理工大学
陈建峰教授
西北工业大学,西安联丰迅声信息科技有限责任公司
项彬
西安联丰迅声信息科技有限责任公司
王谋博士
OPPO,中国科学院声学研究所
刘濠赫
萨里大学
Mark D.Plumbley教授
萨里大学
Woon-Seng Gan教授
南洋理工大学
Susanto Rahardja教授
西北工业大学
竞赛结果
本次竞赛吸引了国内外21支来自高校、科研院所及企业界的队伍注册,最终共有13支队伍提交了结果。本次竞赛的前5名队伍及主要所属单位分别如下:
NERCSLIP-USTC 中国科学技术大学
Aural Pioneers 上海交通大学
Audio Warriors 上海交通大学
Whuaudio 武汉大学
RM3Team 罗马第三大学
同时,前5名队伍也被邀请参加现场举行的挑战赛分会议。会议上,来自西北工业大学航海学院的博士生白吉生,作为此次比赛主要组织者及分会议主席,详细介绍了本次比赛的数据集、基线系统、参赛队伍以及最终结果,会后与参赛的各个队伍进一步探讨了声学场景分类的潜在研究方向,并达成了未来在智能声学领域进一步合作的意向。



这场赛事与学术盛会的成功举办,不仅彰显了智能声学领域的创新突破,更为全球研究者们提供了一个展示才华和交流思想的高端平台。随着技术的不断进步和发展,我们有理由相信,声音的世界远比我们想象的更加宽广多样,其背后潜藏着无限的价值。未来声学场景分类技术将迎来更广阔的应用前景,为人类社会的发展贡献更多智慧与力量。
西工大航海学院-迅声环境声音感知联合实验室简介

为响应国家智慧城市、“互联网+”未来发展的人工智能产业政策,紧跟人工智能技术转化应用市场前景的趋势,西工大航海学院-迅声环境声音感知联合实验室于2021年9月成立,属于西北工业大学航海学院和西安联丰迅声信息科技有限责任公司双方共建。
本环境声音感知联合实验室旨在加快智能声学科技创新和成果转化,相关研究方向主要分为智慧城市环境声音感知技术、工业环境故障自动监测技术、公共安防异常声音监测技术,涉及信号处理、大数据以及人工智能等相关软硬件技术。
联丰迅声简介

联丰迅声成立于2018年4月,是一家以“机器听觉”为核心的声学AI检测仪器及设备制造服务商,专注于环境声音信号检测、识别、声源定位及相关的声学AI检测仪器设备的研发与设计。公司核心技术团队由西北工业大学博士与硕士组成,连续数年稳居世界声学AI赛事DCASE的前三名。
联丰迅声先后获得英诺天使基金、启迪之星、西安市人才基金等多家资本千万级风险投资。2020年荣获“国家级高新技术企业”认定。2022年入选陕西省首批秦创原“科学家+工程师”队伍,实现了从项目技术科研到产品化、商业化的跃迁,进入全新的高速发展阶段。