我组四篇论文被 INTERSPEECH 2025 录用

======

近日,我课题组共有 四篇论文 被国际语音大会 INTERSPEECH 2025 录用。四项工作分别面向多通道主动降噪(MCANC)、无线声传感器网络(WASNs)语音增强、HRTF 插值、语音活动检测与重叠语音检测(VAD/OSD)等关键声学任务,展示了我组在 智能声学与语音信号处理 方向的系统性研究进展。


1. Reference Subset Selection Considering Filter Length for Multi-channel Active Noise Control

作者: 呼德(通讯作者)、刘姝瑶、何艳榕

在多通道有源噪声控制系统中,更多的参考麦克风可带来更强的降噪能力,但也意味着更高的计算代价。本文提出一种 同时选择参考麦克风子集与自适应确定滤波器阶数 的优化方法:

MCANC 方法框架示意图
图1 主动降噪的系统框架图

2. Joint Rate Allocation and Sensor Selection for Speech Enhancement in Wireless Acoustic Sensor Networks

作者: 呼德(通讯作者)、李琪龙

在能量受限的无线声学传感器网络中,高能效语音增强是核心挑战。本文提出一种 频率不变的比特率分配 + 传感器选择联合优化(FI-RASS)方法

FI-RASS 模型结构图
图2 传感器选择与比特分布结果:(a) 传感器选择 (b) 速率分布

3. D-GAT: Dual Graph Attention Network for Global HRTF Interpolation

作者: 胡俊升、李少杰、斯琴图雅、呼德(通讯作者)

HRTF(头相关传递函数)在 VR/AR 空间音频中至关重要,但其高密度采样成本昂贵。本文提出一种 双图注意力网络 D-GAT,从空间域与频率域联合建模 HRTF 的结构特性:

D-GAT 网络结构示意图
图3 D-GAT 双图注意力网络框架示意图

4. Temporal Convolutional Network with Smoothed and Weighted Losses for Distant VAD and Overlapped Speech Detection

作者: 李少杰、斯琴图雅、呼德(通讯作者)

远讲语音场景中,由于混响、噪声与说话人重叠,VAD/OSD 任务变得极具挑战。本文提出基于 TCN(Temporal Convolutional Network)的改进框架:

TCN VAD/OSD 框架示意图
图4 VAD + OSD的总体架构

四篇论文的录用充分展示了我组在 空间音频、主动降噪、语音增强、语音前端处理 等方向的持续探索与创新。未来,我们将继续面向智能声学的核心问题深入研究,推动相关技术在实际系统中的应用。