一種基于卷積神經網絡的端到端語音分離方法
摘要:大部分的語音分離系統僅僅增強混合的幅值譜(短時傅里葉變換的系數),但是對于相位譜卻不做任何處理。然而,最近的研究表明相位信息對于語音分離的質量起著很重要的作用。為了同時利用幅值和相位信息,本文提出了一種有效的端到端分離方法。這種方法是直接利用原始語音波行點作為特征,是一種基于編解碼器的卷積神經網絡結構。跟其他的說話人獨立的語音分離系統不同,本文提出的方法其神經網絡只輸出一個說話人的信號,其他的語音可以由混合語音與網絡輸出信號的差值獲得。我們在TIMIT數據集上驗證本文提出的方法。實驗結果表明,本文提出的方法明顯優于句子級別的排列不變性訓練(utterance-level permutation invariant training,uPIT)基線方法,對于信號失真比(signal-to-distortion ratio,SDR)相對提高了16.06%。
注: 保護知識產權,如需閱讀全文請聯系信號處理雜志社