學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
1 results
Search Results
Item 語音增益之研究 — 適應性與可解釋性(2024) 何冠勳; Ho, Kuan-Hsun本論文深入探討語音增益(SE)領域,這是一個通過減少噪音和失真來精煉語音信號的關鍵過程。借助深度神經網絡(DNNs),本研究解決了兩個基本挑戰:1)探索SE和自動語音辨識(ASR)系統之間的兼容性,以及2)增強基於DNN的SE模型的可解釋性。動機來源於SE模型可能在運作中引入的偽影(Artifacts),可能危及ASR性能,因此需要重新評估學習目標。為應對這一問題,提出了一種新穎的噪聲和偽影感知損失函數(NAaLoss),它在保持SE質量的同時,顯著提高了ASR性能。另外,在基於DNN的SE方法中,我們探索了一種新穎的設計,即基於Sinc的卷積(Sinc-conv),以在解釋性和時域方法的學習自由之間取得平衡。基於此,我們設計了重塑的Sinc卷積(rSinc-conv),不僅提升了SE的最新技術水平,還揭示了神經網絡在SE期間優先考慮的特定頻率組合。這項研究做出了實質性的貢獻,包括定義1)SE中的處理偽影,展示NAaLoss的有效性,通過視覺化偽影獲取洞見,並填補SE和ASR目標之間的差距。2)為SE量身定制的rSinc-conv的開發在訓練效率、濾波器多樣性和可解釋性方面提供了優勢。3)解析神經網絡的優先關注,對不同形狀濾波器的探索以及對各種SE模型的評估進一步促進了我們對SE網絡的理解和改進。總的來說,這項研究旨在為SE領域的討論做出貢獻,並為在現實情境中實現更強大和高效的SE鋪平技術道路。