學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912

Browse

Search Results

Now showing 1 - 3 of 3
  • Item
    語音增益之研究 — 適應性與可解釋性
    (2024) 何冠勳; Ho, Kuan-Hsun
    本論文深入探討語音增益(SE)領域,這是一個通過減少噪音和失真來精煉語音信號的關鍵過程。借助深度神經網絡(DNNs),本研究解決了兩個基本挑戰:1)探索SE和自動語音辨識(ASR)系統之間的兼容性,以及2)增強基於DNN的SE模型的可解釋性。動機來源於SE模型可能在運作中引入的偽影(Artifacts),可能危及ASR性能,因此需要重新評估學習目標。為應對這一問題,提出了一種新穎的噪聲和偽影感知損失函數(NAaLoss),它在保持SE質量的同時,顯著提高了ASR性能。另外,在基於DNN的SE方法中,我們探索了一種新穎的設計,即基於Sinc的卷積(Sinc-conv),以在解釋性和時域方法的學習自由之間取得平衡。基於此,我們設計了重塑的Sinc卷積(rSinc-conv),不僅提升了SE的最新技術水平,還揭示了神經網絡在SE期間優先考慮的特定頻率組合。這項研究做出了實質性的貢獻,包括定義1)SE中的處理偽影,展示NAaLoss的有效性,通過視覺化偽影獲取洞見,並填補SE和ASR目標之間的差距。2)為SE量身定制的rSinc-conv的開發在訓練效率、濾波器多樣性和可解釋性方面提供了優勢。3)解析神經網絡的優先關注,對不同形狀濾波器的探索以及對各種SE模型的評估進一步促進了我們對SE網絡的理解和改進。總的來說,這項研究旨在為SE領域的討論做出貢獻,並為在現實情境中實現更強大和高效的SE鋪平技術道路。
  • Item
    即時單通道語音增強技術之研究
    (2022) 曹又升; Tsao, Yu-Sheng
    隨著深度學習的發展,語音增強 (Speech Enhancement) 技術更能在各種不同的噪音環境下發揮效果。本論文針對語音增強的兩個子議題進行研究,分別是對於語音辨識 (Speech Recognition) 系統的語音增強前端預處理 (Front-end Preprocessing),以及線上 (On-line) 的串流式即時語音增強。語音增強研究首要目標是提升感知品質 (Perceptual Quality),然而若將最大化感知品質的模型用於預處理,可能會影響下游任務所依賴的聲學特徵,這樣的失真會導致效果不如預期,甚至衰退。而除了維持聲學特徵外,本論文也探討如何更有效的使用頻譜資訊,以及針對即時語音增強模型提高運算效率。  本論文在兩個方法上各自提出了改進,第一項為 DCT-TENET,以時序反轉增強網路 (Time-reversal Enhancement NETwork, TENET) 為基礎,針對語音增強的訓練流程調整,在保有一定增強效果的前提上,作為語音辨識前端處理機制也能更有效的提升辨識率,並且減少額外訓練聲學模型的需求。第二項為可調適性全次頻帶融合網路 (Adaptive-FSN),透過延伸「次頻帶能有效處理局部樣態 (Local Pattern)」的概念,提出一個可調適性次頻帶機制,壓縮大範圍相鄰頻帶之有效資訊來提高語音品質,並搭配其他改進以提高運算的效能。我們使用 VoiceBank-DEMAND 資料集對兩個方法進行實驗,改進後的 DCT-TENET相較 TENET 模型,能進一步的提升語音辨識系統於受噪語音的辨識率。使用乾淨情境聲學模型辨識 DEMAND 噪音之測試集降低相對約 7.9% 的詞錯誤率,使用多情境聲學模型於額外的未見噪音測試集也能降低相對約 10.6% 的詞錯誤率。另一部分,Adaptive-FSN 也相較基礎的 FullSubNet+,在語音品質指標上有更佳的表現,於 CPU 上運算則能有效的降低相對 44% 的實時率 (Real-time Factor)。
  • Item
    結合跨域資訊與時序反轉增強網路於強健性語音辨識
    (2021) 趙福安; Chao, Fu-An
    由於在現實生活中的噪音環境不可控制且干擾語音辨識的效能,加上前端發展已相當健全的語音增強(Speech Enhancement)技術,許多學者運用語音增強技術於語音辨識中獲得不錯的成果。近年來因為計算能力的發展,在眾多語音增強技術當中,許多研究開始發現相位(Phase)資訊對語音增強至關重要。在這些使用到相位資訊的語音增強方法,皆比原始單純使用幅度(Magnitude)頻譜的方法有更優越的效果。綜觀現階段最優異的語音增強技術,有學者使用對抗式訓練(Adversarial Training)將客觀度量指標與鑑別器(Discriminator)連結,最大化語音的感知質量(Perceptual Quality)達到了最好的效果,但最大化語音感知質量並不能保證在後端可以獲得更佳的語音辨識(Speech Recognition)結果。基於上述觀點,本論文提出了兩種新穎的語音增強方法:第一種為時序反轉增強網路(Time-reversal Enhancement NETwork, TENET),它是由時序反轉(Time-reversal)與孿生網路(Siamese Network)技術所構成,可以與任何語音增強模型結合,以增加其語音增強的效果。第二種為跨域雙路徑注意力網路(Cross-domain Dual-path Transformer, CD-DPTNet),在考慮到相位資訊的前提下,提出一個雙映射投影(Bi-projection Fusion, BPF)機制,融合頻域以及時域之特徵應用於語音增強。實驗於Voice Bank-DEMAND語音增強實驗之標準語料庫,並額外設置了未知環境噪音的測試集作為測試。本論文提出的方法與現階段最好的語音增強方法相比,在客觀評估指標PESQ、SI-SDR皆可以得到現階段最好的語音增強效果;進一步測試在語音辨識,也較其它方法能更有效的提升語音辨識之準確性。而結合TENET與CD-DPTNet兩種方法,在未知環境噪音的測試集可以使經多情境訓練之聲學模型降低約相對43 % 詞錯誤率(Word Error Rate, WER)。