學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
2 results
Search Results
Item 即時單通道語音增強技術之研究(2022) 曹又升; Tsao, Yu-Sheng隨著深度學習的發展,語音增強 (Speech Enhancement) 技術更能在各種不同的噪音環境下發揮效果。本論文針對語音增強的兩個子議題進行研究,分別是對於語音辨識 (Speech Recognition) 系統的語音增強前端預處理 (Front-end Preprocessing),以及線上 (On-line) 的串流式即時語音增強。語音增強研究首要目標是提升感知品質 (Perceptual Quality),然而若將最大化感知品質的模型用於預處理,可能會影響下游任務所依賴的聲學特徵,這樣的失真會導致效果不如預期,甚至衰退。而除了維持聲學特徵外,本論文也探討如何更有效的使用頻譜資訊,以及針對即時語音增強模型提高運算效率。 本論文在兩個方法上各自提出了改進,第一項為 DCT-TENET,以時序反轉增強網路 (Time-reversal Enhancement NETwork, TENET) 為基礎,針對語音增強的訓練流程調整,在保有一定增強效果的前提上,作為語音辨識前端處理機制也能更有效的提升辨識率,並且減少額外訓練聲學模型的需求。第二項為可調適性全次頻帶融合網路 (Adaptive-FSN),透過延伸「次頻帶能有效處理局部樣態 (Local Pattern)」的概念,提出一個可調適性次頻帶機制,壓縮大範圍相鄰頻帶之有效資訊來提高語音品質,並搭配其他改進以提高運算的效能。我們使用 VoiceBank-DEMAND 資料集對兩個方法進行實驗,改進後的 DCT-TENET相較 TENET 模型,能進一步的提升語音辨識系統於受噪語音的辨識率。使用乾淨情境聲學模型辨識 DEMAND 噪音之測試集降低相對約 7.9% 的詞錯誤率,使用多情境聲學模型於額外的未見噪音測試集也能降低相對約 10.6% 的詞錯誤率。另一部分,Adaptive-FSN 也相較基礎的 FullSubNet+,在語音品質指標上有更佳的表現,於 CPU 上運算則能有效的降低相對 44% 的實時率 (Real-time Factor)。Item 基於頻率域和時序性特徵的假人臉影片偵測(2021) 王順達; Wang, Shun-Ta隨著深度學習生成技術日新月異發展, 越來越多深度學習生成的假臉充斥在網路世界。多項研究證實人眼對於深度學習生成假臉的真偽越來越沒有判斷能力,將來勢必衍生更多擬真度極高的假影片讓大眾堅信不移,製造多重假資訊和社會恐慌。然而深度學習模型卻有辦法偵測某些細微特徵,不論是從語意上、屬性上、和頻譜上,甚至是幀和幀之間的不一致性都逃不過模型精準的法眼,因此利用深度學習模型偵測假臉勢在必行。近年來,深度學習偵測假臉研究日益受到關注,其中不乏利用離散餘弦轉換、傅立葉轉換等方式將特徵圖轉換至頻率域,並在頻譜中學習特徵,以及運用注意機制讓模型學習、強調局部特定區域,和利用循環神經網路學習幀和幀之間的不一致性。但過往研究往往忽略模型追求的目標是具備高度泛化能力,畢竟將來人類面臨到的造假影片不會是模型訓練時所見過的,也必然隨著深度生成技術演進產生更難辨別的影片,此時模型能否精準偵測便是考驗演算法泛化能力的時候。 因此本研究結合卷積神經網路抽取空間域特徵,離散餘弦轉換後的頻譜抽 取頻率域特徵,以及利用注意機制學習、強調竄改區域,和運用 GRU 架構抽 取前面學習到的特徵再加以學習時序性特徵,辨別真偽。此外還設計兩種損失 函數實驗,Focal Loss 和 Cross-Entropy Loss 追求最好的模型泛化能力。實驗證 實,我們的模型架構能在沒有預訓練的情況下,在 Celeb-DF 資料集達到當今最 佳的泛化結果,並在其他資料集也展現顯著的泛化能力。