學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
2 results
Search Results
Item 應用時間結構資訊之分佈式語音特徵參數正規化技術於強健性語音辨識之研究(2013) 高予真; Yu-chen Kao近年來,在強健性語音辨識的領域中,統計圖等化法(histogram equalization, HEQ)由於其簡單又擁有優良效能的特性,已成為一個十分熱門的研究課題。在本論文中,我們提出兩種優化的統計圖等化法的技術:分別是利用多項式迴歸改進在調變頻譜(modulation spectrum)上統計圖等化法的效能,以及利用空間與時間的前後文資訊打破傳統作用在梅爾倒頻譜係數特徵的統計圖等化法之假設。這些方法有兩個主要的特色:其一是利用高次方的多項式進行語音特徵的正規化,並加入時間與空間(不同維度)上的前後文資訊,打破傳統統計圖等化法假設時間與空間分別獨立的狀況;其二是將時間上的差分資訊引入語音特徵的正規化中,此舉能更巧妙運用前後文資訊,並對語音辨識的效能有一定的提升。本論文使用Aurora-2語料庫來進行驗證不同強健性語音特徵擷取技術在小詞彙語音辨識任務之效能,並在Aurora-4語料庫來進一步驗證不同強健性語音特徵擷取技術在大詞彙語音辨識任務之效能;而這些試驗的結果證實了本論文所提出兩種優化的統計圖等化法的技術,可以有效降低語音辨識的詞錯誤率,並且對其它進階的特徵(如ETSI advanced front end, AFE)也能產生正面的效果。Item 探索調變頻譜特徵之低維度結構應用於強健性語音辨識(2017) 顏必成; Yan, Bi-Cheng語音強健技術(Robustness)在自動化語音辨識系統(Automatic Speech Recognition, ASR)中扮演著相當重要的角色,尤其是環境的影響(Environment effect )下,更能突顯其重要性。近年來的研究指出,探索語音特徵的低維度結構(Low-dimensional Structure)有助於萃取出較具有強健性的語音特徵。有鑒於上述觀點,我們研究多種考量語音特徵固有(Intrinsic)的低維度結構,並找尋俱有特定結構的子空間以涵蓋原本高維度的語音特徵空間,以此希望能獲得較具強健性的語音特徵。 在本篇論文中,我們探索了一系列的低維度結構方法並應用在語音條變頻譜域(Modulation Spectra),希望能淬煉出強健性語音特徵。首先,我們使用基於稀疏表示(Sparse Representation)的方法來廣泛地分析高維度語音特徵,再從中去找出一冗贅(Residual)的基底(Basis)後並加以去除。接著我們提出了基於低秩表示法(Low-rank Representation)來探索語音條變頻譜的子空間結構,從而減輕噪音所造成的負面影響。最後,我們探索語音特徵調變頻譜上固有的幾何低維度流形結構(Geometric Low-dimensional Manifold Structures),希望能將帶有噪音的音訊投影到此流形結構上,以獲得更具有強健性的語音特徵。此外,為了獲得更好的語音辨識效能,我們將所提出的方法與常見的語音正規化特徵結合,其結果都有良好的表現。所有實驗都在Aurora-4數據庫和任務上進行和驗證。