資訊工程學系

本論文探討自然語言中詞與詞之間在各種不同條件下的共同出現關係，並推導出許多不同的語言模型來描述之，進而運用於中文大詞彙連續語音辨識。當我們想要探索語言中兩個詞彼此間的共同出現關係(Co-occurrence Relationships)，傳統的做法是由整個訓練語料中統計這兩個詞在一個固定長度的移動窗(Fixed-size Moving Window)內的共同出現頻數(Frequency)，據此以估測出兩個詞之間的聯合機率分布。有別於僅從整個訓練語料中的共同出現頻數來推測任兩個詞之間的關係，本論文嘗試分析兩個詞在不同條件下共同出現的情形，進而推導出多種描述詞與詞關係的語言模型以及其估測方式；像是在不同的主題、文件或文件群的情況下，它們是否皆經常共同出現。本論文的實驗語料收錄自台灣的中文廣播新聞，由一系列的大詞彙連續語音辨識實驗結果顯示，我們所提出的各式語言模型皆可以明顯地提昇基礎語音辨識系統的效能。

本論文初步地探討信心度評估(Confidence Measures)於中文大詞彙連續語音辨識上之研究。除了討論原本一般信心度評估應用於判斷語音辨識結果(例如候選詞)是否正確之外，也嘗試將信心度評估應用在詞圖搜尋(Word Graph Rescoring)或N-最佳詞序列(N-best List)重新排序(Reranking)的研究。而實驗語料則是使用公視新聞語料庫(MATBN)中的外場記者(Field Reporters)跟受訪者(Interviewees)語句，以分別探討信心度評估在偏朗讀語料(Read Speech)或偏即性口語(Spontaneous Speech)等兩種不同性質的語句上是否能有不同的效能。首先，本論文嘗試使用熵值(Entropy)資訊並結合以事後機率為基礎之信心度評估方法，在MATBN外場記者(Read Speech)及外場受訪者(Spontaneous Speech)測試語料所得到的最佳實驗結果，可較傳統僅使用以事後機率為基礎之信心度評估可以分別有16.37%及12.00%的信心度錯誤率相對減少(Relative Reduction)。另一方面，在以最小化音框錯誤率(Time Frame Error)搜尋法來增進詞圖搜尋的正確率之實驗中，本論文嘗試結合以梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)，以及以異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)搭配最大相似度線性轉換(Maximum Likelihood Linear Transformation, MLLT)兩種不同語音特徵參數所形成的詞圖資訊，並以最小化音框錯誤率搜尋法來降低語音辨識系統的字錯誤率，經由實驗顯示在外場記者測試語料能有4.6%的字錯誤率相對減少，而在外場受訪者測試語料的部份則有4.8%的字錯誤率相對減少，相較於僅使用異質性線性鑑別分析及最大相似度線性轉換求得語音特徵參數的詞圖並配合最小化音框錯誤率法有較佳的結果。最後，本論文嘗試在傳統以Levenshtein距離為成本函式(Cost Function)的最小化貝氏風險(Minimum Bayes Risk)辨識法則中，適當的加入以特徵為基礎的信心度評估。雖然經由實驗得知，在外場記者以及外場受訪者的語料中，對於辨識錯誤率並沒有很明顯的進步或退步，但相較於傳統利用Levenshtein距離為成本函式的最小化貝氏風險辨識法則而言，卻有較佳的結果。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results