學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
12 results
Search Results
Item 多口音英語語音辨識(2024) 鄭皓天; Cheng, Hao-Tien隨著全球化的趨勢,英語作為國際通用語言的角色日益重要。然而,由於母語背景、地區和文化差異的影響,英語口音的多樣性也相應增加。這使得語音辨識系統在識別各種口音的英語時面臨著挑戰。本論文探討針對在有限口音語料的狀況下如何通過增加口音鑑別力來改進Conformer模型對於多口音英語語音的辨識效果。本論文提出了一種方法將口音分類任務加入語音辨識模型中,旨在提高模型對於不同口音的敏感性和鑑別能力。實驗結果顯示,與傳統的語音辨識方法相比,此方法在口音英語語音辨識的詞錯率有下降,並且也將模型編碼器中不同層的口音特徵視覺化來進行分析,探討模型在不同層的特徵所代表的訊息。另外,本論也探討了利用大量資料訓練的Whisper模型在英語版、多語言版本以及不同模型大小的設定下對於多口音英語語音辨識任務的效果,也比較了使用LoRA的方式來訓練模型與全面微調方式的差異,為模型的選擇提供了一個更明確的參考。Item 端到端情境化語音辨識技術之研究(2024) 王詣承; Wang, Yi-Cheng在智慧家居設備和手機智慧助理的普及,語音互動技術已成為日常生活中不可或缺的一部分。端到端(E2E)神經網路模型的進步顯著提升了自動語音辨識(ASR)模型的表現,這些模型在多項基準測試中均超越了傳統的混合模型。然而,E2E ASR 模型在辨識特定領域的詞彙(例如聯絡人名和地名)時仍面臨挑戰,這種挑戰在下游應用如自然語言理解中顯得尤為重要。本研究旨在通過增強上下文語境的 ASR 模型,來應對這些模型在真實世界場景中效能下降的問題。 我們的研究首先深入分析了當前先進的 E2E ASR 模型在辨識錯誤方面的局限性,識別出主要問題,包括先驗知識不足和捕捉上下文資訊的能力不足。為解決這些問題,我們提出了 XPhoneAdapter 模型,這是一種結合了新型自監督音素編碼器 XPhoneBERT 的方法,能提供更豐富的音素感知特徵。此外,我們還針對上下文/非上下文不平衡和長尾分佈問題提出了解決辦法,並引入了 Q-HNW 方法進行硬負樣本訓練,以提升模型的穩定性。 研究結果顯示,結合精細的音素感知自監督特徵與增強的硬負樣本訓練,可以在 Librispeech 資料集上實現高達 18% 的相對詞錯誤率(WER)降低和 35% 的罕見詞錯誤率(C-WER)相對改善。此外,在 AISHELL-1 基準資料集上的實驗進一步證明了我們所提出方法的有效性,展示了顯著的效能提升。本論文的主要貢獻包括以下幾點: 1) 對先進 E2E ASR 模型的辨識錯誤進行了詳細分析,找出了訓練和測試環境中詞彙分佈不匹配的關鍵因素。 2) 突出了阻礙 ASR 模型通用化的兩大主要因素:先驗知識不足和捕捉上下文資訊的能力不足。 3) 提出了 XPhoneAdapter 模型,該模型引入了新型自監督音素編碼器 XPhoneBERT,以提供更豐富的音素感知特徵。 4) 針對上下文/非上下文不平衡和長尾分佈問題,提出了上下文平衡適應方法,以改善低頻上下文詞彙的模型表現。 5) 引入了 Q-HNW 方法進行負樣本訓練,以增強模型在挑戰性辨識場景中的穩定性。Item 探究有效偵測及修正語音辨識錯誤技術之研究(2020) 吳佳樺; Wu, Chia-Hua本論文著重在研究語音辨識錯誤相關的幾個重要面向,尤其是當一般的語音辨識系統應用於特殊領域下所產生的未知詞問題。為此目的,我們提出一個兩階段的方法,包括了語音錯誤偵測和錯誤內容修補。在錯誤偵測階段,我們嘗試比較多種序列標記方法去偵測不同型態的錯誤。更進一步,在錯誤修正階段,藉由上一階段所偵測的結果作為依據,利用音素比對方法以特殊領域的關鍵詞表來修正錯誤。在四種應用領域,包括教育議題、工業技術相關訪談、語音記事及會議錄音,所進行的一系列實驗。由實驗結果顯示,我們提出的方法可以使得一般語音辨識系統在上述應用領域中有某種程度上的提升。Item 探索虛擬關聯回饋技術和鄰近資訊於語音文件檢索與辨識之改進(2013) 陳憶文虛擬文件檢索(Pseudo-Relevance Feedback)為目前最常見的查詢重建(Query Reformulation)典範。它假設預檢索(Initial-round of Retrieval)排名前端的文件都是相關的,所以可全用於查詢擴展(Query Expansion)。然而,預檢索所獲得的文件中,極可能同時包含重複性資訊(Redundant)和非關聯(Non-relevant)資訊,使得重新建立的查詢不能有良好檢索效能。有鑑於此,本論文探討運用不同資訊以在預檢索獲得的語音文件中挑選適當的關聯文件來建立查詢表示,讓語音文件檢索結果可以更準確。另一方面,關聯模型(Relevance Model )雖然可藉由詞袋(Bag-of-words)假設來簡化模型推導和估測,卻可能因此過度簡化問題,特別是用於語音辨識的語言模型。為了調適關聯模型,本論文有兩個貢獻。其一,本論文提出詞鄰近資訊使用於關聯模型以改善詞袋(Bag-of-words)假設於語音辨識的不適。其二,本論文也進一步探討主題鄰近資訊以強化鄰近關聯模型的架構。實驗結果證明本論文所提出之方法,不論在語音文件檢索還是語音辨識方面皆可有效改善現有方法的效能。Item 遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究(2012) 黃邦烜; Bang-Xuan Huang語言模型藉由大量的文字訓練後,可以捕捉自然語言的規律性,並根據歷史詞序列來區辨出下一個詞應該為何,因此在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演著不可或缺的角色。傳統統計式N連(N-gram)語言模型是常見的語言模型,它基於已知的前N-1個詞來預測下一個詞出現的可能性。當N小時,缺乏了長距離的資訊;而N大時,會因訓練語料不足產生資料稀疏之問題。近年來,由於類神經網路(Neural Networks)的興起,許多相關研究應運而生,類神經網路語言模型即是一例。令人感興趣的是,類神經網路語言模型能夠解決資料稀疏的問題,它透過將詞序列映射至連續空間來估測下一個詞出現的機率,因此在訓練語料中不會遇到未曾出現過的詞序列組合。除了傳統前饋式類神經網路語言模型外,近來也有學者使用遞迴式類神經網路來建構語言模型,其希望使用遞迴的方式將歷史資訊儲存起來,進而獲得長距離的資訊。 本論文研究遞迴式類神經網路語言模型於中文大詞彙連續語音辨識之使用,探索額外使用關聯資訊以更有效地捕捉長距離資訊,並根據語句的特性動態地調整語言模型。實驗結果顯示,使用關聯資訊於遞迴式類神經網路語言模型能對於大詞彙連續語音辨識的效能有相當程度的提昇。Item 基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識(2009) 李鴻欣; Hung-Shin Lee線性鑑別分析(linear discriminant analysis, LDA)的目標在於尋找一個線性轉換,能將原始資料投射到較低維度的特徵空間,同時又能保留類別間的幾何分離度(geometric separability)。然而,LDA並不能總是保證在分類過程中產生較高的分類正確率。其中一個可能的原因在於LDA的目標函式並非直接與分類錯誤率連接,因此它也就未必適合在某特定分類器控制下的分類規則,自動語音辨識(automatic speech recognition, ASR)就是一個很好的例子。在本篇論文中,我們藉著探索每一對容易混淆之音素類別間的經驗分類錯誤率(empirical classification error rate)與馬氏距離(Mahalanobis distance)的關係,擴展了傳統的LDA,並且將原來的類別間散佈矩陣(between-class scatter),從每一對類別間的歐式距離(Euclidean distance)估算,修改為它們的成對經驗分類正確率。這個新方法不僅保留了原本LDA就具有的輕省可解性,同時無須預設資料是為何種機率分佈。 另一方面,我們更進一步提出一種嶄新的線性鑑別式特徵擷取方法,稱之為普遍化相似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利用相似度比率檢驗(likelihood ratio test)的概念尋求一個較低維度的特徵空間。GLRDA不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩陣可被彈性地視為相異;並且在分類上,能藉由最小化類別間最混淆之情況(由虛無假設(null hypothesis)所描述)的發生機率,而求得有助於分類效果提升的較低維度特徵子空間。同時,我們也證明了LDA與異方差性線性鑑別分析(heteroscedastic linear discriminant analysis, HLDA)可被視為GLRDA的兩種特例。再者,為了增進語音特徵的強健性,GLRDA更可進一步地與辨識器所提供的經驗混淆資訊結合。 實驗結果顯示,在中文大詞彙連續語音辨識系統中,我們提出的方法都比LDA或其它現有的改進方法,如HLDA等,有較佳的表現。Item 使用機器學習方法於語音文件檢索之研究(2009) 游斯涵本論文初步地討論機器學習之方法在資訊檢索上的應用,即所謂排序學習(Learning to Rank);並針對近年被使用在資訊檢索上的各種機器學習模型及概念,以及所使用的各種特徵,包含詞彙本身之特徵、相近度特徵、及機率特徵等進行分析與實驗。除此之外,本論文亦將之延伸至語音文件檢索的應用上。本論文初步地使用TDT(Topic Detection and Tracking)中文語料部份作為實驗題材,此語料為過去TREC(文件檢索暨評測會議)上公開評估語音文件檢索系統的標準語料(Benchmark)之一,此語料包含TDT-2及TDT-3兩套語料,提供了大量的新聞語料,及豐富的主題、轉寫等標註,以作為語音文件檢索相關研究使用。為了更有效地開發富含資訊的語音文件特徵,本論文亦使用臺師大大陸口音中文大詞彙連續語音辨識器(Large Vocabulary Speech Recognition, LVCSR)作為語音文件轉寫平台,產生的詞圖(Word Graph),作為擷取語音文件獨特特徵的主要依據。此外,我們並考慮到資訊檢索中之訓練語料不平衡問題,並提出解決此問題之對策。最後,初步的實驗結果顯示,成對式訓練方法RankNet之訓練模型檢索成效較逐點式訓練方法SVM之訓練模型檢索成效為佳。Item 利用主題與位置相關語言模型於中文連續語音辨識(2007) 邱炫盛; Hsuan-Sheng Chiu本論文探討語言模型於中文連續語音辨識。首先,詞主題混合模型(Word Topical Mixture Model, WTMM)被提出,用來探索詞與詞之間的關係,在語言模型調適中,此關係可當作是長距離的潛藏語意資訊。在語音辨識過程中,歷史詞序列可被建立成一個複合式詞主題混合模型,並用來預測新的辨識詞。此外,位置相關語言模型(Position-Dependent Language Model)亦被提出,使用詞在文件或語句的位置資訊輔助估測詞發生的可能性,並與N連詞模型及潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)模型所提供的資訊作整合。最後,針對摘錄式摘要,我們也發展一個機率式句排名架構,其中的語句事前機率透過能夠緊密整合語句資訊的整句最大熵值(Whole Sentence Maximum Entropy, WSME)模型估測。這些資訊從語句中擷取,並可作為語音文件中重要語句的選擇依據。本論文實驗於收集自台灣的中文廣播新聞。語音辨識結果顯示,詞主題混合模型與位置相關語言模型能夠提升大詞彙連續語音辨識系統的效果。此外,語音文件摘要結果也顯示,透過整句最大熵值法整合語句層次資訊能夠提升摘要正確率。Item 運用鄰近與概念資訊於語言模型調適之研究(2014) 郝柏翰本論文研究語言模型調適技術用於中文大詞彙連續語音辨識,其主要貢獻有兩個部分:第一部分探討主題模型(Topic Models)之延伸與改進,除了希望能放寬詞袋假設的限制之外,更藉由融入鄰近資訊(Proximity Information)期望使主題模型有更好的預測效能;第二部分提出概念模型(Concept Language Model, CLM),其主要目的為近似使用者心中所想之概念,並藉此觀察較為相關之用詞;同時,本論文更嘗試以不同方式來估測概念模型。本論文實驗以字錯誤率(Character Error Rate, CER)與語言複雜度(Perplexity)為評估依據;結果顯示本論文所提出方法對辨識效能之提升有明顯的幫助。Item 使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適(2015) 陳思澄; Chen, Ssu-Cheng近年來深度學習(Deep Learning)激起一股研究熱潮;隨著深度學習的發展而有分散式表示法(Distributed Representation)的產生。此種表示方式不僅能以較低維度的向量表示詞彙,還能藉由向量間的運算,找出任兩詞彙之間的語意關係。本論文以此為發想,提出將分散式表示法,或更具體來說是詞向量表示(Word Representation),應用於語音辨識的語言模型中使用。首先,在語音辨識的過程中,對於動態產生之歷史詞序列與候選詞改以詞向量表示的方式來建立其對應的語言模型,希望透過此種表示方式而能獲取到更多詞彙間的語意資訊。其次,我們針對新近被提出的概念語言模型(Concept Language Model)加以改進;嘗試在調適語料中以句子的層次做模型訓練資料選取之依據,去掉多餘且不相關的資訊,使得經由調適語料中訓練出的概念類別更為具代表性,而能幫助動態語言模型調適。另一方面,在語音辨識過程中,會選擇相關的概念類別來動態組成概念語言模型,而此是透過詞向量表示的方式來估算,其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成,希望藉由詞向量表示記錄每一個概念類別內詞彙彼此間的語意關係。最後,我們嘗試將上述兩種語言模型調適方法做結合。本論文是基於公視電視新聞語料庫來進行大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)實驗,實驗結果顯示本論文所提出的語言模型調適方法相較於當今最好方法有較佳的效用。