學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
7 results
Search Results
Item 多口音英語語音辨識(2024) 鄭皓天; Cheng, Hao-Tien隨著全球化的趨勢,英語作為國際通用語言的角色日益重要。然而,由於母語背景、地區和文化差異的影響,英語口音的多樣性也相應增加。這使得語音辨識系統在識別各種口音的英語時面臨著挑戰。本論文探討針對在有限口音語料的狀況下如何通過增加口音鑑別力來改進Conformer模型對於多口音英語語音的辨識效果。本論文提出了一種方法將口音分類任務加入語音辨識模型中,旨在提高模型對於不同口音的敏感性和鑑別能力。實驗結果顯示,與傳統的語音辨識方法相比,此方法在口音英語語音辨識的詞錯率有下降,並且也將模型編碼器中不同層的口音特徵視覺化來進行分析,探討模型在不同層的特徵所代表的訊息。另外,本論也探討了利用大量資料訓練的Whisper模型在英語版、多語言版本以及不同模型大小的設定下對於多口音英語語音辨識任務的效果,也比較了使用LoRA的方式來訓練模型與全面微調方式的差異,為模型的選擇提供了一個更明確的參考。Item 探究有效偵測及修正語音辨識錯誤技術之研究(2020) 吳佳樺; Wu, Chia-Hua本論文著重在研究語音辨識錯誤相關的幾個重要面向,尤其是當一般的語音辨識系統應用於特殊領域下所產生的未知詞問題。為此目的,我們提出一個兩階段的方法,包括了語音錯誤偵測和錯誤內容修補。在錯誤偵測階段,我們嘗試比較多種序列標記方法去偵測不同型態的錯誤。更進一步,在錯誤修正階段,藉由上一階段所偵測的結果作為依據,利用音素比對方法以特殊領域的關鍵詞表來修正錯誤。在四種應用領域,包括教育議題、工業技術相關訪談、語音記事及會議錄音,所進行的一系列實驗。由實驗結果顯示,我們提出的方法可以使得一般語音辨識系統在上述應用領域中有某種程度上的提升。Item 探索虛擬關聯回饋技術和鄰近資訊於語音文件檢索與辨識之改進(2013) 陳憶文虛擬文件檢索(Pseudo-Relevance Feedback)為目前最常見的查詢重建(Query Reformulation)典範。它假設預檢索(Initial-round of Retrieval)排名前端的文件都是相關的,所以可全用於查詢擴展(Query Expansion)。然而,預檢索所獲得的文件中,極可能同時包含重複性資訊(Redundant)和非關聯(Non-relevant)資訊,使得重新建立的查詢不能有良好檢索效能。有鑑於此,本論文探討運用不同資訊以在預檢索獲得的語音文件中挑選適當的關聯文件來建立查詢表示,讓語音文件檢索結果可以更準確。另一方面,關聯模型(Relevance Model )雖然可藉由詞袋(Bag-of-words)假設來簡化模型推導和估測,卻可能因此過度簡化問題,特別是用於語音辨識的語言模型。為了調適關聯模型,本論文有兩個貢獻。其一,本論文提出詞鄰近資訊使用於關聯模型以改善詞袋(Bag-of-words)假設於語音辨識的不適。其二,本論文也進一步探討主題鄰近資訊以強化鄰近關聯模型的架構。實驗結果證明本論文所提出之方法,不論在語音文件檢索還是語音辨識方面皆可有效改善現有方法的效能。Item 使用機器學習方法於語音文件檢索之研究(2009) 游斯涵本論文初步地討論機器學習之方法在資訊檢索上的應用,即所謂排序學習(Learning to Rank);並針對近年被使用在資訊檢索上的各種機器學習模型及概念,以及所使用的各種特徵,包含詞彙本身之特徵、相近度特徵、及機率特徵等進行分析與實驗。除此之外,本論文亦將之延伸至語音文件檢索的應用上。本論文初步地使用TDT(Topic Detection and Tracking)中文語料部份作為實驗題材,此語料為過去TREC(文件檢索暨評測會議)上公開評估語音文件檢索系統的標準語料(Benchmark)之一,此語料包含TDT-2及TDT-3兩套語料,提供了大量的新聞語料,及豐富的主題、轉寫等標註,以作為語音文件檢索相關研究使用。為了更有效地開發富含資訊的語音文件特徵,本論文亦使用臺師大大陸口音中文大詞彙連續語音辨識器(Large Vocabulary Speech Recognition, LVCSR)作為語音文件轉寫平台,產生的詞圖(Word Graph),作為擷取語音文件獨特特徵的主要依據。此外,我們並考慮到資訊檢索中之訓練語料不平衡問題,並提出解決此問題之對策。最後,初步的實驗結果顯示,成對式訓練方法RankNet之訓練模型檢索成效較逐點式訓練方法SVM之訓練模型檢索成效為佳。Item 資料選取方法於鑑別式聲學模型訓練之研究(2008) 朱芳輝; Fang-Hui, Chu本論文旨在研究使用各種訓練資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練,並應用於中文大詞彙連續語音辨識。首先,我們汲取Boosting演算法中強調被錯誤分類的訓練樣本之精神,修改最小化音素錯誤訓練中每一句訓練語句之統計值權重,以提高易傾向於被辨識錯誤的語句對於聲學模型訓練之貢獻。同時,我們透過多種方式來結合在不同訓練資料選取機制下所訓練出的多個聲學模型,進而降低語音辨識錯誤率。其次,我們亦提出一個基於訓練語句詞圖之期望音素正確率(Expected Phone Accuracy)定義域上的訓練資料選取方法,分別藉由在語句與音素段落兩種不同單位上的訓練資料選取,以提供最小化音素錯誤訓練更具鑑別資訊的訓練樣本。再者,我們嘗試結合本論文所提出的訓練資料選取方法及前人所提出以正規化熵值為基礎之音框層次訓練資料選取方法、以及音框音素正確率函數,冀以提升最小化音素錯誤訓練之成效。最後,本論文以公視新聞語料作為實驗平台,實驗結果初步驗證了本論文所提出方法之可行性。Item 利用主題與位置相關語言模型於中文連續語音辨識(2007) 邱炫盛; Hsuan-Sheng Chiu本論文探討語言模型於中文連續語音辨識。首先,詞主題混合模型(Word Topical Mixture Model, WTMM)被提出,用來探索詞與詞之間的關係,在語言模型調適中,此關係可當作是長距離的潛藏語意資訊。在語音辨識過程中,歷史詞序列可被建立成一個複合式詞主題混合模型,並用來預測新的辨識詞。此外,位置相關語言模型(Position-Dependent Language Model)亦被提出,使用詞在文件或語句的位置資訊輔助估測詞發生的可能性,並與N連詞模型及潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)模型所提供的資訊作整合。最後,針對摘錄式摘要,我們也發展一個機率式句排名架構,其中的語句事前機率透過能夠緊密整合語句資訊的整句最大熵值(Whole Sentence Maximum Entropy, WSME)模型估測。這些資訊從語句中擷取,並可作為語音文件中重要語句的選擇依據。本論文實驗於收集自台灣的中文廣播新聞。語音辨識結果顯示,詞主題混合模型與位置相關語言模型能夠提升大詞彙連續語音辨識系統的效果。此外,語音文件摘要結果也顯示,透過整句最大熵值法整合語句層次資訊能夠提升摘要正確率。Item 英文初學者發音自動評分之研究(2015) 賴子婷; Lai, Tzu-Ting電腦輔助發音訓練(Computer Assisted Pronunciation Training,CAPT)是常用的一種語言學習方式,可以針對初學者的英文發音提供回饋讓初學者可以反覆的練習。本研究利用語音辨識以及字串相似度比對的技術,建置一個適合初學者英文發音的辨識模型用以輔助初學者發音練習。 本研究包含兩部分,第一部分為建置語音辨識模型,使用本研究自行錄製的JTES語料庫建置初始模型,再挑選JTJS中較優初學者的語音進行模型調適,作為整體的語音辨識模型;第二部分為評估是採用字串比對方式藉由本研究所提出的Levenshtein Distance-Like作為相似度計算且藉由cubic polynomial fit找到四個等級(好、尚可、待加強、重錄)的門檻值。 實驗結果呈現,當分成四個等級時人工評分與系統評分的正確率為75%,代表系統有一定的準確率,透過皮爾森係數得知人工評分與系統評分的相關性為0.71,呈現人工評分與系統評分是具有相關的,因此系統給予的回饋對於初學者是有一定的可信度,可以藉由此來提升口說技能。