學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
2 results
Search Results
Item 遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究(2012) 黃邦烜; Bang-Xuan Huang語言模型藉由大量的文字訓練後,可以捕捉自然語言的規律性,並根據歷史詞序列來區辨出下一個詞應該為何,因此在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演著不可或缺的角色。傳統統計式N連(N-gram)語言模型是常見的語言模型,它基於已知的前N-1個詞來預測下一個詞出現的可能性。當N小時,缺乏了長距離的資訊;而N大時,會因訓練語料不足產生資料稀疏之問題。近年來,由於類神經網路(Neural Networks)的興起,許多相關研究應運而生,類神經網路語言模型即是一例。令人感興趣的是,類神經網路語言模型能夠解決資料稀疏的問題,它透過將詞序列映射至連續空間來估測下一個詞出現的機率,因此在訓練語料中不會遇到未曾出現過的詞序列組合。除了傳統前饋式類神經網路語言模型外,近來也有學者使用遞迴式類神經網路來建構語言模型,其希望使用遞迴的方式將歷史資訊儲存起來,進而獲得長距離的資訊。 本論文研究遞迴式類神經網路語言模型於中文大詞彙連續語音辨識之使用,探索額外使用關聯資訊以更有效地捕捉長距離資訊,並根據語句的特性動態地調整語言模型。實驗結果顯示,使用關聯資訊於遞迴式類神經網路語言模型能對於大詞彙連續語音辨識的效能有相當程度的提昇。Item 語言模型調適使用語者用詞特徵於會議語音辨識之研究(2018) 陳映文; Chen, Ying-Wen在會議中,如何翔實地記錄交談內容是一項很重要的工作;藉由閱讀會議記錄,可以讓未參與的人員了解會議內容。同時,也因為語音被轉寫為文字,可以使會議內容的檢索更為精準。然而,人工會議紀錄往往費力耗時;因此,使用自動語音辨識技術完成會議交談內容的轉寫,能夠節省許多時間與人力的投入。但是會議語料庫和其它一般常見的語料如新聞報導之間存在很大差異;會議語料庫通常包含不常見的單詞、短句、混合語言使用和個人口語習慣。 有鑑於此,本論文試圖解決會議語音辨識時語者間用語特性不同所造成的問題。多個語者的存在可能代表有多種的語言模式;更進一步地說,人們在講話時並沒有嚴格遵循語法,而且通常會有說話延遲、停頓或個人慣用語以及其它獨特的說話方式。但是,過去會議語音辨識中的語言模型大都不會針對不同的語者進行調整,而是假設不同的語者間擁有相同的語言模式,於是將包含多個語者的文字轉寫合成一個訓練集,藉此訓練單一的語言模型。為突破此假設,本研究希望根據不同語者為語言模型的訓練和預測提供額外的信息,即是語言模型的語者調適。本文考慮兩種測試階段的情境──「已知語者」和「未知語者」,並提出了對應此兩種情境的語者特徵擷取方法,以及探討如何利用語者特徵來輔助語言模型的訓練。 在中文和英文會議語音辨識任務上的一系列語言模型的語者調適實驗顯示,我們所提出的語言模型無論是在已知語者還是未知語者情境下都有良好的表現,並且比現有的先進技術方法有較佳的效能。