資訊工程學系

Now showing 1 - 2 of 2

語言模型調適使用語者用詞特徵於會議語音辨識之研究
(2018) 陳映文; Chen, Ying-Wen
在會議中，如何翔實地記錄交談內容是一項很重要的工作；藉由閱讀會議記錄，可以讓未參與的人員了解會議內容。同時，也因為語音被轉寫為文字，可以使會議內容的檢索更為精準。然而，人工會議紀錄往往費力耗時；因此，使用自動語音辨識技術完成會議交談內容的轉寫，能夠節省許多時間與人力的投入。但是會議語料庫和其它一般常見的語料如新聞報導之間存在很大差異；會議語料庫通常包含不常見的單詞、短句、混合語言使用和個人口語習慣。有鑑於此，本論文試圖解決會議語音辨識時語者間用語特性不同所造成的問題。多個語者的存在可能代表有多種的語言模式；更進一步地說，人們在講話時並沒有嚴格遵循語法，而且通常會有說話延遲、停頓或個人慣用語以及其它獨特的說話方式。但是，過去會議語音辨識中的語言模型大都不會針對不同的語者進行調整，而是假設不同的語者間擁有相同的語言模式，於是將包含多個語者的文字轉寫合成一個訓練集，藉此訓練單一的語言模型。為突破此假設，本研究希望根據不同語者為語言模型的訓練和預測提供額外的信息，即是語言模型的語者調適。本文考慮兩種測試階段的情境──「已知語者」和「未知語者」，並提出了對應此兩種情境的語者特徵擷取方法，以及探討如何利用語者特徵來輔助語言模型的訓練。在中文和英文會議語音辨識任務上的一系列語言模型的語者調適實驗顯示，我們所提出的語言模型無論是在已知語者還是未知語者情境下都有良好的表現，並且比現有的先進技術方法有較佳的效能。
改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究
(2016) 楊明翰; Yang, Ming-Han
本論文旨在研究如何融合多任務學習(multi-task learning, MTL)與整體學習(ensemble learning)技術於聲學模型之參數估測，藉以改善會議語音辨識(meeting speech recognition)之準確性。我們的貢獻主要有三點：1)我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外，我們還研究多任務與不同聲學模型像是深層類神經網路(deep neural networks, DNN)聲學模型及摺積神經網路(convolutional neural networks, CNN)結合的協同效應，期望增加聲學模型建模之一般化能力(generalization capability)。2)由於訓練多任務聲學模型的過程中，調整不同輔助任務之貢獻(權重)的方式並不是最佳的，因此我們提出了重新調適法，以減輕這個問題。3)我們對整體學習技術進行研究，有系統地整合多任務學習所培訓的各種聲學模型(weak learner)。我們基於歐盟所錄製的擴增多方互動會議語料(augmented multi-party interaction, AMI)及在台灣所收錄的華語會議語料庫(Mandarin meeting recording corpus, MMRC)建立了一系列的實驗。與數種現有的基礎實驗相比，實驗結果揭示了我們所提出的方法之有效性。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results