資訊工程學系

Now showing 1 - 2 of 2

探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究
(2019) 羅天宏; Lo, Tien-Hong
近年來鑑別式訓練(Discriminative training)的目標函數Lattice-free maximum mutual information (LF-MMI)在自動語音辨識(Automatic speech recognition, ASR)的聲學模型(Acoustic model)訓練上取得重大的突破。儘管LF-MMI在監督式環境下斬獲最好的成果，然而在半監督式環境下的研究成果仍然有限。在常見的半監督式方法─自我訓練(Self-training)中，種子模型(Seed model)常因為語料有限而效果不佳。再者，因為LF-MMI屬於鑑別式訓練之故，較易受到標記正確與否的影響。基於上述，本論文將半監督式訓練拆解成兩個問題：1)如何提升種子模型的效能，以及2)如何利用未轉寫(無人工標記)語料。針對第一個問題，我們使用兩種方法可分別對應到是否具存有額外資料的情況，其一為遷移學習(Transfer learning)，使用技術為權重遷移(Weight transfer)和多任務學習(Multitask learning)；其二為模型合併(Model combination)，使用技術為假說層級合併(Hypothesis-level combination)和音框層級合併(Frame-level combination)。針對第二個問題，基於LF-MMI目標函數，我們引入負條件熵(Negative conditional entropy, NCE)與保留更多假說空間的詞圖監督(Lattice for supervision)。在一系列於互動式會議語料(Augmented multi-party interaction, AMI)的實驗結果顯示，不論是利用領域外資料(Out-of-domain data, OOD)的遷移學習或多樣性互補的模型合併皆可提升種子模型的效能，而NCE與詞圖監督則能運用未轉寫語料降改善錯誤率(Word error rate, WER)與詞修復率(WER recovery rate, WRR)。
改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究
(2016) 楊明翰; Yang, Ming-Han
本論文旨在研究如何融合多任務學習(multi-task learning, MTL)與整體學習(ensemble learning)技術於聲學模型之參數估測，藉以改善會議語音辨識(meeting speech recognition)之準確性。我們的貢獻主要有三點：1)我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外，我們還研究多任務與不同聲學模型像是深層類神經網路(deep neural networks, DNN)聲學模型及摺積神經網路(convolutional neural networks, CNN)結合的協同效應，期望增加聲學模型建模之一般化能力(generalization capability)。2)由於訓練多任務聲學模型的過程中，調整不同輔助任務之貢獻(權重)的方式並不是最佳的，因此我們提出了重新調適法，以減輕這個問題。3)我們對整體學習技術進行研究，有系統地整合多任務學習所培訓的各種聲學模型(weak learner)。我們基於歐盟所錄製的擴增多方互動會議語料(augmented multi-party interaction, AMI)及在台灣所收錄的華語會議語料庫(Mandarin meeting recording corpus, MMRC)建立了一系列的實驗。與數種現有的基礎實驗相比，實驗結果揭示了我們所提出的方法之有效性。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results