學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912

Browse

Search Results

Now showing 1 - 2 of 2
  • Item
    噪聲學習:漸進式的樣本選擇
    (2023) 王景用; Wang, Jing-Yong
    在人工智慧蓬勃發展的年代,深度學習技術在不同的影像辨識工作中,都取得不錯的成果,然而這些計算模型的訓練任務往往都是建立在乾淨資料集上做的實驗。然而創建一個乾淨大型資料集往往都需要龐大的標注成本,甚至在一些大型的開源資料集中也有一些人為的標記錯誤出現。為了降低建構資料集的成本以及錯誤標籤對模型的影響,噪聲學習主要研究如何在有標記錯誤的資料集中訓練出穩定可用的模型。在過去的研究中,篩選乾淨樣本的技術,如高斯混合模型或是JS散度技術,都無法準確將所有的乾淨樣本篩選出來。因此,本文從模型預測穩定度的觀點,結合過去相關研究中加入KNN演算法,利用模型預測的穩定度與樣本特徵的相似度進行多階段的篩選。參考近期論文的設計,在雙模型架構設計下,我們發現在訓練前期KNN模型的預測能力比雙模型的預測能力還要差。為了有效利用雙模型的預測結果和KNN模型,我們用模型預測穩定度的指標,漸進式的使用KNN模型,幫助我們過濾出乾淨標籤以及噪聲樣本。實驗結果可以看到我們的方法在不同的噪聲類型、不同的噪聲率下都能有不錯的表現,證明我們方法的有效性。
  • Item
    探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究
    (2019) 羅天宏; Lo, Tien-Hong
    近年來鑑別式訓練(Discriminative training)的目標函數Lattice-free maximum mutual information (LF-MMI)在自動語音辨識(Automatic speech recognition, ASR)的聲學模型(Acoustic model)訓練上取得重大的突破。儘管LF-MMI在監督式環境下斬獲最好的成果,然而在半監督式環境下的研究成果仍然有限。在常見的半監督式方法─自我訓練(Self-training)中,種子模型(Seed model)常因為語料有限而效果不佳。再者,因為LF-MMI屬於鑑別式訓練之故,較易受到標記正確與否的影響。基於上述,本論文將半監督式訓練拆解成兩個問題:1)如何提升種子模型的效能,以及2)如何利用未轉寫(無人工標記)語料。針對第一個問題,我們使用兩種方法可分別對應到是否具存有額外資料的情況,其一為遷移學習(Transfer learning),使用技術為權重遷移(Weight transfer)和多任務學習(Multitask learning);其二為模型合併(Model combination),使用技術為假說層級合併(Hypothesis-level combination)和音框層級合併(Frame-level combination)。針對第二個問題,基於LF-MMI目標函數,我們引入負條件熵(Negative conditional entropy, NCE)與保留更多假說空間的詞圖監督(Lattice for supervision)。在一系列於互動式會議語料(Augmented multi-party interaction, AMI)的實驗結果顯示,不論是利用領域外資料(Out-of-domain data, OOD)的遷移學習或多樣性互補的模型合併皆可提升種子模型的效能,而NCE與詞圖監督則能運用未轉寫語料降改善錯誤率(Word error rate, WER)與詞修復率(WER recovery rate, WRR)。