學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912

Browse

Search Results

Now showing 1 - 2 of 2
  • Item
    多編碼器端到端模型於英語錯誤發音檢測與診斷
    (2021) 范姜紹瑋; Fan Jiang, Shao-Wei
    隨著全球化的加速,大多數人需要學習第二語言(Second language, L2),相較之下,語言教師的人數增長卻無法跟上語言學習的需求。因此越來越多研究著重在電腦輔助發音訓練(Computer-assisted pronunciation training, CAPT),嘗試利用電腦輔助學習者做更方便且有效的學習。在 CAPT 中,最重要的模組為以自動語音辨識(Automatic speech recognition, ASR)為核心技術的錯誤發音和診斷(Mispronunciation detection and diagnosis, MD&D)。然而,現有 MD&D 模型仍面臨兩個問題:一、任務不匹配。純語音辨識任務並未充分利用提示文本(Text prompt)於訓練階段。二、口音多樣性。第二語言學習者具有特殊的發音習慣,該習慣的聲學或語言特性會導致模型效能辨識困難。基於上述兩個問題,本研究提出兩個解決方向於端對端 MD&D 模型 (End-to-end MD&D, E2E MD&D)。首先,我們使用不同細粒度(音素與字元)的文本提示進行輸入增強,使 E2E ASR 更適合 MD&D 任務。其次,我們設計兩種不同面向的口音感知模塊,提示模型口音資訊以及消除口音資訊,嘗試減輕口音多樣性於 E2E MD&D 系統的影響。實驗結果表明,在公開二語語料庫 L2-ARCTIC 上,我們提出 MD&D 模型具有明顯的優勢與有效性。
  • Item
    改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究
    (2016) 楊明翰; Yang, Ming-Han
    本論文旨在研究如何融合多任務學習(multi-task learning, MTL)與整體學習(ensemble learning)技術於聲學模型之參數估測,藉以改善會議語音辨識(meeting speech recognition)之準確性。我們的貢獻主要有三點:1)我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外,我們還研究多任務與不同聲學模型像是深層類神經網路(deep neural networks, DNN)聲學模型及摺積神經網路(convolutional neural networks, CNN)結合的協同效應,期望增加聲學模型建模之一般化能力(generalization capability)。2)由於訓練多任務聲學模型的過程中,調整不同輔助任務之貢獻(權重)的方式並不是最佳的,因此我們提出了重新調適法,以減輕這個問題。3)我們對整體學習技術進行研究,有系統地整合多任務學習所培訓的各種聲學模型(weak learner)。我們基於歐盟所錄製的擴增多方互動會議語料(augmented multi-party interaction, AMI)及在台灣所收錄的華語會議語料庫(Mandarin meeting recording corpus, MMRC)建立了一系列的實驗。與數種現有的基礎實驗相比,實驗結果揭示了我們所提出的方法之有效性。