資訊工程學系

Now showing 1 - 3 of 3

噪聲學習:漸進式的樣本選擇
(2023) 王景用; Wang, Jing-Yong
在人工智慧蓬勃發展的年代，深度學習技術在不同的影像辨識工作中，都取得不錯的成果，然而這些計算模型的訓練任務往往都是建立在乾淨資料集上做的實驗。然而創建一個乾淨大型資料集往往都需要龐大的標注成本，甚至在一些大型的開源資料集中也有一些人為的標記錯誤出現。為了降低建構資料集的成本以及錯誤標籤對模型的影響，噪聲學習主要研究如何在有標記錯誤的資料集中訓練出穩定可用的模型。在過去的研究中，篩選乾淨樣本的技術，如高斯混合模型或是JS散度技術，都無法準確將所有的乾淨樣本篩選出來。因此，本文從模型預測穩定度的觀點，結合過去相關研究中加入KNN演算法，利用模型預測的穩定度與樣本特徵的相似度進行多階段的篩選。參考近期論文的設計，在雙模型架構設計下，我們發現在訓練前期KNN模型的預測能力比雙模型的預測能力還要差。為了有效利用雙模型的預測結果和KNN模型，我們用模型預測穩定度的指標，漸進式的使用KNN模型，幫助我們過濾出乾淨標籤以及噪聲樣本。實驗結果可以看到我們的方法在不同的噪聲類型、不同的噪聲率下都能有不錯的表現，證明我們方法的有效性。
利用樣本重組的半監督學習之場景文字偵測
(2022) 葉家福; Yeh, Chia-Fu
隨著科技的發展與進步，生活周遭所帶來的資訊越來越重要。在任何一個場景中，周遭的文字訊息都跟周圍的環境有著極高的相關性。若我們能自動偵測場景中的文字，以利後續的資料收集與分析，勢必能為生活帶來更多的方便性。場景文字偵測這項研究中，相關研究大多以英文為主。雖有少數工作研究簡體中文，但繁體中文幾乎沒有。而場景文字偵測為一般物件偵測中的一個特定應用，所以我們提出基於物件偵測的方法，應用在場景文字偵測上。而物件偵測方法大多使用監督式學習，其依賴大量的訓練樣本，但在真實世界中，標註樣本取得不易，所以聯合運用非標註樣本的半監督式學習方法，較符合真實世界的需求。本研究打造一個半監督式繁體中文場景文字偵測模型。透過交換具標註樣本的背景與文字來合成新樣本，並配合拼貼的資料增強方法，豐富訓練樣本的多樣性，實驗證明本論文提出的樣本重組能更有效地運用標註與未標註樣本。關鍵字:深度學習、物件偵測、場景文字偵測、半監督式學習。
探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究
(2019) 羅天宏; Lo, Tien-Hong
近年來鑑別式訓練(Discriminative training)的目標函數Lattice-free maximum mutual information (LF-MMI)在自動語音辨識(Automatic speech recognition, ASR)的聲學模型(Acoustic model)訓練上取得重大的突破。儘管LF-MMI在監督式環境下斬獲最好的成果，然而在半監督式環境下的研究成果仍然有限。在常見的半監督式方法─自我訓練(Self-training)中，種子模型(Seed model)常因為語料有限而效果不佳。再者，因為LF-MMI屬於鑑別式訓練之故，較易受到標記正確與否的影響。基於上述，本論文將半監督式訓練拆解成兩個問題：1)如何提升種子模型的效能，以及2)如何利用未轉寫(無人工標記)語料。針對第一個問題，我們使用兩種方法可分別對應到是否具存有額外資料的情況，其一為遷移學習(Transfer learning)，使用技術為權重遷移(Weight transfer)和多任務學習(Multitask learning)；其二為模型合併(Model combination)，使用技術為假說層級合併(Hypothesis-level combination)和音框層級合併(Frame-level combination)。針對第二個問題，基於LF-MMI目標函數，我們引入負條件熵(Negative conditional entropy, NCE)與保留更多假說空間的詞圖監督(Lattice for supervision)。在一系列於互動式會議語料(Augmented multi-party interaction, AMI)的實驗結果顯示，不論是利用領域外資料(Out-of-domain data, OOD)的遷移學習或多樣性互補的模型合併皆可提升種子模型的效能，而NCE與詞圖監督則能運用未轉寫語料降改善錯誤率(Word error rate, WER)與詞修復率(WER recovery rate, WRR)。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results