學位論文

Search Results

Now showing 1 - 2 of 2

基於對比式訓練之輕量化開放詞彙的關鍵詞辨識
(2024) 楊宥芩; Yang, You-Chin
隨著智慧裝置的普及，關鍵詞辨識技術變得越來越重要，其目標是在連續語音中識別是否存在特定的關鍵詞，這項任務極具挑戰性，因為它不僅需要準確地檢測關鍵詞，還需要有效地排除其他關鍵詞。隨著深度神經網絡的快速發展，採用深度神經網絡的關鍵詞辨識在精準度上取得了顯著進步。傳統基於深度神經網絡的關鍵詞辨識系統需要大量目標關鍵詞的語音作為訓練資料，因此只能識別固定的關鍵詞，且在訓練完成後難以替換關鍵詞。若需要替換關鍵詞，則必須重新收集目標關鍵詞的語料並重新訓練模型。本文聚焦於實作一個開放詞彙的關鍵詞辨識系統。該系統通過自注意力機制，利用語音特徵與文本嵌入向量生成有效的聯合嵌入，並藉由辨別器對聯合嵌入計算信心分數。系統依據這些信心分數來決定是否啟動系統。同時，透過對比式學習來處理在設定多個關鍵詞時，錯誤關鍵詞的信心分數過高而產生的誤報問題。在預訓練音頻編碼器時，我們除了使用包含5000類關鍵詞的語料進行分類任務訓練的預訓練音頻編碼器外，還採用了更加節省參數的音頻編碼器架構，能夠減少100K的參數，並通過500類關鍵詞進行分類任務的預訓練。本研究在識別10個未在訓練階段出現的新關鍵詞上，達到了94.08%的準確率，相較於基準方法提升了12%。
整合全局場景與局部注意的自監督多標籤分類
(2023) 陳俊彥; Chen, Chun-Yen
自監督學習在各種計算機視覺任務中取得了顯著的成果，證明了其在廣泛應用中的有效性。然而，儘管取得了這些成功，針對多標籤分類的挑戰的研究工作仍相對有限。該領域尚待深入探討，需要進一步研究以充分利用自監督學習技術進行多標籤分類任務。在這篇論文中，我們提出了一個適用於自監督多標籤分類的多層次表徵學習（GOLANG）框架，同時捕捉圖像的場景和物件資訊。我們的方法結合了全局場景和局部對齊，以捕捉圖像中不同層次的語義信息。框架的全局模組通過對輸出特徵進行平均池化來學習整個圖像，而局部對齊模組通過學習關注來消除與對象無關的干擾。通過整合兩個模組，我們的模型能從影像中有效地學習各種層次的語義信息。為了進一步提高模型提取物件-場景關係的能力，我們引入了全局和局部交換預測技術，有效捕捉圖像中各種物件和場景之間的複雜關係。GOLANG框架在自監督多標籤分類的實驗上展示了優秀的性能，凸顯了其在在多標籤影像中捕捉多個物件和場景之間錯綜複雜關係的有效性。

學位論文

Browse

Filters

Settings

Sort By

Results per page

Search Results