學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912

Browse

Search Results

Now showing 1 - 2 of 2
  • Item
    整合全局場景與局部注意的自監督多標籤分類
    (2023) 陳俊彥; Chen, Chun-Yen
    自監督學習在各種計算機視覺任務中取得了顯著的成果,證明了其在廣泛應用中的有效性。然而,儘管取得了這些成功,針對多標籤分類的挑戰的研究工作仍相對有限。該領域尚待深入探討,需要進一步研究以充分利用自監督學習技術進行多標籤分類任務。在這篇論文中,我們提出了一個適用於自監督多標籤分類的多層次表徵學習(GOLANG)框架,同時捕捉圖像的場景和物件資訊。我們的方法結合了全局場景和局部對齊,以捕捉圖像中不同層次的語義信息。框架的全局模組通過對輸出特徵進行平均池化來學習整個圖像,而局部對齊模組通過學習關注來消除與對象無關的干擾。通過整合兩個模組,我們的模型能從影像中有效地學習各種層次的語義信息。為了進一步提高模型提取物件-場景關係的能力,我們引入了全局和局部交換預測技術,有效捕捉圖像中各種物件和場景之間的複雜關係。GOLANG框架在自監督多標籤分類的實驗上展示了優秀的性能,凸顯了其在在多標籤影像中捕捉多個物件和場景之間錯綜複雜關係的有效性。
  • Item
    利用視覺Transformer之多標籤深度視覺語義嵌入模型
    (2021) 來毓庭; Lai, Yu-Ting
    多標籤影像分類是一項具挑戰性的工作,目標是同時找出不同大小的物件並且辨識正確的標籤。然而,常見的做法是使用整張影像抽取特徵,較小物體的資訊可能會因此被稀釋,或是成為雜訊,造成辨識困難。在先前的研究裡顯示,使用關注機制和標籤關係能各自增進特徵擷取和共生關係,以取得更強健的資訊,幫助多標籤分類任務。在本工作中,我們使用Transformer之架構,將視覺區域特徵關注至全域特徵,同時考慮標籤之間的共生關係,最後將加權後之新特徵產生出一動態的語義分類器,在語義空間內分類得出預測標籤。在實驗中,顯示我們的模型可達到很好的成效。