深度視覺語義嵌入模型於生成式多標籤零樣本學習
No Thumbnail Available
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
零樣本學習是指分類器不只能識別在訓練階段已經看過的物件,甚至能識別未曾看過的物件,而在多標籤零樣本學習中,每個實例中可能出現不只一個物件,這使得識別任務變得更加困難。 過去的方法常利用標籤的屬性嵌入(attributes embedding)及影像抽取出的視覺特徵(visual feature),投影到同一空間中,藉此尋找與影像特徵最接近的標籤,或是利用知識圖譜、知識庫建構標籤之間的關係,根據此關係來幫助辨識標籤。然而在資料集欠缺屬性嵌入時,常用於替代的語義嵌入(word mbedding)並不像屬性嵌入一樣具有良好的辨識力,而建構關係的方法,也容易太過信任知識庫,便將關係強加上去,忽略了影像本身包含的資訊。近年來由於生成對抗網路(Generative Adversarial Network)的興起,對於未知類別,先從已知類別學習影像特徵的表達式及對應的屬性,再由屬性標籤生成影像特徵變得更加有效率,結果也更準確。基於這項觀察,我們提出了生成對抗網路結合語義嵌入的深度學習模型,從語義嵌入生成影像特徵,以及將影像特徵轉換成分類器映射至語義嵌入空間,尋找屬於該影像的標籤。藉由影像特徵及語義嵌入互相映射來更好地預測未知類別,並根據影像特徵與分類器之間的關係,將多標籤任務轉換化成單標籤任務。
none
none
Description
Keywords
多標籤, 零樣本學習, 視覺語義嵌入模型, 生成對抗網路, Multi-Label, Zero-Shot Learning, visual semantic embedding model, GAN, generative adversarial network