學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890
Browse
19 results
Search Results
Item 基於圖像串接和深度學習的改良生咖啡豆分類方法(2024) 温鑫; Wen, Xin為了解決生咖啡豆在影像辨識上的分類困難並提升精確度,這篇論文提出了一種通過串接不同的影像增強技術來融合不同的特徵提取演算法,以提高對生咖啡豆的辨識準確率。為了從原始影像中獲得各種關鍵特徵,我們選用了自適應閾值、位元平面分割、黑帽運算、Canny邊緣偵測、灰階、直方圖等化、Laplacian濾波、頂帽運算與非銳化濾鏡九種常見的影像增強方法。我們提出先在原本九種影像增強算法中挑選出與基準真相相關性較高的方法,並且僅將原始影像的RGB影像平面替換成相關性較高的影像處理方法,藉著多種特徵提升模型辨識度。在這項研究中,我們使用MobileViT進行實驗,最後選擇相關性較高的處理方式作為特徵融合的素材,經過影像串接產生的影像資料集作為新的輸入重新訓練。我們將不進行任何影像增強的分類方法視為基準。在二分法中,位元平面分割、直方圖等化和非銳化濾鏡的組合達到了96.9%的準確率,相對於原始方法提高了約5.5%。如果使用去除背景的相同資料集,相同的組合可以達到了97.0%的準確率;當我們選擇三分法進行實驗時,同樣都是由位元平面分割、直方圖等化和非銳化濾鏡的組合,分別達到了96.8%以及97.4%的準確率,較原始方法提升6.7%與4.9%。最後我們使用MobileNetV3驗證研究結果,在二分法的情況下,相同的影像增強組合分別在未去除背景與去除背景的影像可以獲得最高的99.12%與99.21%的準確率,相較原始方法有0.39%與0.44%的提升;如果以三分法再次進行實驗,與原始方法比較,大約分別有0.92%以及0.79%的提升,取得了98.73%與99.25%的準確率。Item 針對空拍影像物件偵測之改良型YOLOv7演算法研究(2024) 鍾宜修; Chung, Yi-Hsiu近幾年無人機的技術發展迅速,飛行距離越來越遠、體積也不斷縮小,甚至能自動飛行,因此能應用的範圍也越來越廣泛,例如交通監測、工業或自然環境巡檢等等。另外隨著人工智慧的興起,現在無人機也會結合人工智慧演算法協助其辨識影像。由於無人機所拍攝的影像內物件往往尺寸偏小,且無人機本身的運算支援有限,因此如何提升小物件的辨識效果且同時降低模型運算時所需的資源至關重要。本論文以YOLOv7為基礎模型進行改良,提升它對小物件的偵測效果且同時降低模型參數量及計算量,我們以VisDrone-DET2019資料集來驗證模型改良成效。總共修改五種方式,第一種方式是將ELAN (Efficient Layer Aggregation Network)替換成M-ELAN (Modified Efficient Layer Aggregation Network),第二種方式是在高階特徵層添加M-FLAM (Modified Feature Layer Attention Module),第三種方式是將特徵融合的結構從PANet (Path Aggregation Network)改成ResFF (Residual Feature Fusion),第四種方式是將模型內下採樣的模塊改成I-MP模塊 (Improved MaxPool Module),最後一種方式是將SPPCSPC (Spatial Pyramid Pooling Cross Stage Partial Networks)替換成GSPP(Group Spatial Pyramid Pooling)。綜合以上方法,將mAP (mean Average Precision)提升1%,同時模型參數量卻下降24.5%,模型計算量GFLOPs (Giga Floating Point of Operations)也降低13.7%。Item 改良深度學習的人形機器人於高動態雜訊之視覺定位(2024) 隋嘉銘; Sue, Chia-Ming一些基於相機或其他技術的視覺 SLAM 方法已經被提出。 光學感測器來導航和了解其環境。例如, ORB-SLAM 是一個完 整的 SLAM 系統,包括視覺里程計、追蹤和定位 ORB-SLAM 僅 依賴使用單目視攝影機進行特徵偵測,但在與人形機器人一起工 作時,會出現嚴重的問題晃動模糊問題。深度學習已被證明對於穩健且即時的單眼影像重新定位是有 效的。視覺定位的深度學習是基於卷積神經網路來學習 6-DoF 姿 勢。 它對於複雜的照明和運動條件更加穩健。然而,深度學習的 問題是視覺定位方法的一個缺點是它們需要大量的資料集和對這 些資料集的準確標記。本文也提出了標記視覺定位資料和自動辨識的方法用於訓練 視覺定位的資料集。我們的標籤為基於 2D 平面( x 軸、 y 軸、 方向)的姿勢。最後,就結果而言可見,深度學習方法確實可以 解決運動模糊的問題。比較與我們以往的系統相比,視覺定位方 法減少了最大誤差率 31.73% ,平均錯誤率減少了 55.18% 。Item 基於雙重注意力機制之視網膜血管分割深度學習網路(2024) 胡景閎; Hu, Jing-Hung眼底影像之血管分割可以用來協助眼睛病灶的觀察,以提早發現病灶並進行治療,例如黃斑部病變、糖尿病視網膜病變、青光眼等等。由於眼底影像的採集會經過各種不同的程序而導致影像有不同的品質變化,眼底影像血管分割的精確度會影響病灶的判斷,儘管現今已存在許多影像分割方法,但是具有病灶的眼底圖像血管分支變化多端,現存各種分割方法的精確度也依舊無法達到完美,本研究目的為提出改良式眼底影像的血管分割方法,針對各種視網膜圖像,進行精確血管分割,以協助醫師對眼疾病變的診斷,期能對眼疾醫療做出微薄的貢獻。準確的血管分割是一項具有挑戰性的任務,主要是因為眼底影像的對比度低以及血管形態結構的複雜性,傳統卷積會增加乘法的數量,同時執行卷積操作,導致與細長且對比度低的血管相關信息損失。為了解決現有方法在血管提取時低敏感度以及信息損失的問題,本研究提出結合兩種注意力模型EPA以及DLA的並行注意力U-Net以實現準確的血管分割,EPA聚焦於空間以及通道的特徵提取,而DLA則專注於多尺度的局部特徵以及邊緣檢測的特徵,再將並行所得特徵進行深度和淺層特徵融合。本研究在DRIVE數據集上進行實驗,以驗證模型性能,研究結果指出,採用並行運算的U-Net模型分割視網膜血管具有競爭性效能。Item 基於深度學習之光流法應用於全天空影像之日射量估計與預測(2023) 陳家豪; Chen, Chia-Hao因應太陽能發電日益重要,又因太陽能發電量受制於日射量的影響,同時考量太陽能發電是間歇性的能源,故提出一種基於深度學習光流應用於全天空影像之日射量估計與預測的方法。由於日射量變化容易受到天氣狀況影響,本文藉由全天空影像,建立一個以影像特徵為基礎之日射量估計與預測系統,其影像特徵包括,利用紅藍比例法計算影像中雲層比例、雲層厚度,及藉太陽位置演算法得到影像中太陽位置,分析太陽附近雲層特徵,萃取全域與局部的雲層權重。同時用基於深度學習的光流法推算雲層移動的狀態,並製作未來數分鐘之天空預測圖像,將這些預測圖像作長短期記憶(LSTM)之輸入特徵,日射量作為訓練輸出,其深度學習光流法是透過卷積神經網路來實現。本文將資料集區分為月、季、半年與一年,分別進行10分鐘至60分鐘的日射量預測。同時,本文使用多個效能指標評估效果,包括平均絕對誤差(Mean Absolute Error)、均方根誤差(Root Mean Square Error)與判定係數(R^2)。最後,與文獻的方法進行比較,本文所提的方法具有較好的結果。Item 基於 SwinTransformer 及深度學習網路之高光譜影像融合(2023) 李沃晏; Li, Wo-Yen高光譜影像(Hyperspectral Image)以及多光譜影像(Multispectral Image)融合常被用來解決高光譜影像問題,旨在融合低解析度高光譜影像(LRHSI)以及高解析度多光譜影像(HRMSI),是目前最常見的方法之一,通常高光譜影像的空間解析度較低,且直接取得高解析度之高光譜影像具有高昂的成本,而透過融合獲取高解析度高光譜影像是一種經濟實惠的方法。在影像處理領域融合方法是一種關鍵技術,因為高解析高光譜影像很好的促進了遠程材料辨識及分類任務,從而在衛星遙感領域獲得很大的關注。在衛星遙感領域很少有人嘗試使用Transformer,而Transformer在很多高級視覺任務中表現出驚人的成果,在本文中,我們提出了處理HSI/MSI融合任務的網路模型,基於SwinTansformer以及深度卷積網路(DCNN)之融合網路,稱為SwinDFN,SwinDFN由兩個部分組成:1)傳統卷積神經網路對HSI以及MSI影像初步融合,其中引入了Depthwise卷積技術來更有效地結合 HSI 和 MSI 之間的光譜響應函數以及對網路參數量做壓縮,2)具有殘差結構的SwinTansformer特徵提取模塊,來對影像特徵做增強,所提出之方法實現了基於規模較小的網路達到較好的HSI/MSI融合性能。Item 基於深度學習之多連接模塊對於物件偵測的影響(2022) 李政霖; Li, Cheng-Lin在本論文中,我們提出與YOLOv5不同的加深網路模型的方法,並設計了三種適用於特定資料集的多連接模塊(Multi-Connection)。多連接模塊的主要目的是重用特徵並保留輸入特徵以供向下傳遞。我們在8個公開的資料集驗證我們的方法。我們改進了YOLOv5中的殘差塊(Residual block)。實驗結果顯示,與YOLOv5s6相比,YOLOv5s6加入多連接模塊型一在Global Wheat Head Dataset 2020上的平均精度(mAP)提高1.6%; YOLOv5s6加入多連接模塊型二在PlantDoc 資料集上的 mAP 提高2.9%;YOLOv5s6加入多連接模塊型三的mAP在PASCAL Visual Object Classes(VOC)資料集上提高了2.9%。另一方面,我們也比較了一般的傳統深化模型的方法。一般來說,加深網絡模型會提高模型的學習能力,但我們認為對於不同的資料集,採用不同的策略可以獲得更高的準確率。此外我們設計多連接模塊型四,應用在交通號誌偵測上,多連接模塊型四之一基於殘差塊做堆疊增加網路深度,來加強網路的學習能力,並加入壓縮和激勵模塊(SE block),來強化特徵圖資訊,另外透過一個額外的跳連接鼓勵特徵重用。多連接模塊型四之二,主要是將多連接模塊型四之一的通道減半,來減少模型計算量跟參數量。多連接模塊型四之三我們基於多連接模塊型四之二多增加一個3乘3的卷積提升模型學習能力。我們選擇TT100K資料集來訓練模型,我們也收集了臺灣交通號誌當作客製化資料集,去驗證我們的方法,目的是要設計出一個高效性能的模塊,所以設計出多連接模塊型四之三。在TT100K資料集中多連接模塊型四之三獲得最好的表現,與YOLOv5s6相比計算量僅增加了11%,mAP提升了3.2%,犧牲一點計算量換來模型準確率有感的提升,此外我們也在其他公開的資料集驗證我們的方法,多連接模塊型四之三的表現也是非常有效益的。Item 基於非監督式生成對抗網路及對比學習之水下影像品質回復(2023) 宋奕泓; Sung, Yi-Hung近年來水下環境之相關應用的重要性與日俱增,比如:水下資源探勘及水下環境監控。這些應用往往需要由水下無人載具來擷取水下數位影像資料以供後續之資料分析及其相關應用 (例如:水下物件偵測及水下影像分類等相關應用)。然而水下影像品質受到許多環境因素影響而造成影像退化,包括光線折射、反射等等,如此可能使得基於水下影像之相關應用無法得到良好的效果。近年來,隨著深度學習技術蓬勃發展,研究者提出許多基於深度學習的模型來改善水下影像的品質。目前現有方法中,以具備成對影像資料之監督式深度學習模型為主。成對影像學習雖然能以較輕量模型得到好的影像品質回復效果,但礙於現實難以取得成對的原始水下影像及其還原之陸上影像,因此模型訓練上受到許多限制。為了解決這個限制,許多研究以人工合成之影像來建立成對之訓練影像資料集。然而,人工合成之訓練影像資料集未必能反映真實的水下影像特性。為了解決此問題,最近已有研究提出使用生成對抗網路及非成對影像資料來進行深度學習網路訓練。本論文提出一基於非成對影像資料及生成對抗網路之深度學習模型,來處理水下影像回復的問題。本論文提出基於非成對訓練影像資料集及利用生成對抗網路架構訓練一影像領域轉換生成器將輸入之水下影像轉換為對應之陸上影像 (回復之水下影像),其中我們利用對比學習及多樣損失函數來進行網路訓練。實驗結果已證實我們的方法可得到較佳的回復影像品質且優於 (或近似) 現有基於成對/非成對訓練資料之基於深度學習之水下影像回復網路。Item Item 基於非監督式跨領域深度學習之單張影像雜訊去除(2022) 蔡洪弦; Tsai, Hong-Xian數位多媒體資料於我們的日常生活中已無所不在,尤其以影像及視訊資料為大宗,例如:隨時隨地皆有無法計數之影像資料來自各類行動裝置及無所不在之路邊監視器。這些龐大之影像資訊可能帶來日常生活中大量的應用。然而,影像資料之來源非常廣泛且品質難以控制。影像品質過低可能會使其相關應用之效能大打折扣,甚至毫無用途。因此,數位影像品質回復或強化已為一重要之研究議題。近年基於深度學習技術的快速發展,已有許多基於深度學習網路之影像品質回復技術問世。然而,目前架構大多基於端對端之監督式學習且利用人工合成之訓練影像資料集。其主要問題為以人造訓練資料所訓練之網路未必適合於真實世界之影像品質下降問題,且真實低品質影像及其高品質版本配對之資料集卻難以取得。因此,最近基於跨領域 (cross-domain) 之深度學習已被研究來解決可能之領域間隔閡的問題。本論文提出研究基於跨領域深度學習之影像品質回復技術,並嘗試解決目前方法潛在的可能問題,例如:(1)有限的一般化特性:可能使得現有方法難以適用於不同種類的影像;(2)領域偏移問題:對於無成對訓練資料之非監督式學習,可能會因不容易學到好的影像特徵表示法及因為低品質影像之影像雜訊變異過大的關係導致領域偏移;及(3)不明確之領域邊界:當訓練影像之雜訊變異過大及影像內容過於複雜且無成對訓練資料時,低品質及高品質影像間的領域界線不明,使得不易達成良好之跨領域學習。為了解決上述問題及考慮其實際應用,本論文提出一基於跨領域非監督式深度學習之影像雜訊去除網路架構。我們的目標為根據輸入之雜訊影像資料集學習影像特徵表示法,並使得此表示法能貼近乾淨影像之特徵表示法,以期達到更佳的影像品質回復。本論文提出利用雙向生成對抗網路將非成對之訓練影像分別做雙向之影像轉換 (雜訊轉換成乾淨影像及乾淨轉換成雜訊影像),並使用多項影像空間域及影像頻率域之損失函數以訓練一影像雜訊去除 (或噪聲去除) 深度學習網路。在實驗階段,我們使用了多個知名影像資料集 (CBSD68、SIDD及NIH-, AAPM- and Mayo Clinic-sponsored Low Dose CT Grand Challenge) 來訓練及測試所提出的深度學習模型。實驗結果已證實所提出的方法優於傳統基於非深度學習及近年具代表性之基於深度學習方法且適合用於解決實際問題。