學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890

Browse

Search Results

Now showing 1 - 10 of 39

基於圖像串接和深度學習的改良生咖啡豆分類方法
(2024) 温鑫; Wen, Xin
為了解決生咖啡豆在影像辨識上的分類困難並提升精確度，這篇論文提出了一種通過串接不同的影像增強技術來融合不同的特徵提取演算法，以提高對生咖啡豆的辨識準確率。為了從原始影像中獲得各種關鍵特徵，我們選用了自適應閾值、位元平面分割、黑帽運算、Canny邊緣偵測、灰階、直方圖等化、Laplacian濾波、頂帽運算與非銳化濾鏡九種常見的影像增強方法。我們提出先在原本九種影像增強算法中挑選出與基準真相相關性較高的方法，並且僅將原始影像的RGB影像平面替換成相關性較高的影像處理方法，藉著多種特徵提升模型辨識度。在這項研究中，我們使用MobileViT進行實驗，最後選擇相關性較高的處理方式作為特徵融合的素材，經過影像串接產生的影像資料集作為新的輸入重新訓練。我們將不進行任何影像增強的分類方法視為基準。在二分法中，位元平面分割、直方圖等化和非銳化濾鏡的組合達到了96.9%的準確率，相對於原始方法提高了約5.5%。如果使用去除背景的相同資料集，相同的組合可以達到了97.0%的準確率；當我們選擇三分法進行實驗時，同樣都是由位元平面分割、直方圖等化和非銳化濾鏡的組合，分別達到了96.8%以及97.4%的準確率，較原始方法提升6.7%與4.9%。最後我們使用MobileNetV3驗證研究結果，在二分法的情況下，相同的影像增強組合分別在未去除背景與去除背景的影像可以獲得最高的99.12%與99.21%的準確率，相較原始方法有0.39%與0.44%的提升；如果以三分法再次進行實驗，與原始方法比較，大約分別有0.92%以及0.79%的提升，取得了98.73%與99.25%的準確率。
用於光學同調斷層掃描之基於深度學習和聯邦學習框架之視網膜積液分割技術
(2024) 林志韋; Lin, Chih-Wei
在眼科領域，光學相干斷層掃描（OCT）是檢測眼病的關鍵技術。偏鄉資源有限僅能使用輕量化設備，但其計算能力不足，難以支撐較為大型模型的訓練，以及數據缺乏和隱私問題阻礙醫院數據共享。首先針對輕量化設備，基於LEDNet設計了高效的LEDNet(α)模型，通過調整通道、添加Shuffle Attention模塊和Group Normalization。使用成本低廉的樹莓派5進行訓練，適合偏鄉需求，為解決隱私問題，引入聯邦學習，通過上傳本地模型參數聚合全局模型，避免資料直接上傳。本研究提出Krum(α)算法，在客戶端損失函數中添加近端項並考慮模型自適應性，改善淘汰機制，改進基於歐氏距離淘汰惡意模型的Krum算法。最後實驗結果顯示，在AROI、DUKE、UMN和RETOUCH數據集上，AROI積液類別提高了3.4%，DUKE提高了5.9%，UMN提高了2.4%，RETOUCH提高了1.4%。
基於臉部及語音特徵之輕量化深度學習情感辨識系統
(2024) 呂健維; Lu, Chien-Wei
因應近年來高齡化導致老人照護人力缺乏，本研究提出了一種可被應用於陪伴型機器人(Zenbo Junior II)上的整合臉部表情和語音的情感識別輕量化模型。近年來對於人類的情感識別技術大多使用基於卷積神經網路(Convolutional Neural Network, CNN)的方式來實現，並得到了優秀的成果，然而，這些先進的技術都沒有考慮計算成本的問題，導致這些技術在計算能力有限的設備上無法運行(例如，陪伴型機器人)。因此，本研究將輕量化的GhostNet模型，應用於臉部情感識別的模型，並將輕量化的一維卷積神經網路(One Dimensional Convolutional Neural Network, 1D-CNN)作為語音情感識別模型，再利用幾何平均數的方式將兩個模態預測的結果整合。所提出的模型，在RAVDESS和CREMA-D兩個數據集上分別取得了97.56%及82.33%的準確率，在確保了高準確率的情況下，本研究將參數量壓縮到了0.92M，浮點運算次數減少至0.77G，比起目前已知的先進技術要少了數十倍。最後，將本研究的模型實際部署在Zenbo Junior II中，並透過模型與硬體的運算強度作比較，得知本研究的模型能夠更加順利的在該硬體中運行，且臉部及語音情感識別模型的推理時間分別只有1500毫秒及12毫秒。
針對空拍影像物件偵測之改良型YOLOv7演算法研究
(2024) 鍾宜修; Chung, Yi-Hsiu
近幾年無人機的技術發展迅速，飛行距離越來越遠、體積也不斷縮小，甚至能自動飛行，因此能應用的範圍也越來越廣泛，例如交通監測、工業或自然環境巡檢等等。另外隨著人工智慧的興起，現在無人機也會結合人工智慧演算法協助其辨識影像。由於無人機所拍攝的影像內物件往往尺寸偏小，且無人機本身的運算支援有限，因此如何提升小物件的辨識效果且同時降低模型運算時所需的資源至關重要。本論文以YOLOv7為基礎模型進行改良，提升它對小物件的偵測效果且同時降低模型參數量及計算量，我們以VisDrone-DET2019資料集來驗證模型改良成效。總共修改五種方式，第一種方式是將ELAN (Efficient Layer Aggregation Network)替換成M-ELAN (Modified Efficient Layer Aggregation Network)，第二種方式是在高階特徵層添加M-FLAM (Modified Feature Layer Attention Module)，第三種方式是將特徵融合的結構從PANet (Path Aggregation Network)改成ResFF (Residual Feature Fusion)，第四種方式是將模型內下採樣的模塊改成I-MP模塊 (Improved MaxPool Module)，最後一種方式是將SPPCSPC (Spatial Pyramid Pooling Cross Stage Partial Networks)替換成GSPP(Group Spatial Pyramid Pooling)。綜合以上方法，將mAP (mean Average Precision)提升1%，同時模型參數量卻下降24.5%，模型計算量GFLOPs (Giga Floating Point of Operations)也降低13.7%。
用於陪伴型機器人之輕量化深度學習音樂情緒辨識模型
(2024) 林彥榕; Lin, Yen-Jung
為了應對現今社會高齡化，導致老人缺乏陪伴導致的孤獨問題，本研究提出用於陪伴型機器人Zenbo Junior II的音樂情緒辨識模型來解決老人孤獨導致的情緒問題。在音樂情緒辨識這個研究領域中，雖然也有很多人已經在進行這項研究，但是這些研究中沒有能用於Zenbo Junior II的輕量化架構。本研究提出的方法是使用一維卷機神經網路(1D-Convolutional Neural Network, 1D-CNN)替換掉常用的2D-CNN並且使用閘門循環單元(Gated Recurrent Unit, GRU)使模型能更好的考慮音頻特徵的連續性。在訓練完模型後儲存並應用於Zenbo Junior II上，先將另一研究的情緒對應成4種情緒後播放音樂調適情緒。本研究提出之模型在PMEmo數據集上Valence和Arousal分別為0.04和0.038與其他模型相比效能最好。並且參數量僅有0.721M浮點運算次數僅有9.303M，遠小於其他相比較之模型。運算強度最靠近Zenbo Junior II之最佳工作點，且模型辨識音樂所需推理時間僅需229毫秒，可以即時辨識出音樂的情緒。這些表明本研究成功提出一個輕量化且效能優異，並且可以在Zenbo Junior II上運行的模型。
用於光學相干斷層掃描之基於深度學習和聯邦學習框架之視網膜層分割技術
(2024) 張博翔; Chang, Po Hsiang
在本研究中，我們提出了一種輕量級模型FPENet(α)，以FPENet為基底，用於處理專為邊緣設備設計的 OCT 影像中視網膜層分割。視網膜層分割是眼科診斷的重要工具，但其在資源有限的邊緣設備上應用時存在計算成本和精度之間的瓶頸。FedLion(α)在使用 HCMS資料集、NR206資料集及OCT5K資料集進行訓練和測試時，實現了高精度和高效率。該模型經過最佳化，實現了精度和計算成本之間的平衡。FPENet(α)可以有效地捕捉不同尺度的特徵，同時大幅降低計算成本，非常適合部署在如Raspberry Pi等資源有限的邊緣設備上，其輕量化設計使其在計算資源和內存容量方面具有顯著優勢。聯邦學習的部分我們以FedLion為基礎添加了L2正則化與學習率遞減，提出FedLion(α)，有效處理數據非獨立同分布的問題。數據顯示使用FPENet(α)與FedLion(α)進行聯邦學習，相較於原先只使用FPENet(α)，在HCMS資料集平均DICE係數提升了0.7%，在NR206資料集提升了3.75%，在OCT5K資料集提升了9.1%。
改良深度學習的人形機器人於高動態雜訊之視覺定位
(2024) 隋嘉銘; Sue, Chia-Ming
一些基於相機或其他技術的視覺 SLAM 方法已經被提出。光學感測器來導航和了解其環境。例如， ORB-SLAM 是一個完整的 SLAM 系統，包括視覺里程計、追蹤和定位 ORB-SLAM 僅依賴使用單目視攝影機進行特徵偵測，但在與人形機器人一起工作時，會出現嚴重的問題晃動模糊問題。深度學習已被證明對於穩健且即時的單眼影像重新定位是有效的。視覺定位的深度學習是基於卷積神經網路來學習 6-DoF 姿勢。它對於複雜的照明和運動條件更加穩健。然而，深度學習的問題是視覺定位方法的一個缺點是它們需要大量的資料集和對這些資料集的準確標記。本文也提出了標記視覺定位資料和自動辨識的方法用於訓練視覺定位的資料集。我們的標籤為基於 2D 平面（ x 軸、 y 軸、方向）的姿勢。最後，就結果而言可見，深度學習方法確實可以解決運動模糊的問題。比較與我們以往的系統相比，視覺定位方法減少了最大誤差率 31.73% ，平均錯誤率減少了 55.18% 。
基於雙重注意力機制之視網膜血管分割深度學習網路
(2024) 胡景閎; Hu, Jing-Hung
眼底影像之血管分割可以用來協助眼睛病灶的觀察，以提早發現病灶並進行治療，例如黃斑部病變、糖尿病視網膜病變、青光眼等等。由於眼底影像的採集會經過各種不同的程序而導致影像有不同的品質變化，眼底影像血管分割的精確度會影響病灶的判斷，儘管現今已存在許多影像分割方法，但是具有病灶的眼底圖像血管分支變化多端，現存各種分割方法的精確度也依舊無法達到完美，本研究目的為提出改良式眼底影像的血管分割方法，針對各種視網膜圖像，進行精確血管分割，以協助醫師對眼疾病變的診斷，期能對眼疾醫療做出微薄的貢獻。準確的血管分割是一項具有挑戰性的任務，主要是因為眼底影像的對比度低以及血管形態結構的複雜性，傳統卷積會增加乘法的數量，同時執行卷積操作，導致與細長且對比度低的血管相關信息損失。為了解決現有方法在血管提取時低敏感度以及信息損失的問題，本研究提出結合兩種注意力模型EPA以及DLA的並行注意力U-Net以實現準確的血管分割，EPA聚焦於空間以及通道的特徵提取，而DLA則專注於多尺度的局部特徵以及邊緣檢測的特徵，再將並行所得特徵進行深度和淺層特徵融合。本研究在DRIVE數據集上進行實驗，以驗證模型性能，研究結果指出，採用並行運算的U-Net模型分割視網膜血管具有競爭性效能。
應用強化式學習策略之分數階比例積分微分控制於X-Y-Y棒狀線性馬達定位平台
(2024) 楊祐銓; YANG, YU-CHUAN
基於Transformer物件關聯模型應用於籃球賽事分析
(2024) 陳柏諺; Chen, Po-Yen
在籃球賽事分析中，準確識別持球者和判斷得分時機對於確定得分者是關鍵挑戰。傳統的分析方法，比如物件重疊度和相對距離測量，往往在識別持球和進球時刻面臨較高的誤判風險。為了解決這一問題，我們對本團隊先前提出的Transformer-based Object Relationship Finder（ORF）架構的輸入特徵進行了改進，重點關注了幾個關鍵因素：與球密切相關的球員、球員的姿勢，以及不同的物件類型。這一策略顯著提高了架構在識別複雜動作和搶球情況下的準確度，使得持球者的識別準確率從原來的80.79%提升至86.18%，有效地展示了精準特徵選擇的重要性。此外，我們還利用Transformer-based Object Relationship Finder架構來識別進球時機，並結合最後接觸球的持球者信息，從而有效地判斷得分者，相較於傳統方法我們將得分者準確率從63.89%提高到了87.50%，這一成績突顯了Transformer-based Object Relationship Finder在籃球分析中的強大效能和廣泛應用前景。最後，我們開發了一款整合了這些技術的應用工具。這不僅讓教練和分析師能更全面地理解比賽情況，還為未來的籃球研究和技術開發提供了堅實的基礎。

學位論文

Browse

Filters

Settings

Sort By

Results per page

Search Results