學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890

Browse

Search Results

Now showing 1 - 10 of 45
  • Item
    結合影像與四輪控制之智能車體與人體追蹤系統
    (2025) 呂彥澂; Lu, Yen-Cheng
    本研究設計一套可以辨識並追蹤人體的智慧型四輪驅動車。結合了四輪驅動車與影像辨識模型,車體由四顆馬達驅動四個車輪,具備靈活的運動控制能力,達成穩定追隨目標的控制。在影像辨識上,車體搭配深度攝影機擷取前方人體影像,透過關節偵測工具MediaPipe Pose擷取人體背部關節的移動資訊,並使用GRU時間序列模型學習並記憶主人的關節動作模式。當系統辨識出該模式與記憶資料相符時,會將此人標記為主人(Master),並啟動自動追隨模式。在運動控制方面,利用運動方程式得出的轉速控制馬達,並透過增量型PID控制器調整轉速,讓車子轉彎與前進更穩定。此研究整合了影像辨識、深度學習與四輪控制技術,有效提升四輪驅動車對指定目標的辨識準確率與追蹤穩定性,未來可應用於智慧陪伴、物流配送及購物跟隨等場域。
  • Item
    基於混合擴張卷積及卷積注意力模組的即時車道線偵測深度學習網路
    (2025) 林琮祐; Lin, Tsong-You
    準確的車道偵測對於自動駕駛系統的安全運作至關重要。雖然 LaneATT(即時注意力引導車道偵測)等模型已經表現出強大的性能,但仍有改進其多尺度特徵擷取和優先處理關鍵車道資訊的能力。論文提出了透過整合混合擴張卷積(Hybrid Dilated Convolution, HDC)和卷積塊注意模組(Convolutional Block Attention Module, CBAM)對 LaneATT 模型進行改進。 HDC 模組以最小的運算成本實現多尺度特徵提取,而 CBAM 透過強調重要的空間和通道資訊來增強特徵圖。在 TuSimple 和 CULane 資料集上進行的大量實驗凸顯了我們方法的有效性,與原始 LaneATT 模型相比取得了卓越的性能。此外,消融實驗證實了 HDC 和 CBAM 能夠有效地擷取多尺度情境資訊並專注於相關特徵。
  • Item
    應用於行動裝置之基於深度學習的手繪運算放大器電路辨識與教學動畫生成系統開發
    (2025) 李柏翰; Li, Po-Han
    隨著深度學習技術的發展,手繪文本和電路圖的識別取得了顯著進步。然而,針對手繪運算放大器 OPA 電路的研究仍較為有限。本研究提出了一種行動裝置專用的手繪運算放大器電路識別與動畫生成系統,旨在解決現有影像搜尋工具(如 Google Images)無法有效辨識手繪電路的問題。本系統採用最新的 YOLOv9t 目標檢測模型進行電子元件識別,相較於 YOLOv8n,在模型參數量(Parameters, Params)與每秒十億次浮點運算次數(Giga Floating Point Operations Per Second, GFLOPS)方面均有所提升。系統透過分析識別出的電子元件及其相對位置來確定電路類型,並允許使用者輸入元件參數,以 Manim 動畫引擎生成對應的輸出波形動畫,幫助學生直觀理解運算放大器電路特性。本研究構建了一個包含 1,199 張手繪運算放大器電路圖的資料集,並比較了 YOLOv8n 和 YOLOv9t 兩種物件偵測模型的辨識效能。實驗結果顯示, YOLOv9t 與 YOLOv8n 在 Precision 指標上均達到 99%,整體辨識校效能相當。然而 YOLOv9t 的參數量為 2.8M,較 YOLOv8n 的 3.0M 減少約 7%,在模型輕量化方面展現優勢;此外 YOLOv9t 的每秒十億次浮點運算次數為 11.7,遠高於 YOLOv8n 的 8.1,效能提升約 44.4%。顯示 YOLOv9t 更具運算效率,適合應用於本系統所需的即時辨識場景。除此之外,系統整合 LINE Bot 作為互動介面,使學生可直接透過行動裝置拍攝手繪電路圖,並即時獲得識別結果與動畫回饋。整體實驗結果顯示,本系統在電子工程教育領域具有潛在應用價值,未來將進一步透過使用者調查來優化互動設計與學習成效。
  • Item
    基於超聲波的手部動作辨識模型研究
    (2025) 張仲軒; Chang, Michael-Austin
    隨著人工智慧與深度學習技術的快速發展,人體動作辨識在醫療照護、監控系統、人機互動等領域展現出極高的應用潛力。然而,傳統的影像辨識技術多仰賴可見光或紅外線攝影機,不僅容易受到環境光源變化影響,可能還有潛在的隱私疑慮。為解決上述問題,本研究提出一種結合超聲波訊號與深度學習之手部動作辨識模型,利用聲波反射特性來辨識手部動作,從而克服光線限制並提升隱私保護性。本研究使用USB介面的超聲波收音設備,錄製人體動作引發的聲波變化,並透過短時距傅立葉轉換(STFT)將訊號轉換為頻譜圖,以提取含有時頻解析度的特徵,接著使用ResNet-50卷積神經網路(CNN)進行手部動作分類。為驗證本方法之效能,本研究建立了一個包含五種手部動作及一類靜態背景的超聲波資料庫,並透過多位受試者進行測試以評估模型效能。實驗結果顯示,在特定實驗環境下,模型的辨識準確率可達95%;即使在不同受試者的推論測試中,仍能維持92%的表現。
  • Item
    結合頭部姿態估計與補償的視線追蹤
    (2025) 陳璽文; Chen, Xi-Wen
    本文提出了一種基於可見光影像的視線追蹤系統,採用單一高速相機,取代傳統依賴紅外光源或專用傳感器的方案,從而顯著提升了使用者體驗。然而,這種設置在補償頭部移動方面面臨更大的挑戰。為解決此問題,我們設計了一種新型視線追蹤系統,結合了精確的頭部姿態估計方法。該方法通過識別臉部特徵點並解決 2D 到 3D 的對應問題,獲取特徵點的 3D 坐標,進而估算頭部運動。該系統能夠實時更新眼球模型並準確計算虹膜區域的初始位置。實驗結果表明,當使用者進行輕微頭部移動或旋轉時,該系統能有效提高視線追蹤的精度與準確性。
  • Item
    基於圖像串接和深度學習的改良生咖啡豆分類方法
    (2024) 温鑫; Wen, Xin
    為了解決生咖啡豆在影像辨識上的分類困難並提升精確度,這篇論文提出了一種通過串接不同的影像增強技術來融合不同的特徵提取演算法,以提高對生咖啡豆的辨識準確率。為了從原始影像中獲得各種關鍵特徵,我們選用了自適應閾值、位元平面分割、黑帽運算、Canny邊緣偵測、灰階、直方圖等化、Laplacian濾波、頂帽運算與非銳化濾鏡九種常見的影像增強方法。我們提出先在原本九種影像增強算法中挑選出與基準真相相關性較高的方法,並且僅將原始影像的RGB影像平面替換成相關性較高的影像處理方法,藉著多種特徵提升模型辨識度。在這項研究中,我們使用MobileViT進行實驗,最後選擇相關性較高的處理方式作為特徵融合的素材,經過影像串接產生的影像資料集作為新的輸入重新訓練。我們將不進行任何影像增強的分類方法視為基準。在二分法中,位元平面分割、直方圖等化和非銳化濾鏡的組合達到了96.9%的準確率,相對於原始方法提高了約5.5%。如果使用去除背景的相同資料集,相同的組合可以達到了97.0%的準確率;當我們選擇三分法進行實驗時,同樣都是由位元平面分割、直方圖等化和非銳化濾鏡的組合,分別達到了96.8%以及97.4%的準確率,較原始方法提升6.7%與4.9%。最後我們使用MobileNetV3驗證研究結果,在二分法的情況下,相同的影像增強組合分別在未去除背景與去除背景的影像可以獲得最高的99.12%與99.21%的準確率,相較原始方法有0.39%與0.44%的提升;如果以三分法再次進行實驗,與原始方法比較,大約分別有0.92%以及0.79%的提升,取得了98.73%與99.25%的準確率。
  • Item
    用於光學同調斷層掃描之基於深度學習和聯邦學習框架之視網膜積液分割技術
    (2024) 林志韋; Lin, Chih-Wei
    在眼科領域,光學相干斷層掃描(OCT)是檢測眼病的關鍵技術。偏鄉資源有限僅能使用輕量化設備,但其計算能力不足,難以支撐較為大型模型的訓練,以及數據缺乏和隱私問題阻礙醫院數據共享。首先針對輕量化設備,基於LEDNet設計了高效的LEDNet(α)模型,通過調整通道、添加Shuffle Attention模塊和Group Normalization。使用成本低廉的樹莓派5進行訓練,適合偏鄉需求,為解決隱私問題,引入聯邦學習,通過上傳本地模型參數聚合全局模型,避免資料直接上傳。本研究提出Krum(α)算法,在客戶端損失函數中添加近端項並考慮模型自適應性,改善淘汰機制,改進基於歐氏距離淘汰惡意模型的Krum算法。最後實驗結果顯示,在AROI、DUKE、UMN和RETOUCH數據集上,AROI積液類別提高了3.4%,DUKE提高了5.9%,UMN提高了2.4%,RETOUCH提高了1.4%。
  • Item
    基於臉部及語音特徵之輕量化深度學習情感辨識系統
    (2024) 呂健維; Lu, Chien-Wei
    因應近年來高齡化導致老人照護人力缺乏,本研究提出了一種可被應用於陪伴型機器人(Zenbo Junior II)上的整合臉部表情和語音的情感識別輕量化模型。近年來對於人類的情感識別技術大多使用基於卷積神經網路(Convolutional Neural Network, CNN)的方式來實現,並得到了優秀的成果,然而,這些先進的技術都沒有考慮計算成本的問題,導致這些技術在計算能力有限的設備上無法運行(例如,陪伴型機器人)。因此,本研究將輕量化的GhostNet模型,應用於臉部情感識別的模型,並將輕量化的一維卷積神經網路(One Dimensional Convolutional Neural Network, 1D-CNN)作為語音情感識別模型,再利用幾何平均數的方式將兩個模態預測的結果整合。所提出的模型,在RAVDESS和CREMA-D兩個數據集上分別取得了97.56%及82.33%的準確率,在確保了高準確率的情況下,本研究將參數量壓縮到了0.92M,浮點運算次數減少至0.77G,比起目前已知的先進技術要少了數十倍。最後,將本研究的模型實際部署在Zenbo Junior II中,並透過模型與硬體的運算強度作比較,得知本研究的模型能夠更加順利的在該硬體中運行,且臉部及語音情感識別模型的推理時間分別只有1500毫秒及12毫秒。
  • Item
    針對空拍影像物件偵測之改良型YOLOv7演算法研究
    (2024) 鍾宜修; Chung, Yi-Hsiu
    近幾年無人機的技術發展迅速,飛行距離越來越遠、體積也不斷縮小,甚至能自動飛行,因此能應用的範圍也越來越廣泛,例如交通監測、工業或自然環境巡檢等等。另外隨著人工智慧的興起,現在無人機也會結合人工智慧演算法協助其辨識影像。由於無人機所拍攝的影像內物件往往尺寸偏小,且無人機本身的運算支援有限,因此如何提升小物件的辨識效果且同時降低模型運算時所需的資源至關重要。本論文以YOLOv7為基礎模型進行改良,提升它對小物件的偵測效果且同時降低模型參數量及計算量,我們以VisDrone-DET2019資料集來驗證模型改良成效。總共修改五種方式,第一種方式是將ELAN (Efficient Layer Aggregation Network)替換成M-ELAN (Modified Efficient Layer Aggregation Network),第二種方式是在高階特徵層添加M-FLAM (Modified Feature Layer Attention Module),第三種方式是將特徵融合的結構從PANet (Path Aggregation Network)改成ResFF (Residual Feature Fusion),第四種方式是將模型內下採樣的模塊改成I-MP模塊 (Improved MaxPool Module),最後一種方式是將SPPCSPC (Spatial Pyramid Pooling Cross Stage Partial Networks)替換成GSPP(Group Spatial Pyramid Pooling)。綜合以上方法,將mAP (mean Average Precision)提升1%,同時模型參數量卻下降24.5%,模型計算量GFLOPs (Giga Floating Point of Operations)也降低13.7%。