資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年，首先招收大學部學生，民國九十年成立資訊工程研究所碩士班，而後於民國九十五年進行系、所調整合併為「資訊工程學系」；並於九十六年成立博士班。本系目前每年約招收大學部四十餘人，碩士班六十餘人，博士班約五人，截至民國一百零四年十一月止，總計現有大學部一百九十多人，碩士班一百二十多人，博士班二十三人，合計學生人數約為三百三十多位。

News

系所網址：http://w1.csie.ntnu.edu.tw/

Browse

Search Results

Now showing 1 - 10 of 10

基於深度學習對籃球轉播影像之球場校正及球員追蹤
(2024) 連堃玹; Lian, Kun-Syuan
許多球類競技運動使用視覺影像資料來識別戰術，並採用相對應的防守策略來應對，以最有效率的方式獲取分數。這些分析資訊採用的研究數據來源在於球員在球場上的位置變化，即軌跡資訊。通常仰賴人力透過逐幀的方式針對球隊的軌跡進行剖析，這往往需要耗費大量的時間與精力。此外，發展技術成熟的光學影像追蹤系統其背後所需要的器材成本及後續維護的費用使其難以普及使用。近年來，由於拍攝器材以及多媒體串流技術的進步，網路上有豐富且大量的轉播資訊提供獲取比賽資訊另一種途徑。因此，本研究基於籃球影像畫面提出了球員定位及追蹤軌跡方法 (Basketball Player Position Tracking Trajectory, BPT)，基於轉播影像自動化生成球員在比賽過程中的軌跡資料。本研究所提出的BPT校正方法僅需使用籃球轉播系統的影像畫面作為輸入，即可生成雙方球隊在每次的攻防過程中的實際軌跡資訊，為後續的進階應用資訊分析提供重要的資訊來源。在BPT方法中，由轉播影像的球場校正方法與球員追蹤方法兩個模組所組成。在球場校正方法中，以三階段的深度模型任務實現端對端預測校正單應性矩陣。在球員追蹤方面，本研究基於追蹤演算法獲得初步的追蹤結果，通過BPT方法中的特徵模型提取更具鑑別度的球員特徵，結合貪婪合併軌跡的方式將片段的軌跡重新關聯，以達到更穩定的追蹤效果。實驗結果顯示，在球場校正準確性方面，採用交集比 (Intersection over Union, IoU) 評估校正的準確程度，在半場校正準確率高達到 87%。在球員追蹤的準確度採用高階追蹤準確率 (Higher Order Tracking Accuracy, HOTA) 評估多目標追蹤的成效。整體對球員的追蹤準確度可達 77%。根據使用情境，選擇適當的追蹤門檻值，最終採用最佳的追蹤演算法結合本研究的BPT方法，在球員追蹤準確率可高達 82%。
噪聲學習:漸進式的樣本選擇
(2023) 王景用; Wang, Jing-Yong
在人工智慧蓬勃發展的年代，深度學習技術在不同的影像辨識工作中，都取得不錯的成果，然而這些計算模型的訓練任務往往都是建立在乾淨資料集上做的實驗。然而創建一個乾淨大型資料集往往都需要龐大的標注成本，甚至在一些大型的開源資料集中也有一些人為的標記錯誤出現。為了降低建構資料集的成本以及錯誤標籤對模型的影響，噪聲學習主要研究如何在有標記錯誤的資料集中訓練出穩定可用的模型。在過去的研究中，篩選乾淨樣本的技術，如高斯混合模型或是JS散度技術，都無法準確將所有的乾淨樣本篩選出來。因此，本文從模型預測穩定度的觀點，結合過去相關研究中加入KNN演算法，利用模型預測的穩定度與樣本特徵的相似度進行多階段的篩選。參考近期論文的設計，在雙模型架構設計下，我們發現在訓練前期KNN模型的預測能力比雙模型的預測能力還要差。為了有效利用雙模型的預測結果和KNN模型，我們用模型預測穩定度的指標，漸進式的使用KNN模型，幫助我們過濾出乾淨標籤以及噪聲樣本。實驗結果可以看到我們的方法在不同的噪聲類型、不同的噪聲率下都能有不錯的表現，證明我們方法的有效性。
視覺式智慧型高爾夫揮桿動作姿勢分析系統
(2022) 石展兢; Shih, Chan-Ching
全球參與高爾夫這項運動的人口數量正在逐步上升，根據世界高爾夫管理機構皇家古老高爾夫俱樂部(The R&A)公布2021年的全世界高爾夫球人數為6,660萬人，超越了2012年的6,160萬人來到歷史高點，可見高爾夫球己經成為全世界普及的運動。近年來運動科技興起，將運動與科技兩者相互結合，利用智慧化訓練能夠有效幫助運動員提升訓練品質並降低運動傷害發生。本研究以高爾夫運動為基礎，為避免高爾夫揮桿姿勢錯誤導致運動傷害，因此開發出一套視覺式智慧型高爾夫揮桿動作姿勢分析系統，讓使用者能夠隨時隨地將自身和教練兩者的高爾夫揮桿姿勢相互比較，可達到自行修正高爾夫揮桿姿勢之目的。視覺式智慧型高爾夫揮桿動作姿勢分析系統輸入使用者之高爾夫揮桿影片以及教練之高爾夫揮桿影片進行高爾夫揮桿姿勢比對分析。本系統主要分為兩大步驟：高爾夫揮桿分解動作擷取以及三維人體模型姿勢比對分析。在第一步驟中，本研究使用輕量級網路ShuffleNetV2和循環神經網路Bi-GRU進行改良後擷取出使用者以及教練兩者的高爾夫揮桿八個分解動作。在第二步驟中，利用擷取出使用者以及教練兩者的高爾夫揮桿八個分解動作分別建構出可以表現出豐富人體資訊的三維人體模型，接著使用三維人體模型進行使用者以及教練的高爾夫揮桿姿勢比對分析。本研究將高爾夫揮桿動作拆解成八個分解動作，依序是擊球準備(address)、起桿(toe-up)、上桿(mid-backswing)、上桿頂點(top)、下桿(mid-downswing)、擊球(impact)、送桿(mid-follow-through)以及收桿(finish)。本研究使用GolfDB資料集[Mcn19]所蒐集的高爾夫揮桿影片進行訓練及測試，實驗結果顯示高爾夫揮桿分解動作擷取之準確率為86.15%。另外，本研究採用之三維人體模型是由6,890個節點所組成的人體網格，該模型將人體分解成24個身體部位，實驗時利用該模型之擬真人體特性能夠更精準地判斷使用者及教練之高爾夫揮桿姿勢差異。如上所述，本研究所提出之視覺式智慧型高爾夫揮桿動作姿勢分析系統具有效性。
基於生成對抗網路的偽隨機數生成函式研究
(2022) 張哲銘; Chang, Che-Ming
如何生成安全和快速的隨機序列一直是密碼學中的一個關鍵問題。在本文中，我們將介紹如何用硬體噪音訓練GAN(生成對抗網路)並生成具有類似質量的隨機序列。Linux操作系統中由/dev/random產生的硬體噪音代表了我們GAN的訓練集。在訓練中，我們還應用了其他方法，如Early stopping，以防止模型過擬合。最後，我們使用128,000,000比特的隨機序列，在NIST(美國國家標準暨技術研究院)特別出版物800-22測試和ENT測試下，將我們的GAN與其他PRNG(偽隨機數生成器)進行比較。結果顯示，我們的GAN優於大多數PRNG，我們發現我們的GAN與/dev/random作為訓練集有很多相似之處，並且生成隨機序列的速度至少是/dev/random的1044倍。它證明了GAN作為一種神經網絡PRNG，可以模仿非確定性算法的硬體噪音，同時具有硬體噪音的高安全性和PRNG的速度優勢。而且，它已被證明可以取代安全但低速的硬體設備，並產生類似質量的隨機序列，為密碼學領域提供了一種全新的方法。
基於神經網路的火勢擴散視覺化分析
(2023) 劉力文; Liu, LiWen
野火是世界範圍內普遍存在的現象，對環境、生物的多樣性產生重大影響，並威脅人類的健康和財產安全。對於野火管理員、消防員、研究人員來說，了解野火的蔓延行為非常重要，因為這可以幫助他們獲取野火蔓延的實時關鍵信息，幫助他們進行野火風險評估，並決定如何配資源用於野火控制和撲滅。野火蔓延是一種複雜的物理現象，很多野火蔓延模擬方法都是基於物理學的方法，這種方法不方便使用者理解野火的蔓延行為。在這項工作中，我們提出了一個野火蔓延預測的可視化分析系統，該系統基於經過深度訓練的卷積逆向圖形網絡模型(DCIGN)，此模型可以用於野火蔓延預測。基於神經網絡模型的可解釋性和可解釋性，此模型還可以幫助我們模擬和揭示野火蔓延的複雜行為。我們的可視化分析系統提供了一些視圖來協助野火管理人員、消防員、研究人員分析野火蔓延的特徵。實例視圖可以通過選擇輸入地形和天氣參數來可視化野火蔓延預測的區域。該系統還利用深度Shapely additive explanations(SHAP)解釋工具提供多種輸入參數敏感性分析視圖。這些敏感性分析視圖包括所有野火預測區域不同空間區域的全局平均敏感性和針對用戶選擇的特定區域進行的局部參數敏感性分析。在局部參數敏感性分析基礎上，有時需要了解多個天氣參數如何共同影響野火蔓延的路徑我們的系統包含的參數相關性分析可以幫助用戶了解所選的天氣參數如何影響野火的蔓延。 Dropout層是解決模型訓練時過擬合的有效手段，同時會導致模型預測結果的不確定性，系統提供的不確定性視圖可以對野火預測的不確定性進行分析。此外，我們的可視化系統提供了參數優化視圖，當從地圖上選擇一個區域時，該視圖可以幫助用戶分析出可能導致野火蔓延到該區域的天氣參數。該視圖可用於分析可能導致野火蔓延到地圖上選定區域的天氣參數，這在實際野火分析中具有重要意義。
基於頻率域和時序性特徵的假人臉影片偵測
(2021) 王順達; Wang, Shun-Ta
隨著深度學習生成技術日新月異發展，越來越多深度學習生成的假臉充斥在網路世界。多項研究證實人眼對於深度學習生成假臉的真偽越來越沒有判斷能力，將來勢必衍生更多擬真度極高的假影片讓大眾堅信不移，製造多重假資訊和社會恐慌。然而深度學習模型卻有辦法偵測某些細微特徵，不論是從語意上、屬性上、和頻譜上，甚至是幀和幀之間的不一致性都逃不過模型精準的法眼，因此利用深度學習模型偵測假臉勢在必行。近年來，深度學習偵測假臉研究日益受到關注，其中不乏利用離散餘弦轉換、傅立葉轉換等方式將特徵圖轉換至頻率域，並在頻譜中學習特徵，以及運用注意機制讓模型學習、強調局部特定區域，和利用循環神經網路學習幀和幀之間的不一致性。但過往研究往往忽略模型追求的目標是具備高度泛化能力，畢竟將來人類面臨到的造假影片不會是模型訓練時所見過的，也必然隨著深度生成技術演進產生更難辨別的影片，此時模型能否精準偵測便是考驗演算法泛化能力的時候。因此本研究結合卷積神經網路抽取空間域特徵，離散餘弦轉換後的頻譜抽取頻率域特徵，以及利用注意機制學習、強調竄改區域，和運用 GRU 架構抽取前面學習到的特徵再加以學習時序性特徵，辨別真偽。此外還設計兩種損失函數實驗，Focal Loss 和 Cross-Entropy Loss 追求最好的模型泛化能力。實驗證實，我們的模型架構能在沒有預訓練的情況下，在 Celeb-DF 資料集達到當今最佳的泛化結果，並在其他資料集也展現顯著的泛化能力。
以 Centernet 為基礎開發 AOI 輔助系統之研究
(2021) 蔡陳杰; Tsai, Chen-Chieh
自動光學檢測(AOI)為結合電腦視覺與自動化等多種技術的自動檢測方法，並且廣泛使用於產品製造的品質管理上，而元件檢測是自動光學檢測中的重要檢測項目之一。近年來，由於工業產業的變化，產品生產走向了少量多樣化，而在檢測上也改以邊緣運算的裝置運行，因此除了傳統元件檢測要求的準確率外，理想的元件檢測方法還必須要運算複雜度夠低與模型小才能在邊緣運算裝置上運行，而常見的元件檢測方法並不能完全達到這些要求。本論文使用Centernet作為新建立的AOI元件檢測系統的核心演算法。其優點為應用廣泛以及容易簡化與縮小模型，讓模型足夠輕量在工廠上的邊緣運算裝置上運行，且在通用物件檢測有良好的檢測效果。而本論文完成之元件檢測系統能夠快速偵測出元件，以及將其系統應用於嵌入式系統上，以達到工業上減少成本的需求，也可以應用在客製化的元件檢測上。
以深度學習技術為基礎之線上人體動作辨識應用於室內移動型智慧機器人
(2020) 謝日棠; Hsieh, Jih-Tang
本研究提出一種以深度學習技術為基礎應用於室內移動型智慧機器人之線上人體動作辨識系統。此系統利用輸入的視覺資訊且在攝影機朝向目標人物移動的狀況下進行線上人體動作辨識，主要目的在提供智慧型人機互動除了聲控與螢幕觸控外更多的介面選擇。本系統採用三種視覺輸入資訊，分別為彩色影像資訊、短期動態資訊以及人體骨架資訊。且在進行人體偵測時涵蓋五個階段，分別為人體偵測階段、人體追蹤階段、特徵擷取階段、動作辨識階段以及結果整合階段。本系統首先使用一種二維姿態估測方法用來偵測影像中的人物位置，之後利用Deep SORT追蹤方式進行人物追蹤。之後，在已追蹤到的人物身上擷取人體動作特徵以便後續的動作辨識。本系統擷取的人體動作特徵有三種，分別為空間特徵、短期動態特徵以及骨架特徵。在動作辨識階段，本系統將三種人體動作特徵分別輸入三種訓練好的神經網路(LSTM networks)進行人體動作分類。最後，將上述三個不同神經網路的輸出結果整合後作為系統的分類結果輸出以期達到最佳成效。另外，本研究建立一個移動式攝影機下的人體動作資料庫(CVIU Moving Camera Human Action dataset)。此資料庫共計3646個人體動作影片，其中包含三個不同攝影角度的11種單人動作和5種雙人互動動作。單人動作包括站著喝水、坐著喝水、站著吃食物、坐著吃食物、滑手機、坐下、起立、使用筆記型電腦、直走、橫走和閱讀。雙人互動動作包括踢腿、擁抱、搬東西、走向對方和走離對方。此資料庫的影片也使用來訓練與評估本系統。實驗結果顯示，空間特徵之分類器的辨識率達96.64%，短期動態特徵之分類器的辨識率達81.87%，而骨架特徵之分類器的辨識率則為68.10%。最後，三種特徵之整合辨識率可達96.84%。
視覺式耳穴診斷輔助系統
(2020) 后玲; Hou, Ling
由於現代人工作繁忙，不太注意定期進行全身健檢的重要性。而有些疾病的初期病徵並不明顯，等到病徵變得明顯時，常常為時已晚。因此，若能開發醫學相關的診斷輔助系統讓一般人隨時隨地都能做身體健康的初步檢測，即可減少因疾病發現得太晚的遺憾。同時，醫學相關的診斷輔助系統可提供醫師病人進行複檢的建議，減少醫療資源的浪費。所以本研究擬開發一套醫學相關的診斷輔助系統，即視覺式耳穴診斷輔助系統，以期達到上述的目的。視覺式耳穴診斷輔助系統使用耳朵影像進行疾病辨識。本系統可分為二個部分，第一部分為視診陽性反應區域偵測，第二部分為相關疾病辨識。當耳朵影像輸入至視診陽性反應區域偵測系統後，會先經過語義分割神經網路偵測出耳朵影像中視診陽性反應區域的位置。本研究所使用的語義分割神經網路為 U-Net 架構的改良版，針對 U-Net 原型架構進行了批量標準化、空洞卷積、調降卷積層數和整合各卷積核膨脹率等改良。接著將語義分割結果輸入至疾病辨識系統，辨識出輸入影像是否顯示出系統已知疾病。本研究辨識的疾病共有九種，分別為肝炎、乳腺炎、子宮頸炎、前列腺炎、前額痛、偏頭痛、後腦杓痛、頭頂痛以及全頭痛。使用的資料庫為作者親自拍攝收集，並命名為 CVIU 108 EAR Dataset。實驗顯示使用 CVIU 108 EAR Dataset 進行訓練後本系統之疾病辨識正確率為 97.22%，IoU 為 84.71%。上述結果顯示本研究所提出之視覺式診斷輔助系統具其有效性。
基於AlphaZero General Framework實現Breakthrough遊戲
(2019) 吳天宇; Wu, Tian-Yu
在現今人工智慧電腦對局領域中，多數棋類的頂尖程式，都以AlphaZero的開發框架獨占鰲頭，棋力遠超以往傳統的程式，然而此種架構中有許多研發內容並不因不同棋類的規則而有所不同，當需要研發新種類的對局程式時將會有許多重複的前置開發成本。故本論文中以C++實作遊戲規則及搜尋樹處理，以Python與TensorFlow套件實作類神經網絡訓練，兩者結合出易讀且運行效率較高的通用型AlphaZero框架的程式，此框架能夠讓使用者只需更改遊戲規則，即可開始AlphaZero的訓練模式。相較於GitHub相關開源碼中，Surag Nair先生全部以Python語言開發的alpha-zero-general程式，在突圍棋(Breakthrough)運行上，單執行緒速度效能可提升77.8%。此外，本論文另外實作並測試三個可能的改良方法，用於提升整體AlphaZero訓練流程的棋力。其修改點並不因不同棋類規則而有所不同，目的在於讓後續能套用至通用型AlphaZero框架的棋類也能夠受益。分別是對訓練資料進行增量的Replay方法、應用MMoE(Multi-Gate Mixture-of-Experts)類神經網路架構於AlphaZero中欲增強網路模型的預測能力，以及利用改良原版AlphaZero中如何贏得越快越好的Quick Win方法，將針對類神經網路的Label更改標記方式與蒙地卡羅樹搜尋演算法進行改良。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results