學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
37 results
Search Results
Item 基於深度學習對籃球轉播影像之球場校正及球員追蹤(2024) 連堃玹; Lian, Kun-Syuan許多球類競技運動使用視覺影像資料來識別戰術,並採用相對應的防守策略來應對,以最有效率的方式獲取分數。這些分析資訊採用的研究數據來源在於球員在球場上的位置變化,即軌跡資訊。通常仰賴人力透過逐幀的方式針對球隊的軌跡進行剖析,這往往需要耗費大量的時間與精力。此外,發展技術成熟的光學影像追蹤系統其背後所需要的器材成本及後續維護的費用使其難以普及使用。近年來,由於拍攝器材以及多媒體串流技術的進步,網路上有豐富且大量的轉播資訊提供獲取比賽資訊另一種途徑。因此,本研究基於籃球影像畫面提出了球員定位及追蹤軌跡方法 (Basketball Player Position Tracking Trajectory, BPT),基於轉播影像自動化生成球員在比賽過程中的軌跡資料。本研究所提出的BPT校正方法僅需使用籃球轉播系統的影像畫面作為輸入,即可生成雙方球隊在每次的攻防過程中的實際軌跡資訊,為後續的進階應用資訊分析提供重要的資訊來源。在BPT方法中,由轉播影像的球場校正方法與球員追蹤方法兩個模組所組成。在球場校正方法中,以三階段的深度模型任務實現端對端預測校正單應性矩陣。在球員追蹤方面,本研究基於追蹤演算法獲得初步的追蹤結果,通過BPT方法中的特徵模型提取更具鑑別度的球員特徵,結合貪婪合併軌跡的方式將片段的軌跡重新關聯,以達到更穩定的追蹤效果。實驗結果顯示,在球場校正準確性方面,採用交集比 (Intersection over Union, IoU) 評估校正的準確程度,在半場校正準確率高達到 87%。在球員追蹤的準確度採用高階追蹤準確率 (Higher Order Tracking Accuracy, HOTA) 評估多目標追蹤的成效。整體對球員的追蹤準確度可達 77%。根據使用情境,選擇適當的追蹤門檻值,最終採用最佳的追蹤演算法結合本研究的BPT方法,在球員追蹤準確率可高達 82%。Item 基於深度學習之鯨豚個體身分辨識系統(2024) 蔡妤涓; Tsai, Yu-Chuan本研究提出一個基於深度學習之鯨豚個體身分辨識系統,希望透過鯨豚個體身分辨識的技術,追蹤鯨豚遷徙路徑來估算鯨豚族群數量,進一步評估和保護海洋生態系統的健康。研究目標為辨識同一物種內不同鯨豚個體的生物特徵,以及同一隻鯨豚在不同拍攝環境下的影像特徵差異。由於鯨豚資料集中存在影像品質不穩定和個體影像數量極不平均的問題,故本研究著手解決這些問題,包含資料前處理(Data Preprocessing)、提出模型改良方法,及不同面向的測試方法。本系統首先對鯨豚資料集進行資料前處理,接著進行鯨豚偵測,最後作鯨豚個體身分辨識。資料集前處理包括資料清理(Data Cleaning)和資料增強(Data Augmentation),其目的在解決資料集中的潛在問題。在鯨豚偵測階段,採用YOLOv5定位鯨豚位置,過濾背景雜訊以增加模型訓練速度。在鯨豚個體身分辨識階段,利用骨幹模型(Backbone Model)從鯨豚影像中提取特徵,並使用頭部模型(Head Model)進行個體身分預測。本研究使用EfficientNetV1-B4作為骨幹模型,頭部模型使用附加角度邊界損失函數(ArcFace)。針對資料集問題對頭部模型進行改良,以提高鯨豚個體身分辨識的正確率。透過在ArcFace加入子中心(Sub-center)向量,解決同一隻鯨豚在不同拍攝環境下的影像特徵差異的問題,從而提升鯨豚個體身分辨識的正確率。此外,引入動態邊界(Dynamic Margin)解決在訓練階段鯨豚個體影像數量極不平均的問題,加快模型的收斂速度。實驗結果顯示改良後的子中心附加角度邊界損失函數在三個面向的測試 實際應用情況、多數合成資料庫(Synthetic Data),和部分合成資料庫(影像數量3張以上的鯨豚個體)之mAP分別為68.63%、81.60%和35.70%。相較於原始的ArcFace提升4.83%、6.08%和8.19%。另外,將動態邊界應用於子中心附加角度邊界損失函數的改良方案,在維持相當正確率相當的情況下,減少28%的訓練時間。由實驗結果發現,本研究所提出的改良方案能對資料集問題進行適當處理並提升鯨豚個體身分辨識的準確率。Item 以注意力模塊、殘差連接建構之雨量深度學習超解析度模型(2023) 江家浩; Chiang, Chia-Hao人口的過度增長、土地的開發以及化石能源的消耗在近百年來造成地球氣候的變遷。自然災害發生的頻率也因此增加,並造成許多人類的傷亡以及產業的經濟損失。為了減緩自然的衝擊與資源的消耗,各國政府機關制定了相關政策,以減緩消耗;科學家們研發全新的、乾淨的替代能源,另一方面,氣象學家們則是藉由模型的建構,來模擬並預測這些極端事件的發生,以利人們在災害來臨之前做好準備,減少損失。其中,以水資源的影響最為深遠,它是地球中最基本也是重要的循環之一,同時也是占比最重的溫室氣體,且與人類活動息息相關。我們以台灣為例,台灣雖然年降雨平均高達2,500毫米,然而人均水資源卻是低於全球平均值。這是因為台灣的崎嶇地形特色所致,再加上季風與洋流的作用,使得降水的時空間分布不均。若能預測雨量的分布,則可訂定相關的防洪或者儲水建設,以降低災害並最大化水資源的利用,故一個準確且高解析度的預測模型一直是科學家們努力研究的方向之一。現今普遍的做法是將氣象模型的模擬資料做降尺度來提升解析度以供區域性的參考。然而這些預測模型所消耗的計算資源甚鉅,且解析度有限,很難提供疆域小且地形交互作用複雜的地區有準確的預測結果。我們提出了一個以深度學習為基礎,並結合殘差連接、注意力模塊的超解析度模型,可望提升現有的氣象模型所產出之低解析度的結果之準確性和解析度。文末,我們也比較了其他氣象降尺度的方法和其他機器學習為基礎的模型,並在四種指標(平均絕對誤差、方均根誤差、皮爾森係數、結構相似性)、定量降雨預報檢測中優於其他氣象降尺度的方法。Item 噪聲學習:漸進式的樣本選擇(2023) 王景用; Wang, Jing-Yong在人工智慧蓬勃發展的年代,深度學習技術在不同的影像辨識工作中,都取得不錯的成果,然而這些計算模型的訓練任務往往都是建立在乾淨資料集上做的實驗。然而創建一個乾淨大型資料集往往都需要龐大的標注成本,甚至在一些大型的開源資料集中也有一些人為的標記錯誤出現。為了降低建構資料集的成本以及錯誤標籤對模型的影響,噪聲學習主要研究如何在有標記錯誤的資料集中訓練出穩定可用的模型。在過去的研究中,篩選乾淨樣本的技術,如高斯混合模型或是JS散度技術,都無法準確將所有的乾淨樣本篩選出來。因此,本文從模型預測穩定度的觀點,結合過去相關研究中加入KNN演算法,利用模型預測的穩定度與樣本特徵的相似度進行多階段的篩選。參考近期論文的設計,在雙模型架構設計下,我們發現在訓練前期KNN模型的預測能力比雙模型的預測能力還要差。為了有效利用雙模型的預測結果和KNN模型,我們用模型預測穩定度的指標,漸進式的使用KNN模型,幫助我們過濾出乾淨標籤以及噪聲樣本。實驗結果可以看到我們的方法在不同的噪聲類型、不同的噪聲率下都能有不錯的表現,證明我們方法的有效性。Item 視覺式智慧型高爾夫揮桿動作姿勢分析系統(2022) 石展兢; Shih, Chan-Ching全球參與高爾夫這項運動的人口數量正在逐步上升,根據世界高爾夫管理機構皇家古老高爾夫俱樂部(The R&A)公布2021年的全世界高爾夫球人數為6,660萬人,超越了2012年的6,160萬人來到歷史高點,可見高爾夫球己經成為全世界普及的運動。近年來運動科技興起,將運動與科技兩者相互結合,利用智慧化訓練能夠有效幫助運動員提升訓練品質並降低運動傷害發生。本研究以高爾夫運動為基礎,為避免高爾夫揮桿姿勢錯誤導致運動傷害,因此開發出一套視覺式智慧型高爾夫揮桿動作姿勢分析系統,讓使用者能夠隨時隨地將自身和教練兩者的高爾夫揮桿姿勢相互比較,可達到自行修正高爾夫揮桿姿勢之目的。 視覺式智慧型高爾夫揮桿動作姿勢分析系統輸入使用者之高爾夫揮桿影片以及教練之高爾夫揮桿影片進行高爾夫揮桿姿勢比對分析。本系統主要分為兩大步驟:高爾夫揮桿分解動作擷取以及三維人體模型姿勢比對分析。在第一步驟中,本研究使用輕量級網路ShuffleNetV2和循環神經網路Bi-GRU進行改良後擷取出使用者以及教練兩者的高爾夫揮桿八個分解動作。在第二步驟中,利用擷取出使用者以及教練兩者的高爾夫揮桿八個分解動作分別建構出可以表現出豐富人體資訊的三維人體模型,接著使用三維人體模型進行使用者以及教練的高爾夫揮桿姿勢比對分析。 本研究將高爾夫揮桿動作拆解成八個分解動作,依序是擊球準備(address)、起桿(toe-up)、上桿(mid-backswing)、上桿頂點(top)、下桿(mid-downswing)、擊球(impact)、送桿(mid-follow-through)以及收桿(finish)。本研究使用GolfDB資料集[Mcn19]所蒐集的高爾夫揮桿影片進行訓練及測試,實驗結果顯示高爾夫揮桿分解動作擷取之準確率為86.15%。另外,本研究採用之三維人體模型是由6,890個節點所組成的人體網格,該模型將人體分解成24個身體部位,實驗時利用該模型之擬真人體特性能夠更精準地判斷使用者及教練之高爾夫揮桿姿勢差異。如上所述,本研究所提出之視覺式智慧型高爾夫揮桿動作姿勢分析系統具有效性。Item 運用類神經網路方法分析基於面向的情感極性分類(2022) 王皓平; Wang, Hao-Ping隨著時代以及科技技術的成長,人們不像過去一樣,需要查看報紙、購買雜誌、詢問左右鄰居的情報才能知道自己想要得知的資訊。在科技技術的成長下,不管是餐廳的評價、筆記型電腦的實用程度,大部分的人們都可以使用網際網路來查看是否有所想要的資訊。本論文使用的資料集由SemEval-2014 Task 4官方所提供,並且含有四項子任務:(一) Aspect term extraction、(二) Aspect term polarity、(三) Aspect category detection、(四) Aspect category polarity,本論文進行第二項子任務研究,判斷出句子中的面向詞是正面、負面或中立,評估方式採用Accuracy,並且與當年競賽結果相比較。本論文實驗方法將資料先進行前處理並且轉成詞向量作為輸入的來源,以及將極性做情感標籤,並且使用Bi-LSTM (Bi-directional Long Short-Term Memory)、Self-attention(自注意力機制)及使用Two-level encoding對資料進行訓練。最後去比對每種不同模型的準確率,結果顯示Two-level encoding預測準確率餐廳達82%,筆記型電腦則達78%。Item 大型集成數據集的深度學習輔助基於圖像的可視化(2022) 周君彥; Chow, Kwan-Yin為了研究不同的物理現象,科學家們經常在超級電腦上運行電腦模擬,以生成不同初始模擬參數的數據集。分析數據集的常見做法是將數據集從超級電腦移動到磁盤,並在後分析機器上分析數據集。隨著數據規模的增長,連接到超級電腦的有限的帶寬和存儲空間成為數據分析管道的瓶頸。為了支持大規模數據分析和可視化,我們提出了一種深度學習輔助的基於圖像的方法。我們的方法產生了一個小型的基於圖像的數據代理,具有較低的圖像分辨率和較低的原位像素射線採樣率,以減少輸入和輸出時間和磁盤存儲空間需求。深度學習模型經過高級訓練,可將小型數據代理恢復到常規採樣率和圖像分辨率,以實現高質量數據可視化和探索。我們評估並表明我們的方法優於多種選擇。Item 利用多特徵訓練對吉他演奏進行自動採譜(2022) 謝宛庭; Hsieh, Wan-Ting自動音樂採譜Automatic Music Transcription (AMT) 定義為將原聲音樂訊號轉換成音樂記號。在過去的研究裡,較多研究是針對鋼琴獨奏或者多樂器演奏去進行自動採譜,而較少AMT系統針對吉他所彈奏出的音樂去做類似工作。因為吉他歌曲通常是在六根弦上,以不同的指法、刷弦、和弦進行等技巧去彈奏,其中還可能會有單音、和弦的彈奏方式。模型必須在一首吉他演奏曲中,從六根不同的弦所彈奏而成的豐富的諧波,辨識出所彈奏的音符。在一首歌曲中,單音的部分極大機率為和弦音,且大部分的音傾向於出現在拍點、或在拍點相關位置(後半拍)。因此,在這項研究中,我們將針對以吉他彈奏出的歌曲做自動採譜,除了使用音符(Note)做為輸出標籤,也將側面資訊:和弦(Chord)、拍點(Beat)一併考慮。過去在AMT的子任務裡,音符層級的採譜任務 (Note-level Transcription) 通常只會使用音符做為輸出標籤。我們做了數個多任務學習(Multitask learning)的實驗,同時輸出音符、和弦以及拍點標籤,希望能藉此提高音符在吉他曲中轉錄的效能,同時也記錄了和弦辨識、拍點追蹤在這個系統裡的功效。Item 基於生成對抗網路的偽隨機數生成函式研究(2022) 張哲銘; Chang, Che-Ming如何生成安全和快速的隨機序列一直是密碼學中的一個關鍵問題。在本文中,我們將介紹如何用硬體噪音訓練GAN(生成對抗網路)並生成具有類似質量的隨機序列。Linux操作系統中由/dev/random產生的硬體噪音代表了我們GAN的訓練集。在訓練中,我們還應用了其他方法,如Early stopping,以防止模型過擬合。最後,我們使用128,000,000比特的隨機序列,在NIST(美國國家標準暨技術研究院)特別出版物800-22測試和ENT測試下,將我們的GAN與其他PRNG(偽隨機數生成器)進行比較。結果顯示,我們的GAN優於大多數PRNG,我們發現我們的GAN與/dev/random作為訓練集有很多相似之處,並且生成隨機序列的速度至少是/dev/random的1044倍。它證明了GAN作為一種神經網絡PRNG,可以模仿非確定性算法的硬體噪音,同時具有硬體噪音的高安全性和PRNG的速度優勢。而且,它已被證明可以取代安全但低速的硬體設備,並產生類似質量的隨機序列,為密碼學領域提供了一種全新的方法。Item 資訊擷取與知識注入技術於機器閱讀理解之研究(2022) 吳沁穎; Wu, Chin-Ying近年來,預訓練上下文語言模型 (Pre-trained Contextualized Language Modeling, PCLM) 的出現,使得基於 PCLM 的方法在各種機器閱讀理解 (Machine Reading Comprehension, MRC) 與對話式機器閱讀理解 (Conversational MRC, CMRC) 都有非常優秀的表現。然而,在機器閱讀理解領域仍然較少研究琢磨於開放領域知識 (Open-domain Knowledge) 與域內知識 (In-domain Knowledge) 的運用。有鑑於此,本論文提出一種針對MRC與CMRC的有效建模方法。此方法具有兩個主要的特點:首先,針對文章段落進行訊息提取 (Information Extraction, IE) 的預處理,藉此將每個文章段落聚類成一個偽類 (Pseudo-class) 以提供PCLM 進行訊息增強,進而提升後續 MRC與CMRC的任務表現;另一方面,本論文提出了一種新的知識注入 (Knowledge Injection, KI) 方法,將開放領域知識 (Open-domain Knowledge) 與域內知識 (In-domain Knowledge) 注入至 PCLM ,藉此捕捉更為精準的問題與文章段落間的相互關係。本論文將實驗結果與數個當今最佳的方法進行比較,除了在多個MRC與CMRC資料集上都有一定程度的表現外,大量的實證實驗也證明了本論文方法的有效性與可行性。