學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
617 results
Search Results
Item 使用定位摩克樹作資料存證的應用研究(2024) 黃鯤義; Huang, Kun-Yih在大數據(big data)的網路時代,由於各種原因,無論是人為造成的或意外發生的情況,都可能導致有價值的資訊遭受損壞、竄改或竊取等危害。因此,確認各種活動或資訊交易的身份正確性,以及保障其內容、結果的安全性、以及日後追查稽核或即時稽核與驗證的相互不可否認性與可歸責性,成為大數據網路時代資訊安全的核心工作。公有區塊鏈(public blockchains)憑藉其去中心化的分散式架構,具有不可竄改性與透明性,透過共識協定使得網路節點能夠相互監督,進而達到資料的可信任性。然而,受限於區塊鏈高額礦工費與每秒交易筆數(TPS)的低限制,大量的資訊難以儲存於區塊鏈中。因此,本論文採用了Hwang等人提出的定位摩克樹(transaction positioned Merkle tree)[ 83, 97, 98, 100]作為存證的基礎技術。在對定位摩克樹的效能進行一般性測試之後,筆者選擇了兩個代表性的情境進行深入研究。第一項研究提出了雲端服務執行環境完整性即時稽核的架構,這不僅可以避免執行環境因遭攻擊、竄改或損壞所造成的意外,同時也能夠在系統運作時即時發現是否有遭受攻擊、竄改、遺失檔案或惡意軟體的植入,例如電腦病毒或木馬程式。第二項研究模擬了如何在真實人類情境中,利用定位摩克樹與公有區塊鏈,實現基於公有區塊鏈的自動給付與申訴賠償機制。結果證明了利用定位摩克樹的證據存證技術可以完全解決情境中的信任問題,且不受限於公有區塊鏈效能瓶頸。總結而言,本研究提供了一個具體而有效的方法,結合定位摩克樹與公有區塊鏈,以應對大數據網路時代資訊安全的挑戰。這些方法不僅具有實用性,同時突破了公有區塊鏈效能的桎梏。Item 第二外語學習者之自動發音評測及錯誤發音偵測研究(2024) 林孟欣; Lin, Meng-Shin隨著全球化的趨勢,電腦輔助發音訓練(CAPT)系統越來越受歡迎,應用於 減輕教師工作量、發音評測線上課程和幫助學習者練習語言技能等場景。本 論文提出了一系列創新的 CAPT 建模技術,以應對各種教學和自學應用,展 示了其強大的潛力和實用價值。在自動語音評估 (Automatic Pronunciation Assessment, ASA) 方面,我們針對資料不平衡問題,採用了類平衡損失函數 和重新採樣方法,縮小了訓練集和測試集之間的差距,並在不平衡資料集 speechocean762 上顯示出顯著的性能提升。在錯誤發音偵測與診斷 (Mispronunciation Detection and Diagnosis, MDD) 方面,我們使用了一種新穎 的基於文本提示引導聽寫模型,通過音素依賴閾值有效平衡精度和召回率, 同時引入多視角音頻編碼器提供細粒度發音提示。這些創新方法能夠更精確 地識別並診斷 L2 學習者的發音錯誤,並提供即時反饋。在 L2-ARCTIC 基準 數據集上的綜合實驗結果表明,我們的方法在多個競爭基線中具有實際可行 性。然而未來的研究可以探索更多樣化的語言和發音情境,以進一步提升 CAPT 系統的適用性和實用性。同時,我們也希望未來可以探索 APA 和 MDD 的聯合模型,以充分利用兩者的優勢,提供給學習者在使用系統上得到更好 的回饋。Item Human-Aware Edge Computing Scheduling for Cyber-Physical Systems(2024) Gabor Szolnok; Gábor Szolnok-Item Explainable Anomaly Detection in Surveillance Videos: Autoencoder-based Reconstruction and Error Map Visualization(2024) Littek, Alina Raffaella Giulia; Littek, Alina Raffaella GiulianoneItem 基於對比式訓練之輕量化開放詞彙的關鍵詞辨識(2024) 楊宥芩; Yang, You-Chin隨著智慧裝置的普及,關鍵詞辨識技術變得越來越重要,其目標是在連續語音中識別是否存在特定的關鍵詞,這項任務極具挑戰性,因為它不僅需要準確地檢測關鍵詞,還需要有效地排除其他關鍵詞。隨著深度神經網絡的快速發展,採用深度神經網絡的關鍵詞辨識在精準度上取得了顯著進步。傳統基於深度神經網絡的關鍵詞辨識系統需要大量目標關鍵詞的語音作為訓練資料,因此只能識別固定的關鍵詞,且在訓練完成後難以替換關鍵詞。若需要替換關鍵詞,則必須重新收集目標關鍵詞的語料並重新訓練模型。本文聚焦於實作一個開放詞彙的關鍵詞辨識系統。該系統通過自注意力機制,利用語音特徵與文本嵌入向量生成有效的聯合嵌入,並藉由辨別器對聯合嵌入計算信心分數。系統依據這些信心分數來決定是否啟動系統。同時,透過對比式學習來處理在設定多個關鍵詞時,錯誤關鍵詞的信心分數過高而產生的誤報問題。在預訓練音頻編碼器時,我們除了使用包含5000類關鍵詞的語料進行分類任務訓練的預訓練音頻編碼器外,還採用了更加節省參數的音頻編碼器架構,能夠減少100K的參數,並通過500類關鍵詞進行分類任務的預訓練。本研究在識別10個未在訓練階段出現的新關鍵詞上,達到了94.08%的準確率,相較於基準方法提升了12%。Item 以零知識證明建立可信的隱私保護資料使用機制(2024) 劉洧聿; Liu, Wei-Yu隨著人工智慧技術的飛速發展,數據分析在各領域展現出巨大的應用潛力和商業價值。然而,數據分析依賴於大量涉及個人隱私的數據,這引發了對隱私保護的高度關注。現有的去識別化技術雖然可以在一定程度上保護隱私,但仍存在數據質量和準確性受損的問題。此外,合約和第三方稽核機構在保護資料隱私方面也面臨著效率和成本的挑戰。本篇論文提出了一套基於公開金鑰基礎建設和零知識證明的資料交換系統,以應對上述問題。公開金鑰基礎建設技術能夠提供安全的身份驗證和數據加密,確保數據在傳輸過程中的安全性。零知識證明技術則允許在不洩露原始數據的前提下進行數據分析,僅返回分析結果,從而大大降低了隱私洩露的風險。此外,零知識證明還能生成與原始資料無關的證明,使稽核過程自動化並降低稽核成本。這套資料交換系統預期能夠在不損害數據質量的前提下,有效保護隱私資料,提升數據分析的效率和安全性。儘管零知識證明技術需要耗費大量算力,計算成本和時間成本需要進一步評估,但其在隱私保護和稽核自動化方面的優勢,使其成為解決數據分析中隱私保護問題的有效方法。Item 點格棋中小盤面模型取代大盤面模型訓練之可行性研究(2024) 劉怡汎; Liu, Yi-Fan點格棋(Dots and Boxes)是款零和、完全資訊並公正的雙人遊戲,雖然棋盤小卻有較高的複雜度。本論文以3×3盤面的點格棋作為研究主題,實現訓練好的小盤面的AlphaZero神經網路模型取代大盤面的AlphaZero神經網路模型。在實作上,我們採用基於AlphaGo Zero論文實現的AlphaZero General的開源框架專案,透過方便理解的Python開源專案,讓使用者可以輕鬆的在AlphaGo Zero的架構上實作遊戲及訓練神經網路,省去從頭開始開發的成本,能較專注於其他研究中。從實驗結果可以得知,在1天、2天及3天的訓練神經網路時間下,3×3盤面AlphaZero General代理人以平均處理合併policy的方式,在與相同訓練時間的4×4盤面AlphaZero General代理人的對戰中,分別取得64%、58%、57%的勝率。因此在訓練時間限制3天的情況下,可以使用訓練好的小盤面的AlphaZero神經網路模型取代大盤面的AlphaZero神經網路模型。Item 籃球球員運動追蹤系統(2024) 吳鈺瑄; Wu, Yu-Xuan籃球在全球擁有廣泛的觀眾和參與者,隨著科技進步,數據分析技術在籃球比賽中的應用變得越來越普及。這些技術革新為教練和球員提供戰術支持,從而提升比賽表現。為進一步推動籃球運動的發展,本研究致力於開發一個籃球球員運動追蹤系統,以提供數據和分析,幫助教練和球員制定更有效的戰術策略。本系統以籃球比賽影片為輸入,通過一系列的處理步驟,最終在籃球場平面圖上展示球員的運動軌跡。主要的處理過程包括籃球球員偵測、球場偵測及座標轉換,以及球員運動軌跡追蹤。本系統透過YOLOv8 [Gle23]模組偵測籃球球員,Kalicalib [Mag22]技術偵測籃球球場、以及本研究提出的演算法進行球員分隊及追蹤。系統通過裁剪輸入影像中背景區域並獲取背景顏色,然後去除球員圖片的背景,並使用k-means聚類進行球員分隊,同時去除裁判的影響。這些技術確保系統在各種光照條件、比賽場地和球員服裝顏色對比度下進行球員分隊。本研究提出三項評估系統準確性的指標,分別為球員軌跡平均偏移量、球員移動方向的準確率、以及球員分隊的準確率。實驗結果顯示,系統的平均偏移量為2.79公尺,球員移動方向的準確率為70%,而球員分隊的準確率則為91%。Item 基於深度學習之羽球動作分析系統(2024) 林聖傑; Lin, Sheng-Jie近年來由於2020年東京奧運,台灣在羽球項目拿下一面金牌以及一面銀牌的好成績,隨著奪冠之後的聲浪,台灣的羽球人口也持續上升,因此本研究提出一套基於深度學習之羽球動作分析系統,能夠讓使用者輸入一段羽球動作影片,即可分析出動作的正確性,以避免造成傷害。也可以使得使用者剩下昂貴的教練費及場地費。羽球動作分析系統主要可以分成三個部分,分別為資料前處理、羽球動作辨識子系統及3D人體模型建構及分析子系統,羽球為世界上最快的球類運動,在拍攝時容易造成物件模糊的情形,因此本研究透過資料的前處理解決模糊影像,後續使用Frame Flexible Network架構,學習來自不同頻率的特徵圖,接著透過Temporal Shift Module位移部分通道的特徵圖,以達到時序融合。後續使用近年來新穎的3D人體模型技術,透過其中24個人體關鍵點,使用普式分析(Procrustes analysis)輸出容易受傷的關節點。本研究建立一個羽球動作資料集,命名為CVIU badminton datasets,該資料集包含7個常見的羽球動作,分別為反手擊球、正手擊球、右挑球、左挑球、低手發球、高手發球、防守動作,實驗結果顯示在CVIU badminton datasets中的Top-1準確度達到91.87%。類別準確度(Class accuracy)達到85.71%。後續實驗結果顯示本研究所提出改良都有提升效果。Item 基於深度學習之攝影指引系統──多面相評論和評分(2024) 俞柏丞; Yu, Po-Cheng近年來,自然語言處理和影像處理領域進步迅速,各種應用蓬勃發展帶眾多應用。隨著手機成為日常拍攝的重要工具,本研究提出一套基於深度學習的拍攝指引系統。該系統結合自然語言處理和影像處理技術,幫助使用者在拍攝過程中獲得具有情感和美學價值的建議。本系統通過文字評論與美學分數提供指引,幫助使用者提高攝影技巧,並準確地捕捉畫面中的美感。拍攝指引系統主要可以分成兩個子系統,一個是輸出分數的美學評分子系統,另外一個是輸出文字的美學評論子系統。其中第一個為輸出分數的美學評分子系統,採用多尺度影像品質評估模型,作為本研究客觀評估影像的參考指標。另外一個為美學評論子系統,採用Encoder-Decoder構成的文字生成模型,本研究選擇SwinV2作為Encoder來擷取影像特徵,並使用GPT-2作為Decoder學習文字特徵,同時在其內部使用交互注意力機制(cross attention)做異質性特徵融合,最後生成評論。但交互注意力機制不能有效融合異質性特徵,所以本研究引入Self-Resurrecting Activation Unit (SRAU)來控制異質性特徵學習的內容。而GPT-2 block中的多層感知網路Multi-Layer Perceptron(MLP)無法學習處理複雜的特徵資訊,所以本研究採用前饋網路高斯誤差門控線性單元Feedforward Network Gaussian Error Gated Linear Units (FFN_GEGLU)網路架構,來提升模型學習的效果。為解決資料集過少的問題,本研究採用網路收集的弱標籤資料集,但弱標籤資料內文字評論常有錯誤。為提升資料集品質,本研究採用兩個方法。一是收集並整理弱標籤資料集,通過資料清洗提高品質;二是加入高品質資料進行訓練,並通過資料增強的方式增加高品質資料集的數量。通過這些資料處理方法,本研究將其整合成一個高品質資料集進行訓練及測試。結果顯示35個評估指標中有33個優於基準模型,改良證明模型在五種美學面向中有94%的指標優於基準模型,顯示其有效性。