資訊工程學系
Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60
本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。
News
Browse
8 results
Search Results
Item 強化學習與遷移學習應用於六貫棋遊戲(2023) 偕為昭; Jie, Wei-Zhao六貫棋是一款雙人對局遊戲,起初在1942年於丹麥的報紙中出現,被稱為Polygon。1948年時,被美國數學家John Forbes Nash Jr.重新獨立發明,並稱為Nash。最後在1952年由製造商Parker Brothers發行,且將其命名為Hex。在此遊戲中,上下及左右的對邊各以一個顏色表示,雙方玩家需要在棋盤上落子並將自己顏色的對邊連接以取得勝利。此遊戲為零和遊戲,且不會有平手的情況發生。在以前的研究中,六貫棋在9路以下的盤面已經被破解。由於AlphaZero的問世,現今電腦對局遊戲的程式有更進一步的發展,以該方法研發的對局程式都有不錯的棋力。而在六貫棋遊戲中,不得不提由加拿大Alberta大學研發的Mohex程式,該程式一直都在競賽中得到優異的成績,至今也持續進行改良。本研究試圖以AlphaZero的訓練框架進行強化學習,並以Mohex破解的盤面資料為輔助。在訓練大盤面的模型時需要較多的成本,因此嘗試結合遷移學習的方式,運用已經破解的小盤面資料,使初期的自我對下階段就能產生較好的棋譜,而不是從完全的零知識開始訓練,藉此提升大盤面模型的訓練成果。並且比較在進行遷移學習時,使用不同參數轉移方法的影響。Item 使用KataGo方法及迫著空間搜尋提升AlphaZero在六子棋的訓練成效(2023) 林育璋; Lin, Yu-Chang自從Google DeepMind提出AlphaZero演算法之後,許多使用傳統搜尋法的電腦對局程式都被AlphaZero作法取代。然而AlphaZero作法需要非常大量的算力,才能夠達到頂尖的水準,因此我們希望透過程式效能改進及傳統做法的輔助,提升AlphaZero在六子棋遊戲的訓練效率,讓我們可以使用個人電腦達到頂尖水準。本篇論文使用Alpha-Zero-General開源程式碼作為基礎,研發一支AlphaZero的六子棋程式。我們參考galvanise_zero的做法修改MCTS的搜尋方式、參考OOGiveMeFive提出的通用型Bitboard,將其進行修改後用於六子棋程式中,並且參考陽明交通大學的CZF_Connect6提出的六子棋強度改進方式。本篇論文從三個面向來加速AlphaZero的訓練效率。第一個是提升程式效能,我們分析Alpha-Zero-General的一個效能瓶頸是MCTS的部分,因此透過C++及平行化的方式重新實作MCTS,大幅提升AlphaZero的訓練效率。第二個是提升神經網路的性能,使用KataGo提出的Global Pooling及Auxiliary Policy Targets方法修改神經網路,並套用於六子棋程式中。第三個是提升訓練資料的品質,使用KataGo提出的Forced Playout and Policy Target Pruning方法及傳統的迫著空間搜尋提升訓練資料的品質。另外本篇論文提出一種新的訓練方式,提升AlphaZero加入heuristics的訓練效果。我們使用C++、平行化及批次預測的方式可以讓MCTS的搜尋效率達到26.4的加速比,並且使用Bitboard的方式可以讓迫著空間搜尋達到6.03的加速比。在短時間的訓練中,雖然使用相同時間AlphaZero方法可以訓練更多個迭代,不過使用相同時間訓練的KataGo方法與原始AlphaZero方法相比依然可以取得57.58%的勝率,且使用相同時間訓練的KataGo-TSS Hybrids方法與原始AlphaZero方法相比也可以取得70%的勝率。並且這三種作法訓練到500個迭代後與NCTU6_Level3對戰,都可以取得超過65%的勝率。Item 利用啟發式法則與數種訓練策略來評估中國跳棋程式(2023) 江曛宇; Jiang, Syun-Yu中國跳棋(Chinese Checkers)是一個知名且充滿挑戰性的完全資訊遊戲。與一些其他的傳統遊戲如五子棋、圍棋不同,賽局樹的搜索空間並不會隨著遊戲的進行而越來越小。若是單純使用AlphaZero架構之演算法,在短時間內甚至難以訓練出初學者程度之程式。過去雖有使用蒙地卡羅樹搜索法結合深度學習與強化學習,並應用於中國跳棋上的演算法,但是仍有改進的空間。若是能夠適當的加入一些中國跳棋的先備知識,應該能使棋力進一步的提升。本研究針對中國跳棋設計數種策略,修改了前代程式Jump的設計,人為的增加先備知識,以期有更好的棋力,並且針對中國跳棋在神經網路訓練初期棋力很弱的問題,提出一連串的解決方案與策略,使其能夠在不使用人為訓練資料以及預訓練的狀況下,能夠獲得一定的棋力,並且對這些策略的特點進行探討,分析出各個策略的優缺點。Item 應用階層式語意暨聲學特徵表示於語音文件摘要之研究(2019) 劉慈恩; Liu, Tzu-En由於巨量資訊的快速傳播,如何有效率地瀏覽資料是ㄧ項重要的課題。對於多媒體文件而言,語音是其內容中具有語意的主要元素之一,能夠相當完整的表達整份多媒體文件。近年來,有許多研究紛紛針對多媒體文件的理解與檢索進行深入的研究探討,並且有優異的成果與貢獻,如影像摘要、音訊摘要及影片摘要。 文件摘要可概分為節錄式 (Extractive) 和重寫式 (Abstractive) 摘要。其中節錄式摘要會依固定的比例,從文件中選出具代表性的文句組成其摘要結果;而重寫式摘要主要會先完整理解整份文件中的隱含意義,之後會根據其隱含意義,並使用不同的文詞,產生一個簡短版本的文件描述即為摘要。由於重寫式摘要對於自動語音摘要任務的困難度較高,故目前的研究大多是以節錄式摘要方式為主流。 本論文主要探討新穎的節錄式摘要方法於語音文件摘要任務上的應用,並深入研究如何改善語音文件摘要之成效。因此,我們提出以類神經網路為基礎之摘要摘要模型,運用階層式的架構及注意力機制深層次地理解文件蘊含的主旨,並以強化學習輔助訓練模型根據文件主旨選取並排序具代表性的語句組成摘要。同時,我們為了避免語音辨識的錯誤影響摘要結果,也將語音文件中相關的聲學特徵加入模型訓練以及使用次詞向量作為輸入。最後我們在中文廣播新聞語料(MATBN)上進行一系列的實驗與分析,從實驗結果中可驗證本論文提出之假設且在摘要成效上有顯著的提升。Item 基於強化學習之高速公路路肩流量管制策略(2020) 鄭東濬; Cheng, Tung-Chun為解決在公速公路上的交通壅塞情況,透過行車速度、通行車流量以及紅綠燈等都是現行的方式以控制交通。在壅塞情形發生時,透過外力的介入,來想辦法控制整體狀況,不要讓交通壅塞更加惡化。所幸在現代車聯網愈趨開發穩定的情況,透過(Vehicle to Vehicle, V2V)或是(Vehicle to Infrastructure, V2I)等方式,能夠更快速的將交通舒緩策略傳遞給所有在此範圍運行中的車輛,並讓他們及時地做出反應來幫助整體交通的舒緩。 在本篇研究中提出基於強化學習的路肩通行車流量管制策略(Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC)。不同於傳統固定路肩開放時間的方式,本研究提出適用且合乎現行高公局法規之下的路肩管制策略,藉由結合強化學習(Reinforcement Learning)的技術,使其能夠對應不同車流的情況,推薦不同的管制策略。透過在模擬環境的實驗結果 (Simulation of Urban Mobility, SUMO),ARSTC能夠依照整體的車流變化來判斷是否開放路肩通行,讓路肩通行的車流量能夠控制在安全的範圍內,且能夠最小化與原本無管制車流的壅塞時間差異,來達到最安全且有效率的路肩通行環境。Item 使用強化式學習於時間序列預測之應用(2019) 楊日鳳; Yang, Jih-Feng本論文使用強化式學習的方法結合類神經網路LSTM架構於時間序列的分析與預測,然而我們想針對美國NASDAQ指數進行買點分析的研究探討,並使用強化式學習中的Policy Gradient法則,以型態學的角度處理資料,讓LSTM模型,學習歷史收盤價中上漲及下跌前會發生的預兆進而預測買點。本論文的研究目的為證明強化式學習及LSTM的模型,對於時間序列的預測是相當合適的,雖然本研究只針對一種資料做研究,但其方法與架構可以套用至其它時間序列資料。 由型態學的理論作為基礎,我們需要訓練兩種趨勢的模型,使我們可以更確定特徵出現的訊號,讓預測結果更加確定更為穩健。我們也以型態學的角度,將收盤價資料做處理,使看似雜亂無章的收盤價資料處理成趨勢資料。接著我們以Policy Gradient的方法,以獲利值引導參數學習,使得模型在訓練的過程中,會自行隨著獲利值慢慢收斂至擁有最大期望值的模式。 實際測試方面,本論文以三種趨勢的資料做測試,測驗本研究所提出的演算法架構使否能成功避險及獲得高獲利,而根據實驗結果顯示,此架構除了能夠成避開負獲利的買點以外,也能夠只挑選那些有足夠把握的買點才做購買,避開那些不必要之交易風險。 本論文也將此架構之演算法和其他現有的方法做討論,也有較好之獲利能力。Item 六貫棋遊戲實作與強化學習應用(2019) 王鈞平; Wang, Chun-Ping六貫棋,又被稱作納許棋,是一個雙人對局遊戲,最初是在1942年12月26日在丹麥報紙Politiken發表的一篇文章中出現,被稱作Polygon。於1948年時,由數學家約翰·福布斯·納許重新獨立發明出來,在最初被稱作納許棋(Nash)。後來於1952年遊戲玩具製造商Parker Brothers將其作為遊戲發行,將此遊戲命名為Hex。 在六貫棋的棋盤上由雙方輪流落子,雙方各擁有一組對邊,藉由佔領格子的方式將自己方的兩條邊連接起來以獲得勝利。在六貫棋當中已被約翰·福布斯·納許使用策略偷取的方式證明出六貫棋在先手方擁有必勝策略,而在路數小於8的盤面已經被完全破解出所有的必勝策略。 本研究試圖利用AlphaZero論文當中所提到的訓練方式,利用蒙地卡羅樹搜尋演算法搭配類神經網路訓練,嘗試藉由強化學習,從零人類知識開始只提供遊戲規則的方式,並針對3至4路的六貫棋棋盤,來訓練出能夠自我學習出完全破解3至4路的六貫棋的程式。依循此模式,在計算資源更為豐沛時,未來可以往更高路數的六貫棋實驗其破解的可能性。Item 基於深度學習的車輛隨意網路路由協定(2018) 戴宗明; Tai, Tsung-Ming車輛隨意網路 (Vehicular Ad-hoc Network, VANET) 能提供許多智慧車輛的應用以及智慧交通系統 (Intelligence Traffic System, ITS) 所需的網路基礎。藉由車輛之間的封包交換達到傳遞訊息的作用,可應用於行車安全、路況警示或是駕駛輔助系統。車輛隨意網路具有節點高速移動、拓樸改變快速等性質,加上道路環境複雜和訊號干擾的問題,如何使封包能夠可靠地成功送達目的地,成為路由在車輛隨意網路上的主要研究領域。 此研究提出深度強化學習車輛網路路由協定 (Deep Reinforcement Learning Routing for VANET, vDRL),類似於以位置為基礎的路由協定,並且不需要仰賴於任何路由規則,藉由強化學習 (Reinforcement Learning) 的泛化能力,使其足以適應不同環境與車輛的特色。實驗結果顯示在大多數不同的情境設定中,vDRL相較於貪婪邊界無狀態路由(Greedy Perimeter Stateless Routing, GPSR) ,不僅提高封包的送達成功率、也降低端點對端點的延遲,以及路由所需的節點數。除此之外,此研究也提出一個有效的流程架構,藉由導入不同的街道地圖與真實車流量資訊,並使用強化學習訓練出最佳化的路由協定。