資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年，首先招收大學部學生，民國九十年成立資訊工程研究所碩士班，而後於民國九十五年進行系、所調整合併為「資訊工程學系」；並於九十六年成立博士班。本系目前每年約招收大學部四十餘人，碩士班六十餘人，博士班約五人，截至民國一百零四年十一月止，總計現有大學部一百九十多人，碩士班一百二十多人，博士班二十三人，合計學生人數約為三百三十多位。

News

系所網址：http://w1.csie.ntnu.edu.tw/

Browse

Search Results

Now showing 1 - 4 of 4

強化學習與遷移學習應用於六貫棋遊戲
(2023) 偕為昭; Jie, Wei-Zhao
六貫棋是一款雙人對局遊戲，起初在1942年於丹麥的報紙中出現，被稱為Polygon。1948年時，被美國數學家John Forbes Nash Jr.重新獨立發明，並稱為Nash。最後在1952年由製造商Parker Brothers發行，且將其命名為Hex。在此遊戲中，上下及左右的對邊各以一個顏色表示，雙方玩家需要在棋盤上落子並將自己顏色的對邊連接以取得勝利。此遊戲為零和遊戲，且不會有平手的情況發生。在以前的研究中，六貫棋在9路以下的盤面已經被破解。由於AlphaZero的問世，現今電腦對局遊戲的程式有更進一步的發展，以該方法研發的對局程式都有不錯的棋力。而在六貫棋遊戲中，不得不提由加拿大Alberta大學研發的Mohex程式，該程式一直都在競賽中得到優異的成績，至今也持續進行改良。本研究試圖以AlphaZero的訓練框架進行強化學習，並以Mohex破解的盤面資料為輔助。在訓練大盤面的模型時需要較多的成本，因此嘗試結合遷移學習的方式，運用已經破解的小盤面資料，使初期的自我對下階段就能產生較好的棋譜，而不是從完全的零知識開始訓練，藉此提升大盤面模型的訓練成果。並且比較在進行遷移學習時，使用不同參數轉移方法的影響。
使用KataGo方法及迫著空間搜尋提升AlphaZero在六子棋的訓練成效
(2023) 林育璋; Lin, Yu-Chang
自從Google DeepMind提出AlphaZero演算法之後，許多使用傳統搜尋法的電腦對局程式都被AlphaZero作法取代。然而AlphaZero作法需要非常大量的算力，才能夠達到頂尖的水準，因此我們希望透過程式效能改進及傳統做法的輔助，提升AlphaZero在六子棋遊戲的訓練效率，讓我們可以使用個人電腦達到頂尖水準。本篇論文使用Alpha-Zero-General開源程式碼作為基礎，研發一支AlphaZero的六子棋程式。我們參考galvanise_zero的做法修改MCTS的搜尋方式、參考OOGiveMeFive提出的通用型Bitboard，將其進行修改後用於六子棋程式中，並且參考陽明交通大學的CZF_Connect6提出的六子棋強度改進方式。本篇論文從三個面向來加速AlphaZero的訓練效率。第一個是提升程式效能，我們分析Alpha-Zero-General的一個效能瓶頸是MCTS的部分，因此透過C++及平行化的方式重新實作MCTS，大幅提升AlphaZero的訓練效率。第二個是提升神經網路的性能，使用KataGo提出的Global Pooling及Auxiliary Policy Targets方法修改神經網路，並套用於六子棋程式中。第三個是提升訓練資料的品質，使用KataGo提出的Forced Playout and Policy Target Pruning方法及傳統的迫著空間搜尋提升訓練資料的品質。另外本篇論文提出一種新的訓練方式，提升AlphaZero加入heuristics的訓練效果。我們使用C++、平行化及批次預測的方式可以讓MCTS的搜尋效率達到26.4的加速比，並且使用Bitboard的方式可以讓迫著空間搜尋達到6.03的加速比。在短時間的訓練中，雖然使用相同時間AlphaZero方法可以訓練更多個迭代，不過使用相同時間訓練的KataGo方法與原始AlphaZero方法相比依然可以取得57.58%的勝率，且使用相同時間訓練的KataGo-TSS Hybrids方法與原始AlphaZero方法相比也可以取得70%的勝率。並且這三種作法訓練到500個迭代後與NCTU6_Level3對戰，都可以取得超過65%的勝率。
利用啟發式法則與數種訓練策略來評估中國跳棋程式
(2023) 江曛宇; Jiang, Syun-Yu
中國跳棋(Chinese Checkers)是一個知名且充滿挑戰性的完全資訊遊戲。與一些其他的傳統遊戲如五子棋、圍棋不同，賽局樹的搜索空間並不會隨著遊戲的進行而越來越小。若是單純使用AlphaZero架構之演算法，在短時間內甚至難以訓練出初學者程度之程式。過去雖有使用蒙地卡羅樹搜索法結合深度學習與強化學習，並應用於中國跳棋上的演算法，但是仍有改進的空間。若是能夠適當的加入一些中國跳棋的先備知識，應該能使棋力進一步的提升。本研究針對中國跳棋設計數種策略，修改了前代程式Jump的設計，人為的增加先備知識，以期有更好的棋力，並且針對中國跳棋在神經網路訓練初期棋力很弱的問題，提出一連串的解決方案與策略，使其能夠在不使用人為訓練資料以及預訓練的狀況下，能夠獲得一定的棋力，並且對這些策略的特點進行探討，分析出各個策略的優缺點。
使用強化式學習於時間序列預測之應用
(2019) 楊日鳳; Yang, Jih-Feng
本論文使用強化式學習的方法結合類神經網路LSTM架構於時間序列的分析與預測，然而我們想針對美國NASDAQ指數進行買點分析的研究探討，並使用強化式學習中的Policy Gradient法則，以型態學的角度處理資料，讓LSTM模型，學習歷史收盤價中上漲及下跌前會發生的預兆進而預測買點。本論文的研究目的為證明強化式學習及LSTM的模型，對於時間序列的預測是相當合適的，雖然本研究只針對一種資料做研究，但其方法與架構可以套用至其它時間序列資料。由型態學的理論作為基礎，我們需要訓練兩種趨勢的模型，使我們可以更確定特徵出現的訊號，讓預測結果更加確定更為穩健。我們也以型態學的角度，將收盤價資料做處理，使看似雜亂無章的收盤價資料處理成趨勢資料。接著我們以Policy Gradient的方法，以獲利值引導參數學習，使得模型在訓練的過程中，會自行隨著獲利值慢慢收斂至擁有最大期望值的模式。實際測試方面，本論文以三種趨勢的資料做測試，測驗本研究所提出的演算法架構使否能成功避險及獲得高獲利，而根據實驗結果顯示，此架構除了能夠成避開負獲利的買點以外，也能夠只挑選那些有足夠把握的買點才做購買，避開那些不必要之交易風險。本論文也將此架構之演算法和其他現有的方法做討論，也有較好之獲利能力。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results