學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
2 results
Search Results
Item 使用KataGo方法及迫著空間搜尋提升AlphaZero在六子棋的訓練成效(2023) 林育璋; Lin, Yu-Chang自從Google DeepMind提出AlphaZero演算法之後,許多使用傳統搜尋法的電腦對局程式都被AlphaZero作法取代。然而AlphaZero作法需要非常大量的算力,才能夠達到頂尖的水準,因此我們希望透過程式效能改進及傳統做法的輔助,提升AlphaZero在六子棋遊戲的訓練效率,讓我們可以使用個人電腦達到頂尖水準。本篇論文使用Alpha-Zero-General開源程式碼作為基礎,研發一支AlphaZero的六子棋程式。我們參考galvanise_zero的做法修改MCTS的搜尋方式、參考OOGiveMeFive提出的通用型Bitboard,將其進行修改後用於六子棋程式中,並且參考陽明交通大學的CZF_Connect6提出的六子棋強度改進方式。本篇論文從三個面向來加速AlphaZero的訓練效率。第一個是提升程式效能,我們分析Alpha-Zero-General的一個效能瓶頸是MCTS的部分,因此透過C++及平行化的方式重新實作MCTS,大幅提升AlphaZero的訓練效率。第二個是提升神經網路的性能,使用KataGo提出的Global Pooling及Auxiliary Policy Targets方法修改神經網路,並套用於六子棋程式中。第三個是提升訓練資料的品質,使用KataGo提出的Forced Playout and Policy Target Pruning方法及傳統的迫著空間搜尋提升訓練資料的品質。另外本篇論文提出一種新的訓練方式,提升AlphaZero加入heuristics的訓練效果。我們使用C++、平行化及批次預測的方式可以讓MCTS的搜尋效率達到26.4的加速比,並且使用Bitboard的方式可以讓迫著空間搜尋達到6.03的加速比。在短時間的訓練中,雖然使用相同時間AlphaZero方法可以訓練更多個迭代,不過使用相同時間訓練的KataGo方法與原始AlphaZero方法相比依然可以取得57.58%的勝率,且使用相同時間訓練的KataGo-TSS Hybrids方法與原始AlphaZero方法相比也可以取得70%的勝率。並且這三種作法訓練到500個迭代後與NCTU6_Level3對戰,都可以取得超過65%的勝率。Item 使用強化式學習於時間序列預測之應用(2019) 楊日鳳; Yang, Jih-Feng本論文使用強化式學習的方法結合類神經網路LSTM架構於時間序列的分析與預測,然而我們想針對美國NASDAQ指數進行買點分析的研究探討,並使用強化式學習中的Policy Gradient法則,以型態學的角度處理資料,讓LSTM模型,學習歷史收盤價中上漲及下跌前會發生的預兆進而預測買點。本論文的研究目的為證明強化式學習及LSTM的模型,對於時間序列的預測是相當合適的,雖然本研究只針對一種資料做研究,但其方法與架構可以套用至其它時間序列資料。 由型態學的理論作為基礎,我們需要訓練兩種趨勢的模型,使我們可以更確定特徵出現的訊號,讓預測結果更加確定更為穩健。我們也以型態學的角度,將收盤價資料做處理,使看似雜亂無章的收盤價資料處理成趨勢資料。接著我們以Policy Gradient的方法,以獲利值引導參數學習,使得模型在訓練的過程中,會自行隨著獲利值慢慢收斂至擁有最大期望值的模式。 實際測試方面,本論文以三種趨勢的資料做測試,測驗本研究所提出的演算法架構使否能成功避險及獲得高獲利,而根據實驗結果顯示,此架構除了能夠成避開負獲利的買點以外,也能夠只挑選那些有足夠把握的買點才做購買,避開那些不必要之交易風險。 本論文也將此架構之演算法和其他現有的方法做討論,也有較好之獲利能力。