Browsing by Author "林育璋"

Now showing 1 - 1 of 1

使用KataGo方法及迫著空間搜尋提升AlphaZero在六子棋的訓練成效
(2023) 林育璋; Lin, Yu-Chang
自從Google DeepMind提出AlphaZero演算法之後，許多使用傳統搜尋法的電腦對局程式都被AlphaZero作法取代。然而AlphaZero作法需要非常大量的算力，才能夠達到頂尖的水準，因此我們希望透過程式效能改進及傳統做法的輔助，提升AlphaZero在六子棋遊戲的訓練效率，讓我們可以使用個人電腦達到頂尖水準。本篇論文使用Alpha-Zero-General開源程式碼作為基礎，研發一支AlphaZero的六子棋程式。我們參考galvanise_zero的做法修改MCTS的搜尋方式、參考OOGiveMeFive提出的通用型Bitboard，將其進行修改後用於六子棋程式中，並且參考陽明交通大學的CZF_Connect6提出的六子棋強度改進方式。本篇論文從三個面向來加速AlphaZero的訓練效率。第一個是提升程式效能，我們分析Alpha-Zero-General的一個效能瓶頸是MCTS的部分，因此透過C++及平行化的方式重新實作MCTS，大幅提升AlphaZero的訓練效率。第二個是提升神經網路的性能，使用KataGo提出的Global Pooling及Auxiliary Policy Targets方法修改神經網路，並套用於六子棋程式中。第三個是提升訓練資料的品質，使用KataGo提出的Forced Playout and Policy Target Pruning方法及傳統的迫著空間搜尋提升訓練資料的品質。另外本篇論文提出一種新的訓練方式，提升AlphaZero加入heuristics的訓練效果。我們使用C++、平行化及批次預測的方式可以讓MCTS的搜尋效率達到26.4的加速比，並且使用Bitboard的方式可以讓迫著空間搜尋達到6.03的加速比。在短時間的訓練中，雖然使用相同時間AlphaZero方法可以訓練更多個迭代，不過使用相同時間訓練的KataGo方法與原始AlphaZero方法相比依然可以取得57.58%的勝率，且使用相同時間訓練的KataGo-TSS Hybrids方法與原始AlphaZero方法相比也可以取得70%的勝率。並且這三種作法訓練到500個迭代後與NCTU6_Level3對戰，都可以取得超過65%的勝率。