學位論文

Browse

Now showing 1 - 1 of 1

改進AlphaZero的大贏策略並應用於黑白棋
(2019) 張乃元; Chang, Nai-Yuan
DeepMind的AlphaZero演算法在電腦遊戲對局領域中取得了巨大的成功，在許多具有挑戰性的遊戲中都取得了超越人類的表現，但是我們認為AlphaZero演算法中仍然有可以改進的地方。 AlphaZero演算法只估計遊戲的輸贏或是平手，而忽略了最後可能會獲得多少分數。而在像是圍棋或是黑白棋這類的佔地型遊戲中，最後所得到的分數往往會相當大地左右遊戲的勝負，於是我們提出大贏策略：在AlphaZero演算法中加入對於分數的判斷，來改進演算法的效率。在本研究中使用8路黑白棋作為實驗大贏策略效果的遊戲，我們使用並且修改網路上一個實作AlphaZero演算法的開源專案：alpha-zero-general來進行我們的實驗。經過我們的實驗之後，使用大贏策略的模型相比未使用的原始AlphaZero模型，在經過100個迭代的訓練之後有著高達78%的勝率，證明大贏策略對於AlphaZero演算法有著十分顯著的改進效益。