學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
1 results
Search Results
Item 比較Gumbel和KataGo方法提升AlphaZero在外圍開局五子棋的訓練效能(2023) 黃得為; Huang, De-Wei本研究的目的是探討透過比較 KataGo 和 Gumbel 這兩種方法來儘量減少資 源的數量並保持或提升訓練的效率。KataGo 是一個改良版的 AlphaZero 演算法, 其作者使用了更有效率的訓練算法和重新設計的神經網路架構,並宣稱其訓練 速度比 AlphaZero 快50倍。而 Gumbel 方法則是 DeepMind 在2022年提出的一種方 法,可以在展開蒙地卡羅樹搜索(Monte Carlo Tree Search)時只需展開極少數節點 即可訓練出遠超在相同條件下其他已知演算法的效果。本研究使用這兩種方法應用在提升 AlphaZero 在外圍開局五子棋的棋力,並 比較這兩種方法的優劣和效果。實驗結果顯示,使用 Gumbel 和 KataGo 都可以 有效提升 AlphaZero 在訓練外圍開局五子棋上的效能。並且通過實驗發現,在相 同的訓練代數情況下,KataGo 所訓練出來的棋力比 Gumbel 好。但在相同短期時 間內的訓練中 Gumbel 所訓練出來的棋力比 KataGo 好。在本研究中,我們除了探討 AlphaZero、KataGo 和 Gumbel 演算法的改進外, 還額外討論了兩種提升自我對弈速度的方法以及兩種改進訓練效能的通用方法。首先,我們實作了兩種方法來提升自我對弈速度,並對三種演算法進行了 測試。通過實驗,我們發現這兩種方法的應用能夠平均提升自我對弈速度13.16 倍。這是一個顯著的改善,有效地節省了訓練時間。此外,我們還提出了兩種通用的方法來改進 AlphaZero、KataGo 和 Gumbel 的訓練效能。透過這兩種方法的應用,我們獲得了不錯的結果。這些方法不僅 提升了演算法的訓練效率,還改善了模型的學習能力和準確性。這些結果顯示出,改良 AlphaZero 的 KataGo 以及 Gumbel 方法可以顯著提升外圍開局五子棋 AI 的訓練效果和速度,並且減少所需的訓練資源。這樣的技術 創新可以讓更多的研究者參與到強化學習的研究中,並推動人工智慧在遊戲和 其他領域的發展。