資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。

News

Browse

Search Results

Now showing 1 - 1 of 1
  • Item
    比較Gumbel和KataGo方法提升AlphaZero在外圍開局五子棋的訓練效能
    (2023) 黃得為; Huang, De-Wei
    本研究的目的是探討透過比較 KataGo 和 Gumbel 這兩種方法來儘量減少資 源的數量並保持或提升訓練的效率。KataGo 是一個改良版的 AlphaZero 演算法, 其作者使用了更有效率的訓練算法和重新設計的神經網路架構,並宣稱其訓練 速度比 AlphaZero 快50倍。而 Gumbel 方法則是 DeepMind 在2022年提出的一種方 法,可以在展開蒙地卡羅樹搜索(Monte Carlo Tree Search)時只需展開極少數節點 即可訓練出遠超在相同條件下其他已知演算法的效果。本研究使用這兩種方法應用在提升 AlphaZero 在外圍開局五子棋的棋力,並 比較這兩種方法的優劣和效果。實驗結果顯示,使用 Gumbel 和 KataGo 都可以 有效提升 AlphaZero 在訓練外圍開局五子棋上的效能。並且通過實驗發現,在相 同的訓練代數情況下,KataGo 所訓練出來的棋力比 Gumbel 好。但在相同短期時 間內的訓練中 Gumbel 所訓練出來的棋力比 KataGo 好。在本研究中,我們除了探討 AlphaZero、KataGo 和 Gumbel 演算法的改進外, 還額外討論了兩種提升自我對弈速度的方法以及兩種改進訓練效能的通用方法。首先,我們實作了兩種方法來提升自我對弈速度,並對三種演算法進行了 測試。通過實驗,我們發現這兩種方法的應用能夠平均提升自我對弈速度13.16 倍。這是一個顯著的改善,有效地節省了訓練時間。此外,我們還提出了兩種通用的方法來改進 AlphaZero、KataGo 和 Gumbel 的訓練效能。透過這兩種方法的應用,我們獲得了不錯的結果。這些方法不僅 提升了演算法的訓練效率,還改善了模型的學習能力和準確性。這些結果顯示出,改良 AlphaZero 的 KataGo 以及 Gumbel 方法可以顯著提升外圍開局五子棋 AI 的訓練效果和速度,並且減少所需的訓練資源。這樣的技術 創新可以讓更多的研究者參與到強化學習的研究中,並推動人工智慧在遊戲和 其他領域的發展。