學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
Item 5五將棋程式Wonders的設計與實作(2014) 張懷文利用人工智慧與人對弈的這個概念,可以追溯自1769年。但直到了1950年,人工智慧這個領域出現了一位Shannon教授致力於如何發展能夠與人對弈的西洋棋程式,這領域的研究才逐漸有穩定發展的方向。許多後來從事電腦對局領域的相關研究人員,也都跟隨Shannon教授的觀念發展而來。直至現今,無論是西方的跳棋、西洋棋、五子棋、撲克牌,抑或是東方的象棋、暗棋、孔明棋、將棋等等,許多的對弈遊戲皆成為電腦對局領域裡面研究的項目。 其中日本的mini-shogi(5五將棋),為日本將棋於1970年左右發展的其一分支。並於2007年開始,發展國際電腦對局的相關賽事。由日本的電氣通信大學所舉辦的UEC Cup到ICGA的Computer Olympiad,5五將棋已經成為在國際賽事中被熱烈參與的項目之一。在台灣近幾年也被TCGA(Taiwan Computer Games Association)和TAAI(Technologies and Applications of Artificial Intelligence)列為固定的競賽項目之一了。 本研究論文中實作之程式Wonders,利用alpha-beta搜尋來幫助我們找到最佳走步。並且利用嶄新的審局函數快速的減少搜尋分支,以減少執行時間。另外我們也使用暫存表以及Zobrist hashing 和 bitboard的技術來提升程式的計算效能。從2011年研發至今,Wonders於2013年的TAAI 電腦對局競賽當中獲得5五將棋的金牌,期望在未來能夠有更穩定且具有突破性的研究發展。Item 利用AlphaZero框架實作與改良MiniShogi程式(2020) 陳品源; Chen, Pin-Yuan2016年3月,DeepMind的AlphaGo程式以4:1的結果擊敗了當時韓國職業圍棋9段棋士李世乭,讓電腦對局的AI程式在強化學習的路上取得了巨大的突破與成就。隨後2017年10月更提出了AlphaGo Zero方法,以100:0的比數戰勝了原本的AlphaGo Lee程式,也證明了不用人類的棋譜當作先驗知識,就可以訓練出比人類還要更強的圍棋程式。而DeepMind最終把AlphaGo Zero方法一般化成了AlphaZero方法,也訓練出了當今世界棋力最強的西洋棋與將棋程式。但相對的,DeepMind也運用了非常龐大的運算資源來訓練,才得到了最強的棋力。 本論文所研究的棋類為1970年楠本茂信所發明的5五將棋,5五將棋是一種將棋變體,特色是棋盤大小比本將棋還要小,只有5×5的盤面,將棋則有9×9,所以5五將棋是很適合一般人在硬體資源有限的情況下,來實作電腦對局的AI程式項目。 本實驗是使用AlphaZero的演算法,搭配AlphaZero General框架來實作出使用神經網路搭配強化學習來訓練的AI程式,而我們也搭配了一些已知的優勢策略做改良,讓我們可以在有限的硬體資源下,增進神經網路模型的訓練效率。 在5五將棋的訓練中,我們使用兩種方法去做改良,第一種方法是依盤面的重要性對樣本做採樣,設定中局會比終盤與開局還要高的採樣機率,期待能讓神經網路學習下中盤棋局時能比一般的版本下的更好。 第二種方式是用能贏直接贏的方式去訓練,藉由提前一回合看到終局盤面,來達到Winning Attack的效果,因為MCTS在下棋時,即便是遇到能分出勝負的走步,不一定會走出能分出勝負的那一步,導致神經網路權重會收斂的很慢,而藉由此方法,可以比一般的訓練方法還要快的收斂。 本研究所採用的兩個方法是一個成功一個失敗的結果,以實驗數據來說,如果取樣取的好,是有機會提升棋力的,但數據的表現上除了一組數據外,其他數據皆不盡理想;而Winning Attack的棋力提升的數據就非常顯著了,不過兩種方法搭配起來一起訓練時,雖然也會提升棋力,但是兩個方法沒有互相加成的效果。