理學院

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/3

學院概況

理學院設有數學系、物理學系、化學系、生命科學系、地球科學系、資訊工程學系6個系（均含學士、碩士及博士課程），及科學教育研究所、環境教育研究所、光電科技研究所及海洋環境科技就所4個獨立研究所，另設有生物多樣性國際研究生博士學位學程。全學院專任教師約180人，陣容十分堅強，無論師資、學術長現、社會貢獻與影響力均居全國之首。

特色

理學院位在國立臺灣師範大學分部校區內，座落於臺北市公館，佔地約10公頃，是個小而美的校園，內含國際會議廳、圖書館、實驗室、天文臺等完善設施。

理學院創院已逾六十年，在此堅固基礎上，理學院不僅在基礎科學上有豐碩的表現，更在臺灣許多研究中獨占鰲頭，曾孕育出五位中研院院士。近年來，更致力於跨領域研究，並在應用科技上加強與業界合作，院內教師每年均取得多項專利，所開發之商品廣泛應用於醫、藥、化妝品、食品加工業、農業、環保、資訊、教育產業及日常生活中。

在科學教育研究上，臺灣師大理學院之排名更高居世界第一，此外更有獨步全臺的科學教育中心，該中心就中學科學課程、科學教與學等方面從事研究與推廣服務；是全國人力最充足，設備最完善，具有良好服務品質的中心。

在理學院紮實、多元的研究基礎下，學生可依其性向、興趣做出寬廣之選擇，無論對其未來進入學術研究領域、教育界或工業界工作，均是絕佳選擇。

News

系所網址：http://iweb.ntnu.edu.tw/philedu/index.php

Browse

Search Results

Now showing 1 - 10 of 13

開放式學習應用於優化多目標的連子棋類遊戲
(2024) 邱宣凱; Chiu, Hsuan-Kai
Open-ended learning是Google DeepMind在2021提出的一種AI，與以前常見的AI不同，Open-ended learning的AI並不會將一種任務做到最佳化，但Open-ended的AI可以做到多種不同的任務，是以多目標最佳化為訴求的AI。目前由於Open-ended learning 是一種非常新的概念，其文獻的數量處於一個相對較少的狀況，實作方面也是在一個較為模糊的階段。故本研究希望使用相對熟悉的技術以及遊戲規則，來嘗試實作出與Open-ended learning類似或是相同的AI。連子棋是一種雙人對弈的遊戲，雙方玩家在圍棋棋盤上輪次落子，先將指定顆數的己方的棋子連成任何橫縱斜方向者為勝。而本研究使用的五子棋、四子棋、及三子棋，規則上除了目標棋子數為五顆、四顆和三顆之外，還有縮小了棋盤的大小。由於Open-ended learning的AI的訓練資料是由程式生成的，故本研究打算以能透過自我對弈來產生訓練資料的alpha-zero-general，來做為實現Open-ended learning的AI的核心，本實驗透過修改alpha-zero-general中自我對弈的部分來使訓練出來的AI獲得可以下多種棋規的能力。
點格棋中小盤面模型取代大盤面模型訓練之可行性研究
(2024) 劉怡汎; Liu, Yi-Fan
點格棋（Dots and Boxes）是款零和、完全資訊並公正的雙人遊戲，雖然棋盤小卻有較高的複雜度。本論文以3×3盤面的點格棋作為研究主題，實現訓練好的小盤面的AlphaZero神經網路模型取代大盤面的AlphaZero神經網路模型。在實作上，我們採用基於AlphaGo Zero論文實現的AlphaZero General的開源框架專案，透過方便理解的Python開源專案，讓使用者可以輕鬆的在AlphaGo Zero的架構上實作遊戲及訓練神經網路，省去從頭開始開發的成本，能較專注於其他研究中。從實驗結果可以得知，在1天、2天及3天的訓練神經網路時間下，3×3盤面AlphaZero General代理人以平均處理合併policy的方式，在與相同訓練時間的4×4盤面AlphaZero General代理人的對戰中，分別取得64%、58%、57%的勝率。因此在訓練時間限制3天的情況下，可以使用訓練好的小盤面的AlphaZero神經網路模型取代大盤面的AlphaZero神經網路模型。
Multiple Policy Value MCTS 結合 Population Based Training 加強連四棋程式
(2024) 蔡宜憲; Tsai, Yi-Sian
電腦對局是人工智慧在計算機科學和工程方面的最古老和最著名的應用之一，而AlphaZero在棋類對局領域是一個非常強大的強化學習算法。AlphaZero是用了MCTS與深度神經網路結合的演算法。較大的神經網路在準確評估方面具有優勢，較小的神經網路在成本和效能方面具有優勢，在有限的預算下必須兩者取得平衡。Multiple Policy Value Monte Carlo Tree Search此方法結合了多個不同大小的神經網路，並保留每個神經網路的優勢。本研究以Surag Nair先生在GitHub上的AlphaZero General程式做修改，加入Multiple Policy Value Monte Carlo Tree Search，並實現在連四棋遊戲上。另外在程式中使用了Multiprocessing來加快訓練速度。最後使用了Population Based Training的方式來尋找較佳的超參數。
比較Gumbel和KataGo方法提升AlphaZero在外圍開局五子棋的訓練效能
(2023) 黃得為; Huang, De-Wei
本研究的目的是探討透過比較 KataGo 和 Gumbel 這兩種方法來儘量減少資源的數量並保持或提升訓練的效率。KataGo 是一個改良版的 AlphaZero 演算法，其作者使用了更有效率的訓練算法和重新設計的神經網路架構，並宣稱其訓練速度比 AlphaZero 快50倍。而 Gumbel 方法則是 DeepMind 在2022年提出的一種方法，可以在展開蒙地卡羅樹搜索(Monte Carlo Tree Search)時只需展開極少數節點即可訓練出遠超在相同條件下其他已知演算法的效果。本研究使用這兩種方法應用在提升 AlphaZero 在外圍開局五子棋的棋力，並比較這兩種方法的優劣和效果。實驗結果顯示，使用 Gumbel 和 KataGo 都可以有效提升 AlphaZero 在訓練外圍開局五子棋上的效能。並且通過實驗發現，在相同的訓練代數情況下，KataGo 所訓練出來的棋力比 Gumbel 好。但在相同短期時間內的訓練中 Gumbel 所訓練出來的棋力比 KataGo 好。在本研究中，我們除了探討 AlphaZero、KataGo 和 Gumbel 演算法的改進外，還額外討論了兩種提升自我對弈速度的方法以及兩種改進訓練效能的通用方法。首先，我們實作了兩種方法來提升自我對弈速度，並對三種演算法進行了測試。通過實驗，我們發現這兩種方法的應用能夠平均提升自我對弈速度13.16 倍。這是一個顯著的改善，有效地節省了訓練時間。此外，我們還提出了兩種通用的方法來改進 AlphaZero、KataGo 和 Gumbel 的訓練效能。透過這兩種方法的應用，我們獲得了不錯的結果。這些方法不僅提升了演算法的訓練效率，還改善了模型的學習能力和準確性。這些結果顯示出，改良 AlphaZero 的 KataGo 以及 Gumbel 方法可以顯著提升外圍開局五子棋 AI 的訓練效果和速度，並且減少所需的訓練資源。這樣的技術創新可以讓更多的研究者參與到強化學習的研究中，並推動人工智慧在遊戲和其他領域的發展。
基於AlphaZero General與MuZero General框架實現點格棋
(2023) 曾羭豪; Tseng, Yu-Hao
點格棋（Dots and Boxes）是一款雙人、公正、零和與完全資訊的遊戲，儘管棋盤很小就有很高的複雜度。本論文以3×3盤面大小的點格棋作為課題，實現於AlphaGo Zero、MuZero架構上，並且還提出了適用於連續走步棋規的Exact-win策略實現於點格棋上，並運用於AlphaGo Zero的訓練與對弈上。在實作上，我們採用AlphaZero General與MuZero General兩個開源碼，分別是基於AlphaGo Zero與MuZero的論文實現。兩者皆是易於理解的Python開源專案，透過簡潔的架構幫助使用者輕鬆的能在AlphaGo Zero與MuZero的架構上實現遊戲並訓練，省去了從頭開始架構AlphaGo Zero與MuZero的工作，能更專注於相關研究。從實驗結果驗證，我們實現的AlphaZero General、Exact-win與MuZero General代理人，在與破解程式對手的對弈中，分別取得了98%、100%與32%的勝率。此外，還證明了Exact-win策略用於訓練階段能有效提升訓練速度與成效，以及訓練後期代理人棋力穩定度。透過一些盤面測試，證實了這些代理人在一些盤面上確實能搜索出最佳走步並且執行。
使用KataGo方法及迫著空間搜尋提升AlphaZero在六子棋的訓練成效
(2023) 林育璋; Lin, Yu-Chang
自從Google DeepMind提出AlphaZero演算法之後，許多使用傳統搜尋法的電腦對局程式都被AlphaZero作法取代。然而AlphaZero作法需要非常大量的算力，才能夠達到頂尖的水準，因此我們希望透過程式效能改進及傳統做法的輔助，提升AlphaZero在六子棋遊戲的訓練效率，讓我們可以使用個人電腦達到頂尖水準。本篇論文使用Alpha-Zero-General開源程式碼作為基礎，研發一支AlphaZero的六子棋程式。我們參考galvanise_zero的做法修改MCTS的搜尋方式、參考OOGiveMeFive提出的通用型Bitboard，將其進行修改後用於六子棋程式中，並且參考陽明交通大學的CZF_Connect6提出的六子棋強度改進方式。本篇論文從三個面向來加速AlphaZero的訓練效率。第一個是提升程式效能，我們分析Alpha-Zero-General的一個效能瓶頸是MCTS的部分，因此透過C++及平行化的方式重新實作MCTS，大幅提升AlphaZero的訓練效率。第二個是提升神經網路的性能，使用KataGo提出的Global Pooling及Auxiliary Policy Targets方法修改神經網路，並套用於六子棋程式中。第三個是提升訓練資料的品質，使用KataGo提出的Forced Playout and Policy Target Pruning方法及傳統的迫著空間搜尋提升訓練資料的品質。另外本篇論文提出一種新的訓練方式，提升AlphaZero加入heuristics的訓練效果。我們使用C++、平行化及批次預測的方式可以讓MCTS的搜尋效率達到26.4的加速比，並且使用Bitboard的方式可以讓迫著空間搜尋達到6.03的加速比。在短時間的訓練中，雖然使用相同時間AlphaZero方法可以訓練更多個迭代，不過使用相同時間訓練的KataGo方法與原始AlphaZero方法相比依然可以取得57.58%的勝率，且使用相同時間訓練的KataGo-TSS Hybrids方法與原始AlphaZero方法相比也可以取得70%的勝率。並且這三種作法訓練到500個迭代後與NCTU6_Level3對戰，都可以取得超過65%的勝率。
基於強化學習之Surakarta棋程式開發與研究
(2019) 陳毅泰; Chen, Yi-Tai
Surakarta棋是起源於印尼爪哇島的一種雙人零和遊戲，原名Permainan，在印尼文是遊戲之意，後來由法國人命名為Surakarta，取自當地地名「梭羅」。遊戲中獨一無二的吃子方法是這種棋的最大亮點，透過棋盤外圍的環狀構造，將對手的棋子一網打盡後，方可獲得最後的勝利。除了現實的遊戲外，Surakarta棋也是Computer Olympiad定期舉辦的比賽項目之一，歷年來誕生了不少棋力高強的程式。而這兩年的AlphaGo和AlphaZero將電腦對局推向了新的里程碑，也有了新的契機，希望能夠將Surakarta棋程式的棋力向上提升。本研究將利用AlphaZero的架構，搭配不同的參數及架構上的改良，訓練及實做Surakarta棋的AI和視覺化平台。除了單一神經網路的版本，研究中也嘗試了一種新的多神經網路架構，將遊戲的過程分成三階段並訓練三種不同的神經網路來各司其職，分別為「開局網路」、「中局網路」和「殘局網路」。其中，使用殘局網路版本的AlphaZero算法和DTC殘局庫做了交叉驗證，顯示其正確率高達99%。
基於AlphaZero作法之國際跳棋程式開發及研究
(2020) 簡沅亨; Chien, Yuan-Heng
國際跳棋是由民族跳棋演變而來的。據說在一七二三年，居住在法國的一名波蘭軍官把六十四格的棋盤改為一百格，因此又被稱為「波蘭跳棋」。國際跳棋擁有flying king和連吃的特殊規則，使得下法有趣多變，深受大眾的喜愛。近年來，AlphaZero演算法在多種棋類AI訓練上，都獲得極大的成功。因此，本研究使用AlphaZero的架構來實作國際跳棋的AI。然而，國際跳棋擁有連吃路徑的問題，無法以單次神經網路輸出來完整表達連吃的路徑，所以本研究設計連續走步，藉由神經網路的多次走步輸出來完整描述連吃的路徑。為了提高國際跳棋AlphaZero的訓練效率，本研究使用大贏策略來加速訓練，讓神經網路能夠往大贏的方向去訓練。經過100迭代訓練之後，使用大贏策略訓練的神經網路模型與原始AlphaZero版本訓練的神經網路模型相比，擁有較高的勝率。
改進AlphaZero的大贏策略並應用於黑白棋
(2019) 張乃元; Chang, Nai-Yuan
DeepMind的AlphaZero演算法在電腦遊戲對局領域中取得了巨大的成功，在許多具有挑戰性的遊戲中都取得了超越人類的表現，但是我們認為AlphaZero演算法中仍然有可以改進的地方。 AlphaZero演算法只估計遊戲的輸贏或是平手，而忽略了最後可能會獲得多少分數。而在像是圍棋或是黑白棋這類的佔地型遊戲中，最後所得到的分數往往會相當大地左右遊戲的勝負，於是我們提出大贏策略：在AlphaZero演算法中加入對於分數的判斷，來改進演算法的效率。在本研究中使用8路黑白棋作為實驗大贏策略效果的遊戲，我們使用並且修改網路上一個實作AlphaZero演算法的開源專案：alpha-zero-general來進行我們的實驗。經過我們的實驗之後，使用大贏策略的模型相比未使用的原始AlphaZero模型，在經過100個迭代的訓練之後有著高達78%的勝率，證明大贏策略對於AlphaZero演算法有著十分顯著的改進效益。
蒙地卡羅樹搜索法的必贏策略以及快速Nonogram解題程式的實作
(2019) 陳彥吉; Chen, Yen-Chi
DeepMind的AlphaZero展現了增強式學習即使在沒有人類知識的情況下也能表現出超越人類世界冠軍的棋力。然而AlphaZero所使用的蒙地卡羅樹搜索法無法根據遊戲理論值來評估盤面好壞。即使遊戲的結果已經被得知，蒙地卡羅樹仍會拜訪這個節點。在這篇論文中我們提出了Exact-win策略來對蒙地卡羅樹進行剪枝。Exact-win讓MCTS不再去處理已知遊戲理論值的節點，增加發現其他關鍵走步的機會。實驗結果顯示了我們的Exact-win方法在一些即死遊戲上顯著提升了原始MCTS的棋力，像是在井字遊戲和連四棋。在使用了Exact-win策略之後，Exact-win與原始版本的Leela Zero、ELF OpenGo和PhoenixGo對下了100盤後分別取得61、58和51場勝場。雖然DeepMind的AlphaZero仍未開源，但我們期待未來我們的方法也能用來加強AlphaZero。就我們所知，這是第一個可以直接加強AlphaZero的方法。在本篇論文中我們也將揭露我們的Nonogram程式Requiem的實作方式，該程式在近幾次的比賽中都以十分顯著的時間差距贏得冠軍。Nonogram是一個單人的紙筆邏輯遊戲，玩家須根據每一行每一列的提示來對二維的方格填入顏色。我們改進了吳老師等人的方法，藉由自由度參數來減少maximal painting的計算開銷。並結合一個設計好的位元盤面表示法來配合BMI指令架構，在加速運算的同時減少記憶體的負載。我們的Nonogram程式正確地解開了2011年到2018年間的所有錦標賽的題目，並且比歷年的程式都來得快。

理學院

News

Browse

Filters

Settings

Sort By

Results per page

Search Results