理學院

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/3

學院概況

理學院設有數學系、物理學系、化學系、生命科學系、地球科學系、資訊工程學系6個系（均含學士、碩士及博士課程），及科學教育研究所、環境教育研究所、光電科技研究所及海洋環境科技就所4個獨立研究所，另設有生物多樣性國際研究生博士學位學程。全學院專任教師約180人，陣容十分堅強，無論師資、學術長現、社會貢獻與影響力均居全國之首。

特色

理學院位在國立臺灣師範大學分部校區內，座落於臺北市公館，佔地約10公頃，是個小而美的校園，內含國際會議廳、圖書館、實驗室、天文臺等完善設施。

理學院創院已逾六十年，在此堅固基礎上，理學院不僅在基礎科學上有豐碩的表現，更在臺灣許多研究中獨占鰲頭，曾孕育出五位中研院院士。近年來，更致力於跨領域研究，並在應用科技上加強與業界合作，院內教師每年均取得多項專利，所開發之商品廣泛應用於醫、藥、化妝品、食品加工業、農業、環保、資訊、教育產業及日常生活中。

在科學教育研究上，臺灣師大理學院之排名更高居世界第一，此外更有獨步全臺的科學教育中心，該中心就中學科學課程、科學教與學等方面從事研究與推廣服務；是全國人力最充足，設備最完善，具有良好服務品質的中心。

在理學院紮實、多元的研究基礎下，學生可依其性向、興趣做出寬廣之選擇，無論對其未來進入學術研究領域、教育界或工業界工作，均是絕佳選擇。

News

系所網址：http://iweb.ntnu.edu.tw/philedu/index.php

Browse

Search Results

Now showing 1 - 6 of 6

提升編碼器語言敏銳度在語碼轉換語音辨識中的有效性之研究
(2024) 楊子霆; Tzu-Ting, Yang
隨著端到端 (End-to-End, E2E) 神經網路的出現，語音辨識 (Automatic Speech Recognition, ASR) 領域進入了一個革命性的全新時代。E2E ASR 將傳統語音辨識框架中的模組整合為一個單一、統一的神經網路，能夠直接將輸入的語音信號轉錄為相應的文本。這一創新不僅簡化了神經網路的建模過程，還大大減少了各個模組獨立訓練時可能產生的不一致性。在單語辨識效能方面，E2E ASR 模型已經達到了接近人類水準的準確性，這標誌著語音辨識技術演進中的一個重要里程碑。根據統計，現今全球超過60%的人口是多語言使用者。在口頭交流中，多語者經常因為學習環境和情緒變化等因素無意識地在不同語言之間切換。這種現象被稱為語碼轉換（Code-Switching, CS），在台灣、新加坡和馬來西亞等高度國際化的國家中特別普遍。在語碼轉換中，模型不僅需要考慮聲學特徵，還需要學會精確識別語言切換的時刻。這一任務的複雜性經常導致端到端語音識別系統（E2E ASR）性能下降。因此，解決語碼轉換問題是語音識別領域中最緊迫的挑戰之一。為了解決這一挑戰，我們提出了 D-MoE 架構，這是一種設計用於同時利用語言間共享的底層資訊並有效減少聲音嵌入中語言混淆的編碼器。隨後，我們實施了一項創新技術，透過在編碼器內部建立語言邊界，潛移默化地豐富聲音嵌入中的語言知識，進一步增強了模型對不同語言的敏銳度。
適用於改善語音辨識的新穎調適方法與後處理模型
(2023) 王馨偉; Wang, Hsin-Wei
得益於神經模型架構和訓練算法的協同突破，自動語音識別（ASR）最近取得了巨大的成功並達到了人類的水平。然而，ASR 在許多現實用例中的性能仍遠未達到完美。人們對設計和開發可行的後處理模組以通過細修 ASR 輸出句子來提高識別性能的研究興趣激增，這些模組大致分為兩類。第一類方法是 ASR 前 N 個最佳假設重新排序。ASR 前 N 個最佳假設重新排序旨在從給定的 N 個假設列表中找到單詞錯誤率最低的假設。另一類方法的靈感來自中文拼寫校正 (CSC) 或英文拼寫校正 (ESC)等，旨在檢測和校正 ASR 輸出句子的文本級錯誤。在本文中，我們嘗試將上述兩種方法整合到ASR糾錯（AEC）模組中，並探討不同類型的特徵對AEC的影響。我們提出的方法名為REDECORATE，適用於校正從現成語音服務獲得的純文本轉錄。在大多數情況下，目標域的相關純文本數據相對更容易獲得。因此，使用從此類數據中收集的知識可以更有效地將通用域 ASR 模型導向目標域。鑑於此，我們提出了另一種基於領域自適應數據構建的單詞共現圖的新穎的糾錯方法。給定的神經 ASR 模型可以通過即插即用的方式輕鬆訪問有關語音話語語義上下文的知識，而無需引入額外的參數。該方法名為GRACE，可以隨插即用適用於客製化訓練的ASR模型的模型調適或是直接校正ASR轉錄結果。在 AISHELL-1 基準數據集上進行的一系列實驗表明，所提出的方法可以在強大的 ASR 基線上顯著降低字符錯誤率 (CER)。
使用跨語句上下文語言模型和圖神經網路於會話語音辨識重新排序之研究
(2021) 邱世弦; Chiu, Shih-Hsuan
語言模型在一個語音辨識系統中扮演著極為重要的角色，來量化一段已辨識候選句(詞序列)在自然語言中的語意與語法之接受度。近年來，基於神經網路架構的語言模型明顯優於傳統的 n 連語言模型，主要因為前者具有捕捉更長距離的上下文的卓越能力。然而，有鑒於神經語言模型的高計算複雜度，它們通常應用於第二階段的 N 最佳候選句重新排序來對每個候選句重新打分。這種替代且輕量級的方法，能夠使用更精緻的神經語言模型以整合任務有關的線索或調適機制來更佳的重排候選句，已引起了廣大的興趣並成為語音辨識領域中一個重要的研究方向。另一方面，使用語音辨識系統來有效的辨識出對話語音，對於邁向智能對話 AI 起關鍵重要的作用。相關的應用包含虛擬助理、智能音箱、互動式語音應答... 等等，都無所不在於我們的日常生活中。而在這些真實世界的應用中，通常(或理想上)會以多輪語音與使用者作互動，這些對話語音存在一些常見的語言現象，例如主題連貫性和單詞重複性，但這些現象與解決辦法仍然有待探索。基於上述的種種觀察，我們首先利用上下文語言模型(例如: BERT)，將 N 最佳候選重排任務重新定義為一種預測問題。再者，為了更進一步增強我們的模型以處理對話語音，我們探索了一系列的主題和歷史調適的技術，大致可分為三部分: (1)一種將跨語句資訊融入到模型中的有效方法; (2)一種利用無監督式主題建模來擷取與任務有關的全局資訊的有效方法; (3)一種利用圖神經網路(例如: GCN)來提取詞彙之間全局結構依賴性的新穎方法。我們在國際標竿 AMI 會議語料庫進行了一系列的實驗來評估所提出的方法。實驗結果顯示了在降低單詞錯誤率方面，與當前一些最先進與主流的方法相比，提出方法有其有效性與可行性。
遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究
(2012) 黃邦烜; Bang-Xuan Huang
語言模型藉由大量的文字訓練後，可以捕捉自然語言的規律性，並根據歷史詞序列來區辨出下一個詞應該為何，因此在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演著不可或缺的角色。傳統統計式N連(N-gram)語言模型是常見的語言模型，它基於已知的前N-1個詞來預測下一個詞出現的可能性。當N小時，缺乏了長距離的資訊；而N大時，會因訓練語料不足產生資料稀疏之問題。近年來，由於類神經網路(Neural Networks)的興起，許多相關研究應運而生，類神經網路語言模型即是一例。令人感興趣的是，類神經網路語言模型能夠解決資料稀疏的問題，它透過將詞序列映射至連續空間來估測下一個詞出現的機率，因此在訓練語料中不會遇到未曾出現過的詞序列組合。除了傳統前饋式類神經網路語言模型外，近來也有學者使用遞迴式類神經網路來建構語言模型，其希望使用遞迴的方式將歷史資訊儲存起來，進而獲得長距離的資訊。本論文研究遞迴式類神經網路語言模型於中文大詞彙連續語音辨識之使用，探索額外使用關聯資訊以更有效地捕捉長距離資訊，並根據語句的特性動態地調整語言模型。實驗結果顯示，使用關聯資訊於遞迴式類神經網路語言模型能對於大詞彙連續語音辨識的效能有相當程度的提昇。
運用調變頻譜分解技術於強健語音特徵擷取之研究
(2014) 汪逸婷
近年來，語音特徵調變頻譜的研究，由於其簡單又能針對語音特徵提供整體變化分析的特性，在強健性自動語音辨識的領域獲得了廣大的迴響；本論文著重於二個部分：其一為非負矩陣分解法之延伸，非負矩陣分解法由於能有效擷取調變頻譜中關鍵且不受雜訊影響的資訊，而得到許多關注，本論文將延續這個領域的研究，提出對語音進行分群處理的分群式非負矩陣分解法，以及加上稀疏性之條件的稀疏化非負矩陣分解法。其二為壓縮感知法之延伸，壓縮感知法為一種用較相關之資訊以較精簡的方式來還原訊號，本論文提出一個展新的想法，將壓縮感知法應用在語音特徵調變頻譜。分群式非負矩陣分解法為運用分群處理的技術將不同特性的語句分開處理，使非負矩陣分解法能夠更精準地擷取語音中的重要資訊，而不受語句之間的變異性干擾；稀疏化非負矩陣分解法為探索非負矩陣分解法中稀疏性帶來的影響，以期取得較集中且不重覆的基底調變頻譜。本論文所有的實驗皆使用常見的Aurora-2語料庫進行驗證，並進一步在大詞彙語料庫Aurora-4進行驗證。實驗的結果說明了：本論文所提出的兩種延伸方法，確實能在改進語音辨識的強健性上發揮其效力，並得到比其他調變頻譜應用技術更佳的辨識正確率。
探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究
(2019) 羅天宏; Lo, Tien-Hong
近年來鑑別式訓練(Discriminative training)的目標函數Lattice-free maximum mutual information (LF-MMI)在自動語音辨識(Automatic speech recognition, ASR)的聲學模型(Acoustic model)訓練上取得重大的突破。儘管LF-MMI在監督式環境下斬獲最好的成果，然而在半監督式環境下的研究成果仍然有限。在常見的半監督式方法─自我訓練(Self-training)中，種子模型(Seed model)常因為語料有限而效果不佳。再者，因為LF-MMI屬於鑑別式訓練之故，較易受到標記正確與否的影響。基於上述，本論文將半監督式訓練拆解成兩個問題：1)如何提升種子模型的效能，以及2)如何利用未轉寫(無人工標記)語料。針對第一個問題，我們使用兩種方法可分別對應到是否具存有額外資料的情況，其一為遷移學習(Transfer learning)，使用技術為權重遷移(Weight transfer)和多任務學習(Multitask learning)；其二為模型合併(Model combination)，使用技術為假說層級合併(Hypothesis-level combination)和音框層級合併(Frame-level combination)。針對第二個問題，基於LF-MMI目標函數，我們引入負條件熵(Negative conditional entropy, NCE)與保留更多假說空間的詞圖監督(Lattice for supervision)。在一系列於互動式會議語料(Augmented multi-party interaction, AMI)的實驗結果顯示，不論是利用領域外資料(Out-of-domain data, OOD)的遷移學習或多樣性互補的模型合併皆可提升種子模型的效能，而NCE與詞圖監督則能運用未轉寫語料降改善錯誤率(Word error rate, WER)與詞修復率(WER recovery rate, WRR)。

理學院

News

Browse

Filters

Settings

Sort By

Results per page

Search Results