資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。

News

Browse

Search Results

Now showing 1 - 1 of 1
  • Item
    提升編碼器語言敏銳度在語碼轉換語音辨識中的有效性之研究
    (2024) 楊子霆; Tzu-Ting, Yang
    隨著端到端 (End-to-End, E2E) 神經網路的出現,語音辨識 (Automatic Speech Recognition, ASR) 領域進入了一個革命性的全新時代。E2E ASR 將傳統語音辨識框架中的模組整合為一個單一、統一的神經網路,能夠直接將輸入的語音信號轉錄為相應的文本。這一創新不僅簡化了神經網路的建模過程,還大大減少了各個模組獨立訓練時可能產生的不一致性。在單語辨識效能方面,E2E ASR 模型已經達到了接近人類水準的準確性,這標誌著語音辨識技術演進中的一個重要里程碑。根據統計,現今全球超過60%的人口是多語言使用者。在口頭交流中,多語者經常因為學習環境和情緒變化等因素無意識地在不同語言之間切換。這種現象被稱為語碼轉換(Code-Switching, CS),在台灣、新加坡和馬來西亞等高度國際化的國家中特別普遍。在語碼轉換中,模型不僅需要考慮聲學特徵,還需要學會精確識別語言切換的時刻。這一任務的複雜性經常導致端到端語音識別系統(E2E ASR)性能下降。因此,解決語碼轉換問題是語音識別領域中最緊迫的挑戰之一。為了解決這一挑戰,我們提出了 D-MoE 架構,這是一種設計用於同時利用語言間共享的底層資訊並有效減少聲音嵌入中語言混淆的編碼器。隨後,我們實施了一項創新技術,透過在編碼器內部建立語言邊界,潛移默化地豐富聲音嵌入中的語言知識,進一步增強了模型對不同語言的敏銳度。