資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年，首先招收大學部學生，民國九十年成立資訊工程研究所碩士班，而後於民國九十五年進行系、所調整合併為「資訊工程學系」；並於九十六年成立博士班。本系目前每年約招收大學部四十餘人，碩士班六十餘人，博士班約五人，截至民國一百零四年十一月止，總計現有大學部一百九十多人，碩士班一百二十多人，博士班二十三人，合計學生人數約為三百三十多位。

News

系所網址：http://w1.csie.ntnu.edu.tw/

Browse

Search Results

Now showing 1 - 5 of 5

使用跨語句上下文語言模型和圖神經網路於會話語音辨識重新排序之研究
(2021) 邱世弦; Chiu, Shih-Hsuan
語言模型在一個語音辨識系統中扮演著極為重要的角色，來量化一段已辨識候選句(詞序列)在自然語言中的語意與語法之接受度。近年來，基於神經網路架構的語言模型明顯優於傳統的 n 連語言模型，主要因為前者具有捕捉更長距離的上下文的卓越能力。然而，有鑒於神經語言模型的高計算複雜度，它們通常應用於第二階段的 N 最佳候選句重新排序來對每個候選句重新打分。這種替代且輕量級的方法，能夠使用更精緻的神經語言模型以整合任務有關的線索或調適機制來更佳的重排候選句，已引起了廣大的興趣並成為語音辨識領域中一個重要的研究方向。另一方面，使用語音辨識系統來有效的辨識出對話語音，對於邁向智能對話 AI 起關鍵重要的作用。相關的應用包含虛擬助理、智能音箱、互動式語音應答... 等等，都無所不在於我們的日常生活中。而在這些真實世界的應用中，通常(或理想上)會以多輪語音與使用者作互動，這些對話語音存在一些常見的語言現象，例如主題連貫性和單詞重複性，但這些現象與解決辦法仍然有待探索。基於上述的種種觀察，我們首先利用上下文語言模型(例如: BERT)，將 N 最佳候選重排任務重新定義為一種預測問題。再者，為了更進一步增強我們的模型以處理對話語音，我們探索了一系列的主題和歷史調適的技術，大致可分為三部分: (1)一種將跨語句資訊融入到模型中的有效方法; (2)一種利用無監督式主題建模來擷取與任務有關的全局資訊的有效方法; (3)一種利用圖神經網路(例如: GCN)來提取詞彙之間全局結構依賴性的新穎方法。我們在國際標竿 AMI 會議語料庫進行了一系列的實驗來評估所提出的方法。實驗結果顯示了在降低單詞錯誤率方面，與當前一些最先進與主流的方法相比，提出方法有其有效性與可行性。
探究語句模型技術應用於摘錄式語音文件摘要
(2013) 張皓欽; Hao-Chin Chang
摘錄式語音摘要是根據事先定義的摘要比例，從語音文件中選取一些重要的語句來產生簡潔的摘要以代表原始文件的主旨或主題，在近幾年已成為一項非常熱門的研究議題。其中，使用語言模型(Language Modeling)架構結合庫爾貝克-萊伯勒差異量(Kullback-Leibler Divergence)來進行重要語句選取的方法，在一些文字與語音文件摘要任務上已展現不錯的效能。本論文延伸此一方法而三個主要貢獻。首先，基於所謂關聯性(Relevance)的概念，我們探索新穎的語句模型技術。透過不同層次(例如詞或音節)索引單位的使用所建立的語句模型能與文件模型進行比對，來估算候選摘要語句與語音文件的關係。再者，我們不僅使用了語音文件中所含有語彙資訊(Lexical Information)，也使用了語音文件中所含隱含的主題資訊(Topical Information)來建立各種語句模型。最後，為了改善關聯模型(Relevance Modeling)需要初次檢索的問題，本論文提出了詞關聯模型(Word Relevance Modeling)。語音摘要實驗是在中文廣播新聞上進行；相較於其它非監督式摘要方法，本論文所提出摘要方法似乎能有一定的效能提升。
遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究
(2012) 黃邦烜; Bang-Xuan Huang
語言模型藉由大量的文字訓練後，可以捕捉自然語言的規律性，並根據歷史詞序列來區辨出下一個詞應該為何，因此在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演著不可或缺的角色。傳統統計式N連(N-gram)語言模型是常見的語言模型，它基於已知的前N-1個詞來預測下一個詞出現的可能性。當N小時，缺乏了長距離的資訊；而N大時，會因訓練語料不足產生資料稀疏之問題。近年來，由於類神經網路(Neural Networks)的興起，許多相關研究應運而生，類神經網路語言模型即是一例。令人感興趣的是，類神經網路語言模型能夠解決資料稀疏的問題，它透過將詞序列映射至連續空間來估測下一個詞出現的機率，因此在訓練語料中不會遇到未曾出現過的詞序列組合。除了傳統前饋式類神經網路語言模型外，近來也有學者使用遞迴式類神經網路來建構語言模型，其希望使用遞迴的方式將歷史資訊儲存起來，進而獲得長距離的資訊。本論文研究遞迴式類神經網路語言模型於中文大詞彙連續語音辨識之使用，探索額外使用關聯資訊以更有效地捕捉長距離資訊，並根據語句的特性動態地調整語言模型。實驗結果顯示，使用關聯資訊於遞迴式類神經網路語言模型能對於大詞彙連續語音辨識的效能有相當程度的提昇。
語言模型調適使用語者用詞特徵於會議語音辨識之研究
(2018) 陳映文; Chen, Ying-Wen
在會議中，如何翔實地記錄交談內容是一項很重要的工作；藉由閱讀會議記錄，可以讓未參與的人員了解會議內容。同時，也因為語音被轉寫為文字，可以使會議內容的檢索更為精準。然而，人工會議紀錄往往費力耗時；因此，使用自動語音辨識技術完成會議交談內容的轉寫，能夠節省許多時間與人力的投入。但是會議語料庫和其它一般常見的語料如新聞報導之間存在很大差異；會議語料庫通常包含不常見的單詞、短句、混合語言使用和個人口語習慣。有鑑於此，本論文試圖解決會議語音辨識時語者間用語特性不同所造成的問題。多個語者的存在可能代表有多種的語言模式；更進一步地說，人們在講話時並沒有嚴格遵循語法，而且通常會有說話延遲、停頓或個人慣用語以及其它獨特的說話方式。但是，過去會議語音辨識中的語言模型大都不會針對不同的語者進行調整，而是假設不同的語者間擁有相同的語言模式，於是將包含多個語者的文字轉寫合成一個訓練集，藉此訓練單一的語言模型。為突破此假設，本研究希望根據不同語者為語言模型的訓練和預測提供額外的信息，即是語言模型的語者調適。本文考慮兩種測試階段的情境──「已知語者」和「未知語者」，並提出了對應此兩種情境的語者特徵擷取方法，以及探討如何利用語者特徵來輔助語言模型的訓練。在中文和英文會議語音辨識任務上的一系列語言模型的語者調適實驗顯示，我們所提出的語言模型無論是在已知語者還是未知語者情境下都有良好的表現，並且比現有的先進技術方法有較佳的效能。
使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適
(2015) 陳思澄; Chen, Ssu-Cheng
近年來深度學習(Deep Learning)激起一股研究熱潮；隨著深度學習的發展而有分散式表示法(Distributed Representation)的產生。此種表示方式不僅能以較低維度的向量表示詞彙，還能藉由向量間的運算，找出任兩詞彙之間的語意關係。本論文以此為發想，提出將分散式表示法，或更具體來說是詞向量表示(Word Representation)，應用於語音辨識的語言模型中使用。首先，在語音辨識的過程中，對於動態產生之歷史詞序列與候選詞改以詞向量表示的方式來建立其對應的語言模型，希望透過此種表示方式而能獲取到更多詞彙間的語意資訊。其次，我們針對新近被提出的概念語言模型(Concept Language Model)加以改進；嘗試在調適語料中以句子的層次做模型訓練資料選取之依據，去掉多餘且不相關的資訊，使得經由調適語料中訓練出的概念類別更為具代表性，而能幫助動態語言模型調適。另一方面，在語音辨識過程中，會選擇相關的概念類別來動態組成概念語言模型，而此是透過詞向量表示的方式來估算，其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成，希望藉由詞向量表示記錄每一個概念類別內詞彙彼此間的語意關係。最後，我們嘗試將上述兩種語言模型調適方法做結合。本論文是基於公視電視新聞語料庫來進行大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)實驗，實驗結果顯示本論文所提出的語言模型調適方法相較於當今最好方法有較佳的效用。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results