資訊工程學系
Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60
本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。
News
Browse
6 results
Search Results
Item 調變頻譜特徵正規化於強健語音辨識 之研究(2011) 朱紋儀; Wen-Yi Chu在自動語音辨識技術的發展上,語音強健性一直都是一門重要的研究議題。在眾多的強健性技術中,針對語音特徵參數進行強化與補償為其中之一大主要派別。其中,近年來已有為數不少的新方法,藉由更新語音特徵時間序列及其調變頻譜來提昇語音特徵的強健性。綜觀這些技術,絕大多皆是藉由正規化時間序列或調變頻譜之統計特性,以降低語句間不匹配的程度,進而提昇語音辨識系統之強健性。然而本論文嘗試以一個嶄新的觀點切入,以對調變頻譜進行分解與成分分析為目標,提出兩種調變頻譜正規化法。首先,本論文嘗試藉由非負矩陣分解(Nonnegative Matrix Factorization, NMF)擷取調變頻譜中重要的基底向量,並且藉此更新調變頻譜以求取更具強健性的語音特徵。其次,本論文進一步賦予調變頻譜機率的意義,採用機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)之概念,對調變頻譜施以機率式成分分析、進而擷取出較重要的成分以求得更具強健性的語音特徵。本論文之所有實驗皆於國際通用的Aurora-2連續數字資料庫進行。相較於使用梅爾倒頻譜特徵之基礎實驗,本論文的方法皆能顯著低降低詞錯誤率。此外,本論文也嘗試將所提方法跟一些知名的特徵強健技術做結合;實驗顯示,相對於單一方法而言,結合法皆可進一步提昇辨識精確率,代表所提之新方法與許多特徵強健技術有良好的加成性。Item 基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識(2009) 李鴻欣; Hung-Shin Lee線性鑑別分析(linear discriminant analysis, LDA)的目標在於尋找一個線性轉換,能將原始資料投射到較低維度的特徵空間,同時又能保留類別間的幾何分離度(geometric separability)。然而,LDA並不能總是保證在分類過程中產生較高的分類正確率。其中一個可能的原因在於LDA的目標函式並非直接與分類錯誤率連接,因此它也就未必適合在某特定分類器控制下的分類規則,自動語音辨識(automatic speech recognition, ASR)就是一個很好的例子。在本篇論文中,我們藉著探索每一對容易混淆之音素類別間的經驗分類錯誤率(empirical classification error rate)與馬氏距離(Mahalanobis distance)的關係,擴展了傳統的LDA,並且將原來的類別間散佈矩陣(between-class scatter),從每一對類別間的歐式距離(Euclidean distance)估算,修改為它們的成對經驗分類正確率。這個新方法不僅保留了原本LDA就具有的輕省可解性,同時無須預設資料是為何種機率分佈。 另一方面,我們更進一步提出一種嶄新的線性鑑別式特徵擷取方法,稱之為普遍化相似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利用相似度比率檢驗(likelihood ratio test)的概念尋求一個較低維度的特徵空間。GLRDA不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩陣可被彈性地視為相異;並且在分類上,能藉由最小化類別間最混淆之情況(由虛無假設(null hypothesis)所描述)的發生機率,而求得有助於分類效果提升的較低維度特徵子空間。同時,我們也證明了LDA與異方差性線性鑑別分析(heteroscedastic linear discriminant analysis, HLDA)可被視為GLRDA的兩種特例。再者,為了增進語音特徵的強健性,GLRDA更可進一步地與辨識器所提供的經驗混淆資訊結合。 實驗結果顯示,在中文大詞彙連續語音辨識系統中,我們提出的方法都比LDA或其它現有的改進方法,如HLDA等,有較佳的表現。Item 語言模型調適使用語者用詞特徵於會議語音辨識之研究(2018) 陳映文; Chen, Ying-Wen在會議中,如何翔實地記錄交談內容是一項很重要的工作;藉由閱讀會議記錄,可以讓未參與的人員了解會議內容。同時,也因為語音被轉寫為文字,可以使會議內容的檢索更為精準。然而,人工會議紀錄往往費力耗時;因此,使用自動語音辨識技術完成會議交談內容的轉寫,能夠節省許多時間與人力的投入。但是會議語料庫和其它一般常見的語料如新聞報導之間存在很大差異;會議語料庫通常包含不常見的單詞、短句、混合語言使用和個人口語習慣。 有鑑於此,本論文試圖解決會議語音辨識時語者間用語特性不同所造成的問題。多個語者的存在可能代表有多種的語言模式;更進一步地說,人們在講話時並沒有嚴格遵循語法,而且通常會有說話延遲、停頓或個人慣用語以及其它獨特的說話方式。但是,過去會議語音辨識中的語言模型大都不會針對不同的語者進行調整,而是假設不同的語者間擁有相同的語言模式,於是將包含多個語者的文字轉寫合成一個訓練集,藉此訓練單一的語言模型。為突破此假設,本研究希望根據不同語者為語言模型的訓練和預測提供額外的信息,即是語言模型的語者調適。本文考慮兩種測試階段的情境──「已知語者」和「未知語者」,並提出了對應此兩種情境的語者特徵擷取方法,以及探討如何利用語者特徵來輔助語言模型的訓練。 在中文和英文會議語音辨識任務上的一系列語言模型的語者調適實驗顯示,我們所提出的語言模型無論是在已知語者還是未知語者情境下都有良好的表現,並且比現有的先進技術方法有較佳的效能。Item 使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適(2015) 陳思澄; Chen, Ssu-Cheng近年來深度學習(Deep Learning)激起一股研究熱潮;隨著深度學習的發展而有分散式表示法(Distributed Representation)的產生。此種表示方式不僅能以較低維度的向量表示詞彙,還能藉由向量間的運算,找出任兩詞彙之間的語意關係。本論文以此為發想,提出將分散式表示法,或更具體來說是詞向量表示(Word Representation),應用於語音辨識的語言模型中使用。首先,在語音辨識的過程中,對於動態產生之歷史詞序列與候選詞改以詞向量表示的方式來建立其對應的語言模型,希望透過此種表示方式而能獲取到更多詞彙間的語意資訊。其次,我們針對新近被提出的概念語言模型(Concept Language Model)加以改進;嘗試在調適語料中以句子的層次做模型訓練資料選取之依據,去掉多餘且不相關的資訊,使得經由調適語料中訓練出的概念類別更為具代表性,而能幫助動態語言模型調適。另一方面,在語音辨識過程中,會選擇相關的概念類別來動態組成概念語言模型,而此是透過詞向量表示的方式來估算,其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成,希望藉由詞向量表示記錄每一個概念類別內詞彙彼此間的語意關係。最後,我們嘗試將上述兩種語言模型調適方法做結合。本論文是基於公視電視新聞語料庫來進行大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)實驗,實驗結果顯示本論文所提出的語言模型調適方法相較於當今最好方法有較佳的效用。Item 調變頻譜分解之改良於強健性語音辨識(2015) 張庭豪; Chang, Ting-Hao自動語音辨識(Automatic Speech Recognition, ASR)系統常因環境變異而導致效能嚴重地受影響;所以長久以來語音強健(Robustness)技術的發展是一個極為重要且熱門的研究領域。本論文旨在探究語音強健性技術,希望能透過有效的語音特徵調變頻譜處理來求取較具強健性的語音特徵。為此,我們使用非負矩陣分解(Nonnegative Matrix Factorization, NMF)以及一些改進方法來分解調變頻譜強度成分,以獲得較具強健性的語音特徵。本論文有下列幾項貢獻。首先,結合稀疏性的概念,期望能夠求取到具調變頻譜局部性的資訊以及重疊較少的NMF基底向量表示。其次,基於局部不變性的概念,希望發音內容相似的語句之調變頻譜強度成分,在NMF空間有越相近的向量表示以維持語句間的關連程度。再者,在測試階段經由正規化NMF之編碼向量,更進一步提升語音特徵之強健性。最後,我們也結合上述NMF的改進方法。本論文的所有實驗皆於國際通用的Aurora-2連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜特徵之基礎實驗,我們所提出的改進方法皆能顯著地降低語音辨識錯誤率。此外,也嘗試將我們所提出的改進方法與一些知名的特徵強健技術做比較和結合,以驗證這些改進方法之實用性。實驗平台使用HTK與KALDI兩種語音辨識系統。前者用來實驗上述所提出NMF改良之效能;後者用來實驗類神經網路(Neural Network)技術於語音辨識之聲學模型的效能,並探討調變頻譜正規化法與其結合之效果。Item 強健性語音辨識上關於特徵正規化與其它改良技術的研究(2005) 劉成韋; Liu Cheng-Wei人類在幾千年的演化過程中,生活上的智慧不斷的累積傳承,因此過去文明變遷和人類演化的步伐是一致的。而如今科技進化的速度,卻早已大大的超越了人類演化的速度,並且日常生活中可以使用的多媒體影音資訊也越來越多,例如廣播電視節目、語音信件、演講錄影和數位典藏等,基於這個因素,可以隨時隨地的存取上述多媒體資訊的手持式行動裝置,也越來越受到重視。很明顯地,在上述的絕大部份多媒體中,語音可以說是最具語意的主要內涵之一。除此之外,語音自古以來一直都是人類最自然也最直接的溝通方式,若能利用語音來做為人類和科技產品之間的溝通橋樑,除了具備友善且有效的優點之外,更能省去繁雜的操作手續。現今市面上所見的科技產品,普遍的來說體積已越來越小,因此觸控的方式已漸漸地不再便利。此外傳統的人機介面如滑鼠和鍵盤,並非在所有的環境下都能適當的被使用,例如在行動的汽車環境下就顯得不夠方便。所以若能利用語音來做為人機介面,將會大大的提升便利性,使得科技和生活能夠更緊密的融合。然而語音辨識通常會遭受到一些複雜的因素干擾,諸如背景噪音,通道效應,以及語者和語言上的差異等諸多因素,使得辨識系統始終無法發揮最佳的效用,而辨識率往往也差強人意。 而本篇論文的主旨,在於針對目前許多語音強健技術進行研究比較並加以改良,最後整合出一套新的技術。而本論文主要的研究方法,是以查表式統計圖等化法為主,並和其它相關的技術結合來提升語音的強健性,最後將查表式統計圖等化法加以改良為改良式統計圖等化法,也就是將參考分佈依據音框的種類,分為靜音和語音。甚至根據中文特性,再將語音細分為聲母和韻母。而吾人所提出的改良式統計圖等化法,辨識率比傳統的查表示統計圖等化法相對提升了4.04% ; 對於原始辨識率也相對提升了至少5.75%。此外吾人也嘗試對語音訊號所擷取出的頻譜熵特徵與線性鑑別分析的技術結合,再與傳統的語音特徵參數合併來作為新的語音特徵參數,而辨識率也相對提升了近1.00%。若將新的特徵參數和本論文另一個研究主題(THEQ)作結合,更可以達到加成性的效果,平均相對辨識率提升至5.19%。