資訊工程學系

Now showing 1 - 3 of 3

探究新穎深度學習方法於中英文混語語音辨識之使用
(2021) 林韋廷; Lin, Wei-Ting
在多語言社會中易有一段對話中包含了多種語言的情形發生，不僅是多語言社會，甚至是單語言社會也受全球化的影響，對話中常參雜一些其他語言，這種現象稱為語碼轉換(Code-Switching, CS)。在CS自動語音辨識(Automatic Speech Recognition, ASR)中，需要同時辨識出兩種或更多種的語言，但又與多語言語音辨識不同，語者除了在句子間轉換語言外，更常在句子內進行轉換，所以也在最近被視為一個難題而被關注。本論文的研究分為兩個方面，分別為端對端和DNN-HMM混語語音辨識之改進方法，前者著重於增強中英文混語語料庫SEAME。我們採用了前陣子提出的模型Conformer，並設計語言遮罩(language-masked) multi-head attention架構應用到解碼器(decoder)端，希望讓各自的語言能學到其獨立的語言特性並強化其單語言的辨識能力。另外，為了防止模型學出的中文和英文特徵向量相近，而將三元組損失(Triplet loss)用於訓練模型。後者我們提出多種不同階段的語言模型合併策略以用於企業應用領域的多種語料。在本篇論文的實驗設定中，會有兩種中英文CS語言模型和一種中文的單語言模型，其中CS語言模型使用的訓練資料與測試集同一領域(Domain)，而單語言模型是用大量一般中文語料訓練而成。我們透過多種不同階段的語言模型合併策略以探究ASR是否能結合不同的語言模型其各自的優勢以在不同任務上都有好的表現。在本篇論文中有三種語言模型合併策略，分別為N-gram語言模型合併、解碼圖 (Decoding Graph) 合併和詞圖 (Word Lattice) 合併。經由一系列的實驗結果證實，透過語言模型的合併的確能讓CS ASR對不同的測試集都有好的表現。而端到端混語語音辨識之方法於測試集上的字符錯誤率(Token Error Rate, TER)並沒有顯著的進步，但透過其他數據分析發現我們的研究方法仍有些微效果。
主題模型於語音辨識使用之改進
(2010) 陳冠宇; Kuan-Yu Chen
本論文探討自然語言中詞與詞之間在各種不同條件下的共同出現關係，並推導出許多不同的語言模型來描述之，進而運用於中文大詞彙連續語音辨識。當我們想要探索語言中兩個詞彼此間的共同出現關係(Co-occurrence Relationships)，傳統的做法是由整個訓練語料中統計這兩個詞在一個固定長度的移動窗(Fixed-size Moving Window)內的共同出現頻數(Frequency)，據此以估測出兩個詞之間的聯合機率分布。有別於僅從整個訓練語料中的共同出現頻數來推測任兩個詞之間的關係，本論文嘗試分析兩個詞在不同條件下共同出現的情形，進而推導出多種描述詞與詞關係的語言模型以及其估測方式；像是在不同的主題、文件或文件群的情況下，它們是否皆經常共同出現。本論文的實驗語料收錄自台灣的中文廣播新聞，由一系列的大詞彙連續語音辨識實驗結果顯示，我們所提出的各式語言模型皆可以明顯地提昇基礎語音辨識系統的效能。
語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究
(2005) 蔡文鴻; Wen-Hung Tsai
在過去三十年間，統計式語言模型在各種與自然語言相關的應用上一直是一個重要的研究議題，它的功能是擷取自然語言中的各種資訊，諸如前後文資訊（contextual information）、語意資訊（semantic information）等，再利用這些資訊以機率量化來決定一個詞序列（word sequence）發生的可能性。例如，在語音辨識中，語言模型扮演的角色是要解決聲學混淆（acoustic confusion）的問題，將正確的辨識結果從有可能的候選詞序列中挑選出來。近年來，語音辨識在我們生活中已有越來越多的應用，例如語音聽寫（voice dictation）、電話轉接（call routing）系統等等。但是語音辨識效能的好壞，通常會隨著辨識任務的詞彙或語意的不同，而受到嚴重的影響，於是誕生了語言模型調適的研究。語言模型調適是要利用辨識任務中固有的詞彙和語意資訊來彌補訓練語料與測試語料間的不一致性（mismatch）。在本論文中，提出了原本應用在機率式資訊檢索上的主題混合模型法（topic mixture model, TMM）來動態的利用長距離的主題資訊，並且運用在語言模型調適上得到了不錯的效果。此外，本論文對最大熵值法（maximum entropy, ME）亦做了深入的研究，最大熵值法是一種將不同資訊來源（information sources）整合的方法，在此方法中，每一個資訊來源都會引發一群限制（constraints），限制合併後的語言模型要滿足所有的資訊。然而，這些限制的交集（intersection），是滿足所有資訊的機率分佈的集合，在這個集合中，擁有最大熵值（highest entropy）的機率分佈即為此方法的解。初步的實驗結果顯示以最大熵值法來合併一連詞、二連詞與三連詞所得到的語言模型，比用傳統最大相似度估測法（maximum likelihood）所訓練的語言模型，在中文廣播新聞轉寫上的字錯誤率（character error rate, CER）與語言模型複雜度（perplexity）都達到較好的效果。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results