資訊工程學系

Now showing 1 - 2 of 2

語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究
(2005) 蔡文鴻; Wen-Hung Tsai
在過去三十年間，統計式語言模型在各種與自然語言相關的應用上一直是一個重要的研究議題，它的功能是擷取自然語言中的各種資訊，諸如前後文資訊（contextual information）、語意資訊（semantic information）等，再利用這些資訊以機率量化來決定一個詞序列（word sequence）發生的可能性。例如，在語音辨識中，語言模型扮演的角色是要解決聲學混淆（acoustic confusion）的問題，將正確的辨識結果從有可能的候選詞序列中挑選出來。近年來，語音辨識在我們生活中已有越來越多的應用，例如語音聽寫（voice dictation）、電話轉接（call routing）系統等等。但是語音辨識效能的好壞，通常會隨著辨識任務的詞彙或語意的不同，而受到嚴重的影響，於是誕生了語言模型調適的研究。語言模型調適是要利用辨識任務中固有的詞彙和語意資訊來彌補訓練語料與測試語料間的不一致性（mismatch）。在本論文中，提出了原本應用在機率式資訊檢索上的主題混合模型法（topic mixture model, TMM）來動態的利用長距離的主題資訊，並且運用在語言模型調適上得到了不錯的效果。此外，本論文對最大熵值法（maximum entropy, ME）亦做了深入的研究，最大熵值法是一種將不同資訊來源（information sources）整合的方法，在此方法中，每一個資訊來源都會引發一群限制（constraints），限制合併後的語言模型要滿足所有的資訊。然而，這些限制的交集（intersection），是滿足所有資訊的機率分佈的集合，在這個集合中，擁有最大熵值（highest entropy）的機率分佈即為此方法的解。初步的實驗結果顯示以最大熵值法來合併一連詞、二連詞與三連詞所得到的語言模型，比用傳統最大相似度估測法（maximum likelihood）所訓練的語言模型，在中文廣播新聞轉寫上的字錯誤率（character error rate, CER）與語言模型複雜度（perplexity）都達到較好的效果。
以字句擷取為基礎並應用於文件分類之自動摘要之研究
(2005) 黃耀民; Yao-Min Huang
摘錄式（Extractive）摘要旨在於從原始文件中依據摘要比例自動選取一些重要的字句、段落或章節，並按順序將其形成簡潔摘要。大多數常見的摘要模型原則上可依據其特性分為兩種比對策略。其一，以逐字比對（Literal Term Matching）的方式評估字句與文件的相關性，這其中以向量空間模型（Vector Space Model, VSM）為代表；其二，以概念比對（Concept Matching）的方式評估，這其中以潛藏語意分析（Latent Semantic Analysis, LSA）為代表。基於這些觀察，在本研究中我們提出數種自動文件摘要的改進方法。在逐字比對上，研究隱藏式馬可夫模型（Hidden Markov Model, HMM），並對其兩種變化（型一及型二）做廣泛的探討。於隱藏式馬可夫模型-型一：視文件為一生成模型（Generative Model），對於每個索引都有一對應的機率分佈，文件與文件中每一字句的相關性，是藉由字句的所有索引，被文件模型生成相似值（Likelihood）的連乘積來決定，換句話說當字句含有較高的相似值，則其與文件的相關性就越高；於隱藏式馬可夫模型-型二：則視文件中每一字句為一機率生成模型，文件中每一字句與文件的相關性，是藉由文件被字句生成的相似值來決定，並且文件中各字句可依據其所產生的相似值作排序。另一方面，在概念比對上，提出兩種摘要模型，分別為嵌入式潛藏語意分析（embedded LSA）與主題混合模型（Topical Mixture Model, TMM）。於嵌入式潛藏語意分析：文件與文件中每一字句同時參與潛藏語意空間的建構，並且字句的重要性可經由適當評估在潛藏語意空間內，其向量表示式與文件的相關性而得；於主題混合模型：文件中每一字句被分別表示成一混合模型，並由K個潛藏主題分佈及其相對應特定文件的事後機率所組成，文件中每一字句與文件相關性，即可藉由文件中索引發生在潛藏主題及字句產生各別主題的機率值來評估。我們在中文語音廣播新聞語料庫上執行了一系列的實驗，實驗結果顯示使用隱藏式馬可夫模型或主題混合模型其結果較其它常見方法有顯著的提升，同時主題混合模型在幾乎所有情況下均較隱藏式馬可夫模型來得佳。最後，我們也研究摘要模型中主題混合模型在文件分類的適用性，並且文件也能預先經由上述摘要模型做前處理。初步實驗結果顯示，主題混合模型分類器較常見K-最近鄰（K-Nearest-Neighbor, KNN）分類器在分類的效果上有些微的提升。關鍵字：摘要、潛藏語意分析、隱藏式馬可夫模型、主題混合模型、 K-最近鄰分類器

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results