學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912
Browse
Item 中文語音資訊摘要-模型與特徵之改進(2007) 陳怡婷大量包含聲音與影像的多媒體內容持續增加,並且遍佈於網際網路與我們的日常生活中,如何有系統化及自動化地處理與統整,已成為當前重要的課題之一。其中,語音為多媒體內容中最具有語意的主要內涵之一,通常可用來表示多媒體檔案的主題與概念。近幾年來,有許多學者已投入多媒體內容組織與理解的相關研究,並有豐碩的成果與貢獻,例如語音文件的轉譯、檢索與摘要。 文件摘要可分為摘錄式(Extractive)與非摘錄式(Non-extractive or Abstract)摘要,摘錄式摘要依特定摘要比例,從原文件中選出重要的文句、段落或章節來組成摘要;非摘錄式摘要是直接根據文件內容的主題或概念所產生的摘要內容。由於非摘錄式摘要仍具相當的困難度,故目前自動語音文件摘要的相關研究大多以摘錄式摘要為主。本論文主要探討摘錄式中文廣播新聞語音文件摘要方法。我們提出一個機率生成架構,它能將文句生成模型與文句事前機率緊密地耦合,用於摘錄式摘要之重要文句選取。待摘要文件中每一文句被視為一個機率生成式模型,藉以預測文件生成的機率。我們提出二種機率生成模型:隱藏式馬可夫模型(Hidden Markov Model, HMM)與關聯性模型(Relevance Model, RM)的結合,以及詞層次混合模型(Word Topical Mixture Model, wTMM)。同時,我們亦初步將辨識信心度與一些語音聲韻特徵用來作為文句事前機率的估測。我們於中文廣播新聞語料上進行實驗與分析,經由初步的結果證明所提出的方法較其它常見方法可達到更好的摘要結果。Item 主題模型於語音辨識使用之改進(2010) 陳冠宇; Kuan-Yu Chen本論文探討自然語言中詞與詞之間在各種不同條件下的共同出現關係,並推導出許多不同的語言模型來描述之,進而運用於中文大詞彙連續語音辨識。當我們想要探索語言中兩個詞彼此間的共同出現關係(Co-occurrence Relationships),傳統的做法是由整個訓練語料中統計這兩個詞在一個固定長度的移動窗(Fixed-size Moving Window)內的共同出現頻數(Frequency),據此以估測出兩個詞之間的聯合機率分布。有別於僅從整個訓練語料中的共同出現頻數來推測任兩個詞之間的關係,本論文嘗試分析兩個詞在不同條件下共同出現的情形,進而推導出多種描述詞與詞關係的語言模型以及其估測方式;像是在不同的主題、文件或文件群的情況下,它們是否皆經常共同出現。本論文的實驗語料收錄自台灣的中文廣播新聞,由一系列的大詞彙連續語音辨識實驗結果顯示,我們所提出的各式語言模型皆可以明顯地提昇基礎語音辨識系統的效能。Item 以字句擷取為基礎並應用於文件分類之自動摘要之研究(2005) 黃耀民; Yao-Min Huang摘錄式(Extractive)摘要旨在於從原始文件中依據摘要比例自動選取一些重要的字句、段落或章節,並按順序將其形成簡潔摘要。大多數常見的摘要模型原則上可依據其特性分為兩種比對策略。其一,以逐字比對(Literal Term Matching)的方式評估字句與文件的相關性,這其中以向量空間模型(Vector Space Model, VSM)為代表;其二,以概念比對(Concept Matching)的方式評估,這其中以潛藏語意分析(Latent Semantic Analysis, LSA)為代表。 基於這些觀察,在本研究中我們提出數種自動文件摘要的改進方法。在逐字比對上,研究隱藏式馬可夫模型(Hidden Markov Model, HMM),並對其兩種變化(型一及型二)做廣泛的探討。於隱藏式馬可夫模型-型一:視文件為一生成模型(Generative Model),對於每個索引都有一對應的機率分佈,文件與文件中每一字句的相關性,是藉由字句的所有索引,被文件模型生成相似值(Likelihood)的連乘積來決定,換句話說當字句含有較高的相似值,則其與文件的相關性就越高;於隱藏式馬可夫模型-型二:則視文件中每一字句為一機率生成模型,文件中每一字句與文件的相關性,是藉由文件被字句生成的相似值來決定,並且文件中各字句可依據其所產生的相似值作排序。另一方面,在概念比對上,提出兩種摘要模型,分別為嵌入式潛藏語意分析(embedded LSA)與主題混合模型(Topical Mixture Model, TMM)。於嵌入式潛藏語意分析:文件與文件中每一字句同時參與潛藏語意空間的建構,並且字句的重要性可經由適當評估在潛藏語意空間內,其向量表示式與文件的相關性而得;於主題混合模型:文件中每一字句被分別表示成一混合模型,並由K個潛藏主題分佈及其相對應特定文件的事後機率所組成,文件中每一字句與文件相關性,即可藉由文件中索引發生在潛藏主題及字句產生各別主題的機率值來評估。我們在中文語音廣播新聞語料庫上執行了一系列的實驗,實驗結果顯示使用隱藏式馬可夫模型或主題混合模型其結果較其它常見方法有顯著的提升,同時主題混合模型在幾乎所有情況下均較隱藏式馬可夫模型來得佳。 最後,我們也研究摘要模型中主題混合模型在文件分類的適用性,並且文件也能預先經由上述摘要模型做前處理。初步實驗結果顯示,主題混合模型分類器較常見K-最近鄰(K-Nearest-Neighbor, KNN)分類器在分類的效果上有些微的提升。 關鍵字:摘要、潛藏語意分析、隱藏式馬可夫模型、主題混合模型、 K-最近鄰分類器Item 以能量為基礎之語音正規化方法研究及其於語音端點偵測之應用(2007) 陳鴻彬; Hung-Bin Chen本論文主要探討強健(Robust)性語音辨識技術在不同噪音環境下的情況,並且於時間軸上研究雜訊語音(Noisy Speech)在對數能量上重建出乾淨語音(Clean Speech)對數能量的方法。基於每一語句對數能量特徵值的分佈特性,我們期望發展出一個有效的方法可以重刻雜訊語音對數能量的尺度,以減緩噪音環境所造成不匹配的情形,並達到更好的辨識率效果。 根據時間軸上的語音訊號觀察顯示,低能量的語音音框比高能量的語音音框更容易受到加成性噪音(Additive Noise)的影響,並且當出現嚴重的加成性噪音影響的時候,對數能量特徵強度在語句中幾乎會整個被提高,因此我們提出一個簡單但是有效的方法,稱之為對數能量尺度重刻正規化技術(Log Energy Rescaling Normalization, LERN),適當的重刻雜訊語音的對數能量特徵值使成為接近乾淨語音的環境狀況。 語音辨識實驗採用的是包含多種噪音環境的語料,該語料是由歐洲電信標準協會(European Telecommunications Standards Institute, ETSI)所發行的Aurora-2.0語料庫,語料庫內容為英語發音的連續數字字串的小詞彙。提供有八種噪音來源和七種訊噪比(Signal-to-Noise Ratio, SNR)的情況。實驗方面,結果顯示對數能量尺度重刻正規化方法(LERN)的效果比其他的能量或對數能量上的正規化方法好。此外,另一組實驗則採用中文廣播新聞語料庫(Mandarin broadcast news corpus, MATBN)在大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)上的測試,並證明對數能量尺度重刻正規化方法(LERN)依然可以有效提升辨識率。Item 使用機器學習方法於語音文件檢索之研究(2009) 游斯涵本論文初步地討論機器學習之方法在資訊檢索上的應用,即所謂排序學習(Learning to Rank);並針對近年被使用在資訊檢索上的各種機器學習模型及概念,以及所使用的各種特徵,包含詞彙本身之特徵、相近度特徵、及機率特徵等進行分析與實驗。除此之外,本論文亦將之延伸至語音文件檢索的應用上。本論文初步地使用TDT(Topic Detection and Tracking)中文語料部份作為實驗題材,此語料為過去TREC(文件檢索暨評測會議)上公開評估語音文件檢索系統的標準語料(Benchmark)之一,此語料包含TDT-2及TDT-3兩套語料,提供了大量的新聞語料,及豐富的主題、轉寫等標註,以作為語音文件檢索相關研究使用。為了更有效地開發富含資訊的語音文件特徵,本論文亦使用臺師大大陸口音中文大詞彙連續語音辨識器(Large Vocabulary Speech Recognition, LVCSR)作為語音文件轉寫平台,產生的詞圖(Word Graph),作為擷取語音文件獨特特徵的主要依據。此外,我們並考慮到資訊檢索中之訓練語料不平衡問題,並提出解決此問題之對策。最後,初步的實驗結果顯示,成對式訓練方法RankNet之訓練模型檢索成效較逐點式訓練方法SVM之訓練模型檢索成效為佳。Item 使用邊際資訊於鑑別式聲學模型訓練(2010) 羅永典; Yueng-Tien Lo本論文旨在探究近年具代表性的鑑別式聲學模型訓練方法及其背後之一致性,並且延伸發展各種不同以邊際為基礎的資料選取方法來改善鑑別式聲學模型訓練,應用於中文大詞彙連續語音辨識。首先,為了進一步探討近年各種鑑別式訓練方法,我們整理歸納近年所發展鑑別式訓練方法之目標函數其背後一致性。其次,我們討論了各種不同邊際資訊應用於鑑別式訓練的方法,進而在大詞彙連續語音辨識中有效地降低語音辨識錯誤率。再者,我們結合了柔性邊際與增進式方法使得在資料選取的範圍上更為明確且具彈性,以提供更具鑑別資訊的統計量。在實作上,我們觀察了以語句為層次的選取資料為例,以進一步了解各式統計資訊對於鑑別式訓練成效之影響。最後,本論文以公視新聞語料做為實驗平台,實驗結果初步證實了本論文所提出之作法在某種程度上能夠改善過去方法所面臨的過度訓練之問題。Item 信心度評估於中文大詞彙連續語音辨識之研究(2006) 陳燦輝; Tzan-hwei Chen本論文初步地探討信心度評估(Confidence Measures)於中文大詞彙連續語音辨識上之研究。除了討論原本一般信心度評估應用於判斷語音辨識結果(例如候選詞)是否正確之外,也嘗試將信心度評估應用在詞圖搜尋(Word Graph Rescoring)或N-最佳詞序列(N-best List)重新排序(Reranking)的研究。而實驗語料則是使用公視新聞語料庫(MATBN)中的外場記者(Field Reporters)跟受訪者(Interviewees)語句,以分別探討信心度評估在偏朗讀語料(Read Speech)或偏即性口語(Spontaneous Speech)等兩種不同性質的語句上是否能有不同的效能。首先,本論文嘗試使用熵值(Entropy)資訊並結合以事後機率為基礎之信心度評估方法,在MATBN外場記者(Read Speech)及外場受訪者(Spontaneous Speech)測試語料所得到的最佳實驗結果,可較傳統僅使用以事後機率為基礎之信心度評估可以分別有16.37%及12.00%的信心度錯誤率相對減少(Relative Reduction)。另一方面,在以最小化音框錯誤率(Time Frame Error)搜尋法來增進詞圖搜尋的正確率之實驗中,本論文嘗試結合以梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC),以及以異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)搭配最大相似度線性轉換(Maximum Likelihood Linear Transformation, MLLT)兩種不同語音特徵參數所形成的詞圖資訊,並以最小化音框錯誤率搜尋法來降低語音辨識系統的字錯誤率,經由實驗顯示在外場記者測試語料能有4.6%的字錯誤率相對減少,而在外場受訪者測試語料的部份則有4.8%的字錯誤率相對減少,相較於僅使用異質性線性鑑別分析及最大相似度線性轉換求得語音特徵參數的詞圖並配合最小化音框錯誤率法有較佳的結果。最後,本論文嘗試在傳統以Levenshtein距離為成本函式(Cost Function)的最小化貝氏風險(Minimum Bayes Risk)辨識法則中,適當的加入以特徵為基礎的信心度評估。雖然經由實驗得知,在外場記者以及外場受訪者的語料中,對於辨識錯誤率並沒有很明顯的進步或退步,但相較於傳統利用Levenshtein距離為成本函式的最小化貝氏風險辨識法則而言,卻有較佳的結果。Item 利用主題與位置相關語言模型於中文連續語音辨識(2007) 邱炫盛; Hsuan-Sheng Chiu本論文探討語言模型於中文連續語音辨識。首先,詞主題混合模型(Word Topical Mixture Model, WTMM)被提出,用來探索詞與詞之間的關係,在語言模型調適中,此關係可當作是長距離的潛藏語意資訊。在語音辨識過程中,歷史詞序列可被建立成一個複合式詞主題混合模型,並用來預測新的辨識詞。此外,位置相關語言模型(Position-Dependent Language Model)亦被提出,使用詞在文件或語句的位置資訊輔助估測詞發生的可能性,並與N連詞模型及潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)模型所提供的資訊作整合。最後,針對摘錄式摘要,我們也發展一個機率式句排名架構,其中的語句事前機率透過能夠緊密整合語句資訊的整句最大熵值(Whole Sentence Maximum Entropy, WSME)模型估測。這些資訊從語句中擷取,並可作為語音文件中重要語句的選擇依據。本論文實驗於收集自台灣的中文廣播新聞。語音辨識結果顯示,詞主題混合模型與位置相關語言模型能夠提升大詞彙連續語音辨識系統的效果。此外,語音文件摘要結果也顯示,透過整句最大熵值法整合語句層次資訊能夠提升摘要正確率。Item 在3D虛擬環境中使用區段預取方法完成非中斷式的場景串流(2004) 蘇信維; Su Hsin Wei目前在一般的電腦遊戲中,尤其是萬人網路連線型態的電腦遊戲,通常將巨大的場景分割成許多不相連通的區段。這樣的做法有其實際上的現實因素。第一、場景的細節太多,無法一次全部載入到記憶體。這個問題在3D的環境裡更為嚴重。第二、這樣的作法可以使得同時間需要同步的線上玩家數量減低,達到自然的區隔,因而減少同步訊息的暴增,減少可能的網路延遲。 針對上述遊戲進行的現況,我們計畫發展一套系統,本系統的主要功能與規格由非同步式檔案輸入/輸出系統、區段預取機制、快取模組所組成。目標在提供玩家一個具有超大型的3D場景、但不延遲且流暢的遊戲經驗。在不減低遊戲流暢性的條件之下,隨著玩家所扮演的角色位置的移動,適時的載入所需的3D場景。 本系統的主要概念是把連續的3D場景(scene)切割成許多區段(sections),將這些區段作為基本的串流單位(streaming units)。每一個區段可能包含了許多靜態幾何資料(static geometry)、動態幾何資料(dynamic geometry)、貼圖(texture)、光線(lights)、物件的資訊、以及音效等等。當玩家所扮演的角色移動於場景時,區段將視需要不斷的被載入,讓玩家感覺整個超大型的場景早已經全部載入記憶體中。Item 基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識(2009) 李鴻欣; Hung-Shin Lee線性鑑別分析(linear discriminant analysis, LDA)的目標在於尋找一個線性轉換,能將原始資料投射到較低維度的特徵空間,同時又能保留類別間的幾何分離度(geometric separability)。然而,LDA並不能總是保證在分類過程中產生較高的分類正確率。其中一個可能的原因在於LDA的目標函式並非直接與分類錯誤率連接,因此它也就未必適合在某特定分類器控制下的分類規則,自動語音辨識(automatic speech recognition, ASR)就是一個很好的例子。在本篇論文中,我們藉著探索每一對容易混淆之音素類別間的經驗分類錯誤率(empirical classification error rate)與馬氏距離(Mahalanobis distance)的關係,擴展了傳統的LDA,並且將原來的類別間散佈矩陣(between-class scatter),從每一對類別間的歐式距離(Euclidean distance)估算,修改為它們的成對經驗分類正確率。這個新方法不僅保留了原本LDA就具有的輕省可解性,同時無須預設資料是為何種機率分佈。 另一方面,我們更進一步提出一種嶄新的線性鑑別式特徵擷取方法,稱之為普遍化相似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利用相似度比率檢驗(likelihood ratio test)的概念尋求一個較低維度的特徵空間。GLRDA不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩陣可被彈性地視為相異;並且在分類上,能藉由最小化類別間最混淆之情況(由虛無假設(null hypothesis)所描述)的發生機率,而求得有助於分類效果提升的較低維度特徵子空間。同時,我們也證明了LDA與異方差性線性鑑別分析(heteroscedastic linear discriminant analysis, HLDA)可被視為GLRDA的兩種特例。再者,為了增進語音特徵的強健性,GLRDA更可進一步地與辨識器所提供的經驗混淆資訊結合。 實驗結果顯示,在中文大詞彙連續語音辨識系統中,我們提出的方法都比LDA或其它現有的改進方法,如HLDA等,有較佳的表現。Item 實證探究多種鑑別式語言模型於語音辨識之研究(2011) 賴敏軒語言模型(Language Model)在自動語音辨識(Automatic Speech Recognition, ASR)系統中扮演相當重要的角色,藉由使用大量的訓練文字來估測其相對應的模型參數,以描述自然語言的規律性。N-連(N-gram)語言模型(特別是雙連詞(Bigram)與三連詞(Trigram))常被用來估測每一個詞出現在已知前N-1個歷史詞之後的條件機率。此外,N-連模型大多是以最大化相似度為訓練目標,對於降低語音辨識錯誤率常會有所侷限,並非能達到最小化辨識錯誤率。近年來為了解決此問題,鑑別式語言模型(Discriminative Language Model, DLM)陸續地被提出,目的為從可能的辨識語句中正確地區別最佳的語句作為辨識之結果,而不是去符合其訓練資料,此概念已經被提出並論證有一定程度的成果。本論文首先實證探討多種以提升語音辨識效能為目標的鑑別式語言模型。接著,我們提出基於邊際(Margin-based)鑑別式語言模型訓練方法,對於被錯誤辨識的語句根據其字錯誤率(Word Error Rate, WER)與參考詞序列(字錯誤率最低)字錯誤率之差為比重,給予不同程度的懲罰。相較於其它現有的鑑別式語言模型,我們所提出的方法使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時有相當程度的幫助。Item 應用時間結構資訊之分佈式語音特徵參數正規化技術於強健性語音辨識之研究(2013) 高予真; Yu-chen Kao近年來,在強健性語音辨識的領域中,統計圖等化法(histogram equalization, HEQ)由於其簡單又擁有優良效能的特性,已成為一個十分熱門的研究課題。在本論文中,我們提出兩種優化的統計圖等化法的技術:分別是利用多項式迴歸改進在調變頻譜(modulation spectrum)上統計圖等化法的效能,以及利用空間與時間的前後文資訊打破傳統作用在梅爾倒頻譜係數特徵的統計圖等化法之假設。這些方法有兩個主要的特色:其一是利用高次方的多項式進行語音特徵的正規化,並加入時間與空間(不同維度)上的前後文資訊,打破傳統統計圖等化法假設時間與空間分別獨立的狀況;其二是將時間上的差分資訊引入語音特徵的正規化中,此舉能更巧妙運用前後文資訊,並對語音辨識的效能有一定的提升。本論文使用Aurora-2語料庫來進行驗證不同強健性語音特徵擷取技術在小詞彙語音辨識任務之效能,並在Aurora-4語料庫來進一步驗證不同強健性語音特徵擷取技術在大詞彙語音辨識任務之效能;而這些試驗的結果證實了本論文所提出兩種優化的統計圖等化法的技術,可以有效降低語音辨識的詞錯誤率,並且對其它進階的特徵(如ETSI advanced front end, AFE)也能產生正面的效果。Item 探索虛擬關聯回饋技術和鄰近資訊於語音文件檢索與辨識之改進(2013) 陳憶文虛擬文件檢索(Pseudo-Relevance Feedback)為目前最常見的查詢重建(Query Reformulation)典範。它假設預檢索(Initial-round of Retrieval)排名前端的文件都是相關的,所以可全用於查詢擴展(Query Expansion)。然而,預檢索所獲得的文件中,極可能同時包含重複性資訊(Redundant)和非關聯(Non-relevant)資訊,使得重新建立的查詢不能有良好檢索效能。有鑑於此,本論文探討運用不同資訊以在預檢索獲得的語音文件中挑選適當的關聯文件來建立查詢表示,讓語音文件檢索結果可以更準確。另一方面,關聯模型(Relevance Model )雖然可藉由詞袋(Bag-of-words)假設來簡化模型推導和估測,卻可能因此過度簡化問題,特別是用於語音辨識的語言模型。為了調適關聯模型,本論文有兩個貢獻。其一,本論文提出詞鄰近資訊使用於關聯模型以改善詞袋(Bag-of-words)假設於語音辨識的不適。其二,本論文也進一步探討主題鄰近資訊以強化鄰近關聯模型的架構。實驗結果證明本論文所提出之方法,不論在語音文件檢索還是語音辨識方面皆可有效改善現有方法的效能。Item 改善鑑別式聲學模型訓練於中文連續語音辨識之研究(2007) 劉士弘; Shih-Hung Liu本論文探討改善鑑別式聲學模型於中文大詞彙連續語音辨識之研究。首先,本論文提出一個新的時間音框層次音素正確率函數來取代最小化音素錯誤訓練的原始音素正確率函數,此新的音素正確率函數在某種程度上能充分地懲罰刪除錯誤。其次,本論文提出一個新的以時間音框層次正規化熵值為基礎的資料選取方法來改進鑑別式訓練,其正規化熵值是由訓練語料所產生之詞圖中高斯分布之事後機率所求得。此資料選取方法可以讓鑑別式訓練更集中在那些離決定邊界較近的訓練樣本所收集的統計值,以達到較佳的鑑別力。此資料選取方法更進一步地應用到非監督鑑別式聲學模型訓練上。最後,本論文也嘗試修改鑑別式訓練的目標函數,以收集不同的統計值來改進最小化音素錯誤鑑別式訓練。所使用的實驗題材是公視新聞語料。由初步的實驗結果來看,結合時間音框層次的資料選取方法和新的音素正確率函數在前幾次的迭代訓練中確實有些微且一致的進步。Item 新穎語者自動分段標記技術之研究(2024) 李佩穎; Lee, Pei-Ying語者自動分段標記(Speaker Diarization)在廣播節目、會議、線上媒體等多個領域中具有豐富的應用潛力,並且可以與自動語音辨識(ASR)或語音情緒辨識(SER)結合,從對話內容中提取有意義的資訊。然而,自動語音辨識在語者數量超過兩人時,其錯誤率顯著提升,這種情況被稱為雞尾酒會問題。為了解決未知語者數量的問題以及提升整體性能,衍生出端到端編碼器-解碼器吸引子(EEND-EDA)模型,並有許多研究針對此問題進行了深入探討。儘管有些研究結合了語者自動分段標記與自動語音辨識(ASR)或大型語言模型(LLM)以增加實用性,但這些方法並未針對編碼器的隱藏狀態進行改進。因此,本研究著重於改進語音特徵訊號的處理,以提升模型效能。為此,我們首先將模型框架從Transformer更改為Branchformer,強化模型對語者辨識的效能。其次,為了引導注意力機制使其更專注於語音活動,我們增加了一個輔助損失函數(Auxiliary Loss Function)。最後,嘗試將Log-Mel特徵進行更改,以提升模型的泛化能力。我們探討了在固定語者數量和未知語者數量情況下,進行語者自動分段標記是否能幫助模型提升效能,並為模型提供了新的選擇。Item 最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究(2005) 郭人瑋; Jen-Wei Kuo近來,有不少文獻針對鑑別式聲學模型訓練加以研究改進,本論文則延伸最小化音素錯誤(Minimum Phone Error, MPE)聲學模型訓練及調適,並使之應用在中文大詞彙連續語音辨識上。本論文以公視新聞外場記者語料作為實驗平台,在實驗中,先對聲學模型進行最大化相似度(Maximum Likelihood, ML)聲學模型訓練,再來則比較最小化音素錯誤與最大化交互資訊(Maximum Mutual Information, MMI)兩種鑑別式訓練,最小化音素錯誤訓練相較於最大化相似度訓練能大幅降低15.52%的相對音節錯誤率、12.33%的相對字錯誤率及10.02%的相對詞錯誤率,明顯優於最大化交互資訊的訓練方式。此外,在非監督式聲學模型調適上,本論文探討了在聲學模型空間及特徵空間上透過轉換矩陣間接調適的調適技術。然而,因為缺少正確轉譯文句(Correct Transcripts)可供最小化音素錯誤估測原始正確率,故需以辨識所產生對應的轉譯文句來取代,使得非監督式最小化音素錯誤調適技術無法對聲學模型參數做良好的估測,導致辨識效能顯著地下降。為了改善此現象,本論文提出了「原始正確率預測模型」(Raw Accuracy Prediction Model, RAPM)用來改良非監督式最小化音素錯誤之調適,對辨識效能有少許的提升。Item 研究使用詞彙與語意資訊於(2005) 朱惠銘; Huei-Ming Chu語音文件切割是指在長時間的聲音訊號上自動地標定不同主題之間的邊界,因此可將語音文件分隔成具有主題凝聚力的段落。另外,語音文件組織是指對於已切割過的段落分析其應隸屬的主題,使這些段落群聚在主題群集中,並標示群集標記後以階層式視覺化呈現便於使用者瀏覽。兩者在近幾年都逐漸受到重視。 本論文首先探究如何將隱藏式馬可夫模型(HMM)此種已被廣泛應用在語音辨識及資訊檢索的模型延伸應用於語音文件切割。不僅使用了語音文件本身具有的詞彙資訊,如統計上的特徵及語言模型機率。另考量了聲學上的資訊,像是停頓分佈及辨識可信度,以辨別段落邊界。我們也融合了語音文件中具有的語意資訊於隱藏式馬可夫模型切割器中以更精確地模擬狀態的觀測分佈。此外,我們也研究了兩種非監督式且為資料導引式的組織方法於語音新聞文件分析上,分別為自我組織圖(SOM)以及機率式潛藏語意分析圖示(ProbMap)。我們提出了另一種觀察潛藏主題方式的主題混合模型圖示(TMMmap)以改進機率式潛藏語意分析圖示。透過一系列在主題偵測與追(TDT)中文語音文件集上的實驗,來分析這些方法的效能與其中的異同。最後,我們更進一步融合主題分佈資訊,也就是語音文件組織所得到的拓撲分佈資訊,於隱藏式馬可夫模型切割器中。初步發現有非常好的效果與進步空間。Item 英文連續語音辨識之初步研究(2007) 許庭瑋; TingWei Hsu本論文為英文連續語音辨識之初步研究。我們實作英文連續語音辨識器,並探討其主要組成,包含語音特徵擷取、聲學模型及語言模型等。首先,針對語音特徵擷取,我們比較傳統式梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)與線性鑑別分析(Linear Discriminant Analysis, LDA)和異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)之效能。再者,針對聲學模型,我們探討詞內三連音素模型(Intra-word Triphone Models)、狀態連結(State-Tying)技術、音素模糊矩陣(Phone Confusion Matrix)與非監督式聲學模型訓練(Unsupervised Acoustic Model Training)的使用,以提升語音辨識率。最後,針對語言模型,在語音辨識過程中分別利用詞頻數混合法(Count Merging)與模型插補法(Model Interpolation),結合背景與同領域語言模型訓練語料,以達到較佳之詞發生預測。本論文實驗是以美國之音與台灣腔英文語料為題材,並有一些初步的觀察及發現。Item 語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究(2005) 蔡文鴻; Wen-Hung Tsai在過去三十年間,統計式語言模型在各種與自然語言相關的應用上一直是一個重要的研究議題,它的功能是擷取自然語言中的各種資訊,諸如前後文資訊(contextual information)、語意資訊(semantic information)等,再利用這些資訊以機率量化來決定一個詞序列(word sequence)發生的可能性。例如,在語音辨識中,語言模型扮演的角色是要解決聲學混淆(acoustic confusion)的問題,將正確的辨識結果從有可能的候選詞序列中挑選出來。 近年來,語音辨識在我們生活中已有越來越多的應用,例如語音聽寫(voice dictation)、電話轉接(call routing)系統等等。但是語音辨識效能的好壞,通常會隨著辨識任務的詞彙或語意的不同,而受到嚴重的影響,於是誕生了語言模型調適的研究。語言模型調適是要利用辨識任務中固有的詞彙和語意資訊來彌補訓練語料與測試語料間的不一致性(mismatch)。 在本論文中,提出了原本應用在機率式資訊檢索上的主題混合模型法(topic mixture model, TMM)來動態的利用長距離的主題資訊,並且運用在語言模型調適上得到了不錯的效果。此外,本論文對最大熵值法(maximum entropy, ME)亦做了深入的研究,最大熵值法是一種將不同資訊來源(information sources)整合的方法,在此方法中,每一個資訊來源都會引發一群限制(constraints),限制合併後的語言模型要滿足所有的資訊。然而,這些限制的交集(intersection),是滿足所有資訊的機率分佈的集合,在這個集合中,擁有最大熵值(highest entropy)的機率分佈即為此方法的解。初步的實驗結果顯示以最大熵值法來合併一連詞、二連詞與三連詞所得到的語言模型,比用傳統最大相似度估測法(maximum likelihood)所訓練的語言模型,在中文廣播新聞轉寫上的字錯誤率(character error rate, CER)與語言模型複雜度(perplexity)都達到較好的效果。Item 語音文件摘要 - 特徵、模型與應用(2011) 林士翔; Shih-Hsiang Lin語音文件摘要容易受語音辨識錯誤的影響,進而導致在使用傳統文字文件 摘要方法時並無法正確地摘要出語音文件中重要文句。相對於文字文件,語音文 件在從事語音摘要時卻額外地提供了許多的資訊:諸如聲韻特徵(Prosodic Features)、聲學特徵(Acoustic Features)、語者(Speaker Roles)或情感(Emotion)資訊等,都是從事語音文件摘要時可以善加利用的額外語句特徵。本論文以特徵(Features)、模型(Models)與應用(Applications)等三個不同構面進行語音文件摘要之研究。在特徵層面,我們探討如何使用不同的詞圖結構表示語音辨識候選詞序列(Recognition Hypotheses),進而解決傳統因為只利用單一最佳辨識詞序列(1-Best)所造成的辨識錯誤影響。在模型方面,我們基於Kullback-Leibler (KL) 散度測量(Divergence Measure)方法提出了一個非監督式(Unsupervised)的摘要模型,此摘要模型允許利用文字以外的資訊線索增進散度測量正確性,進而減緩因為語音辨識錯誤所造成的問題。同時,針對監督式(Supervised)的摘要模型,我們提出了三種不同的訓練準則進行摘要模型訓練,以解決訓練資料不平衡(Imbalanced Data)所導致的負面影響。架構在此二類不同的摘要模型之上,我們進而提出了一個風險感知(Risk-Aware)的摘要架構,此架構透過監督式與非監督式摘要模型的結合,不僅能保有其各自的優點更進而克服各自方法的侷限。我們亦導入了不同的減損函式(Loss Function),以便考量語句-語句或者是文章-語句間的冗餘性與連貫性關係。對於應用層面,我們探討如何將摘要技術整合至資訊檢索技術上。本論文所提出之方法均實驗在廣播新聞語料,實驗結果亦證明本論文所提出之方法可大幅地改善現有摘要方法的效能。