資訊工程學系

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60

本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。

News

Browse

Search Results

Now showing 1 - 2 of 2
  • Item
    使用鑑別式語言模型於語音辨識結果重新排序
    (2009) 劉鳳萍
    語言模型代表語言的規律性,在語音辨識中,它可用以減輕聲學特徵混淆所造成的問題,引導辨識器在多個候選字串中作搜尋,並量化辨識器產生的最終辨識結果字串的可接受度高低。然而,隨著時空及領域的不同,語言產生差異,固定不變的語言模型無法符合實際需求。語言模型調適提供了一個解決之道,使用少量同時期或同領域的調適語料對語言模型進行調整,以增進效能。鑑別式語言模型為語言模型調適方法之一,它首先取得一些特徵(Feature),每一個特徵各有其對應之權重(Feature Weight),以代表語言中的句子或字串,並以這些特徵及其相關權重為基礎,構建出一套評分機制,用以對基礎辨識器(Baseline Recognizer)所產生的多個辨識結果進行重新排序(Reranking),以期最正確的詞序列可以成為最終辨識結果。本文提出以關鍵詞自動擷取方法所得結果,增加鑑別式語言模型之特徵。關鍵詞自動擷取方法是透過計算字或詞在語料庫中同時重複出現的次數以擷取出關鍵詞,其優點為可以在不依賴詞典(Lexicon)的情況下,擷取出新生詞彙或不存在詞典裡的語彙,這樣的特性也許會對鑑別式訓練有所助益,但實驗結果顯示未有顯著之改善效果。
  • Item
    語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究
    (2005) 蔡文鴻; Wen-Hung Tsai
    在過去三十年間,統計式語言模型在各種與自然語言相關的應用上一直是一個重要的研究議題,它的功能是擷取自然語言中的各種資訊,諸如前後文資訊(contextual information)、語意資訊(semantic information)等,再利用這些資訊以機率量化來決定一個詞序列(word sequence)發生的可能性。例如,在語音辨識中,語言模型扮演的角色是要解決聲學混淆(acoustic confusion)的問題,將正確的辨識結果從有可能的候選詞序列中挑選出來。 近年來,語音辨識在我們生活中已有越來越多的應用,例如語音聽寫(voice dictation)、電話轉接(call routing)系統等等。但是語音辨識效能的好壞,通常會隨著辨識任務的詞彙或語意的不同,而受到嚴重的影響,於是誕生了語言模型調適的研究。語言模型調適是要利用辨識任務中固有的詞彙和語意資訊來彌補訓練語料與測試語料間的不一致性(mismatch)。 在本論文中,提出了原本應用在機率式資訊檢索上的主題混合模型法(topic mixture model, TMM)來動態的利用長距離的主題資訊,並且運用在語言模型調適上得到了不錯的效果。此外,本論文對最大熵值法(maximum entropy, ME)亦做了深入的研究,最大熵值法是一種將不同資訊來源(information sources)整合的方法,在此方法中,每一個資訊來源都會引發一群限制(constraints),限制合併後的語言模型要滿足所有的資訊。然而,這些限制的交集(intersection),是滿足所有資訊的機率分佈的集合,在這個集合中,擁有最大熵值(highest entropy)的機率分佈即為此方法的解。初步的實驗結果顯示以最大熵值法來合併一連詞、二連詞與三連詞所得到的語言模型,比用傳統最大相似度估測法(maximum likelihood)所訓練的語言模型,在中文廣播新聞轉寫上的字錯誤率(character error rate, CER)與語言模型複雜度(perplexity)都達到較好的效果。