學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73912

Browse

Search Results

Now showing 1 - 3 of 3
  • Item
    會議語音辨識之上下文語言模型 Reranking 研究
    (2023) 王泓壬; Wang, Hung-Ren
    ASR N-Best Reranking是自動語音識別(ASR)系統中用於提高轉錄輸出準確性的一種技術。在ASR系統中,系統為輸入音頻片段生成多個後選假設,稱為N-Best列表。而BERT (Bidirectional Encoder Representations from Transformers)是一種先進的語言模型,在文本分類、命名實體識別和問題解答等各種自然語言處理(NLP)任務中表現出卓越的性能。由於BERT能夠捕捉上下文信息並生成高品質的輸入文本表示,因此被用於ASR N-Best Reranking。為了更進一步增強BERT模型的預測,我們探索了增強語意信息與訓練目標,大致分為四部分: (1)將文本文法優劣信息融入到模型中的有效方法;(2)間接將整個N-Best列表信息融入到模型中的有效方法;(3)探討分類、排序及多任務訓練目標於模型訓練的可行性;(4)強化模型提取的文本信息。大型生成式語言模型(LLMs)已經證明了其在各種語言相關任務中的卓越泛化能力。本研究我們評估利用LLMs如ChatGPT於ASR N-Best Reranking任務的可行性。我們在AMI會議語料庫進行一系列的實驗,實驗結果顯示在降低單詞錯誤率(WER %),提出的方法有其有效性,與基本ASR系統比較最多可達到1.37%的絕對WER (%)下降。
  • Item
    探索基於生成對抗網路之新穎強健性技術
於語音辨識的應用
    (2019) 楊明璋; Yang, Ming-Jhang
    近年深度學習技術在許多領域有重大突破,在各種實際應用中也大放異彩,於自動語音辨識的應用中也一樣有優秀表現。雖然主流語音辨識系統在某些指標性任務上已經可達到和人類聽覺相當的辨識效果,然而它們卻不像人類一樣對於環境干擾具有強健性,也就是說儘管語音辨識系統有了大幅度的改進,「噪聲」仍舊一定程度的干擾語音辨識之準確度。諸如:背景人聲,火車,公車站牌,汽車噪音,餐館背景雜音…以上皆為常見的環境噪聲干擾。所以強健性技術的研究在當今語音辨識系統發展中扮演著重要角色。有鑑於此,本論文著手研究在語音特徵向量序列之調變頻譜上基於生成對抗網路之有效的增益方法。並在Aurora4語料庫上進行一系列實驗顯示本研究使用的方法可以增進語音辨識的效果。
  • Item
    運用鄰近與概念資訊於語言模型調適之研究
    (2014) 郝柏翰
    本論文研究語言模型調適技術用於中文大詞彙連續語音辨識,其主要貢獻有兩個部分:第一部分探討主題模型(Topic Models)之延伸與改進,除了希望能放寬詞袋假設的限制之外,更藉由融入鄰近資訊(Proximity Information)期望使主題模型有更好的預測效能;第二部分提出概念模型(Concept Language Model, CLM),其主要目的為近似使用者心中所想之概念,並藉此觀察較為相關之用詞;同時,本論文更嘗試以不同方式來估測概念模型。本論文實驗以字錯誤率(Character Error Rate, CER)與語言複雜度(Perplexity)為評估依據;結果顯示本論文所提出方法對辨識效能之提升有明顯的幫助。