資訊工程學系
Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60
本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。
News
Browse
4 results
Search Results
Item 結合圖與上下文語言模型技術於常見問答檢索之研究(2021) 曾琬婷; Tseng, Wan-Ting近年來,深度學習技術有突破性的發展,並在很多自然語言處理的相關應用領域上也有相當亮眼的效能表現。而且大量資訊快速得傳播,如何更有效地取資訊仍是一項重要的課題,其中FAQ (Frequently Asked Question)檢索任務也成為重要的技術之一。FAQ檢索無論在電子商務服務或是線上論壇等許多領域都有廣泛的應用;其目的在於依照使用者的查詢(問題)來提供相對應最適合的答案。至今,已有出數種FAQ檢索的策略被提出,像是透過比較使用者查詢和標準問句的相似度、使用者查詢與標準問句對應的答案之間相關性,或是將使用者查詢做分類。因此,也有許多新穎的基於上下文的深層類神經網路語言模型被用於以實現上述策略;例如,BERT(Bidirectional Encoder Representations from Transformers),以及它的延伸像是K-BERT或是Sentence-BERT等。儘管BERT以及它的延伸在FAQ檢索任務上已獲得不錯的效果,但是對於需要一般領域知識的FAQ任務仍有改進空間。因此,本論文中總共分成五大階段做研究。首先探討三種不同FAQ檢索策略同時比較不同策略和方法的結合在FAQ檢索任務之表現。第二,討論如何透過使用知識圖譜等的額外資訊來強化BERT在FAQ檢索任務上之效能,並提出利用非監督式的知識圖譜注入增進模型。第三,透過監督式方法和非監督式方法結合來改進FAQ檢索多種答案型態造成模型效果不佳之情形。第四,透過投票機制(voting mechanism)做重新排序再次改良模型效果。最後,我們透過圖卷積神經網路(Graph Convolutional Network, GCN)結合上下文語言模型(BERT)的方式使得模型可以透過建立異質圖(Heterogeneous graph)考慮到查詢(問題)之間的關聯性。我們在中文臺北市政府問答語料(TaipeiQA)進行一連串的實驗同時針對資料擴增(Data augmentation)的方法做研究探討。由實驗結果顯示,我們所提出的方法可以使得一般的FAQ檢索應用有某些程度上效果的提升。Item 專有詞彙之定義式問題答案句自動擷取系統(2010) 卓晉緯; Chin-Wei Cho本論文針對專有詞彙之定義式問題,建立一套以電子書為答案來源之定義式 答案句自動擷取系統雛形。本論文運用資訊檢索的概念由電子書內容中選取候選句子,並提出以維基百科等外部知識來源衡量句中所包含的字詞與查詢專有詞彙關鍵字的關聯權重值,作為系統挑選答案句之評分依據。本論文方法能夠讓答案不受限於特定定義式句型,而找出更多能夠幫助了解該專有詞彙之相關定義解釋說明的內容作為答案。並採用句子間字詞的語意關聯度,綜合評估計算答案句間的相似程度值,以不同聚落分析演算法對答案句進行自動分群處理,使答案句能依所涵蓋概念類似性分群整理呈現給使用者。由實驗結果顯示,本論文研究方法所擷取之答案句及排序順序,與專家人工評分挑選的標準答案結果一致性很高。Item 多個專有詞彙概念解釋句語意關連自動分析組織之研究(2010) 戴衣菱; Yi-Ling Tai本論文研究以電子書作為內容來源,針對兩個特定領域專有詞彙的概念解釋句,進行自動擷取以及分群組織整理。為了克服傳統上使用字詞頻率建構特徵向量卻忽略隱含語意關係的缺點,本論文提出計算句子中出現的所有字詞對選取的特徵字詞之語意相似關係,來對句子建立MI特徵向量,進行句子分群。從分群的結果中選定可以代表分群概念的標籤,使用標籤來重新組織概念架構,並且在分群中挑出可以代表兩個專有詞彙的比較句。Item 使用機器學習方法於語音文件檢索之研究(2009) 游斯涵本論文初步地討論機器學習之方法在資訊檢索上的應用,即所謂排序學習(Learning to Rank);並針對近年被使用在資訊檢索上的各種機器學習模型及概念,以及所使用的各種特徵,包含詞彙本身之特徵、相近度特徵、及機率特徵等進行分析與實驗。除此之外,本論文亦將之延伸至語音文件檢索的應用上。本論文初步地使用TDT(Topic Detection and Tracking)中文語料部份作為實驗題材,此語料為過去TREC(文件檢索暨評測會議)上公開評估語音文件檢索系統的標準語料(Benchmark)之一,此語料包含TDT-2及TDT-3兩套語料,提供了大量的新聞語料,及豐富的主題、轉寫等標註,以作為語音文件檢索相關研究使用。為了更有效地開發富含資訊的語音文件特徵,本論文亦使用臺師大大陸口音中文大詞彙連續語音辨識器(Large Vocabulary Speech Recognition, LVCSR)作為語音文件轉寫平台,產生的詞圖(Word Graph),作為擷取語音文件獨特特徵的主要依據。此外,我們並考慮到資訊檢索中之訓練語料不平衡問題,並提出解決此問題之對策。最後,初步的實驗結果顯示,成對式訓練方法RankNet之訓練模型檢索成效較逐點式訓練方法SVM之訓練模型檢索成效為佳。