利用詞性與詞權重分析中文意見之研究
Abstract
在資訊爆炸的時代中,我們可以很容易搜尋到大眾的想法與心得,如何快速擷取這些寶貴的資訊,變成了一個重要的課題。目前關於這方面的研究已經慢慢興起,也有許多大型會議提供進行評比的競賽主題,我們希望提出意見的模型,使得進行意見存在與否方面的研究能有所助益。
本篇研究根據主題中的查詢字串找出包含意見的文件,在探討詞的各種權重方面,我們首先對每份文件進行斷詞,並根據查詢主題計算詞的PMI值,然後我們以文件內主題相關詞彙的PMI跟BM25屬性得到關於主題相關度的分數。也根據文件內意見相關詞彙權重與距離權重結合主題相關分數得到意見相關分數;在探討詞性方面,我們在流程中加入主題相關詞彙需經過名詞過濾,意見相關詞彙除了原本的詞典外,也加入了高PMI且詞性為不及物動詞的的詞來擴充。
Description
Keywords
自然語言處理, 意見判別, 資訊檢索, NLP, Information Retrival, opinion