學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73895
Browse
1 results
Search Results
Item 中文文本作者辨識研究: 以社群網站--臉書為例(2013) 陳美瑜; Mei-Yu Chen個人寫作風格差異(風格學)一直是熱門研究主題。從語言學角度觀察,研究人員嘗試各種量化方法及建立各種指數希望能將「個人差異」量化 (Tweedie& Baayen, 1998; Mosteller & Wallace, 1964; Burrows, 2002, 2003, 2007; Hoover, 2004)。而從資訊科學領域來看,現今社會對「語言鑑識」或「文件作者分類」有漸增的需求,因為在數位化的時代,人們需要這項技術來幫助偵測漸增的網路匿名犯罪,或是幫助數位化文件作者分類。 此篇論文首先介紹兩種學科對於個人寫作風格差異的研究方法,並且進行兩項實驗。實驗採用現今流行的社群網站Facebook 上的個人語料來探索中文的字(characters)與詞(words)能對個人寫作差異提供多少解釋力,並且探勘其他的文件風格,諸如:結構、主觀化、情緒特徵等,能對社群短語的作者判斷提供多少幫助。並且此研究坦討於常見的特徵權重 (tf-idf、詞頻、比例分布)計算中,何種權值能提供較佳的準確值。本實驗採用新式向量機套件— LibLinear 做為作者分類器,此分類器套件特殊的設計使其更適應於高維度的特徵訓練,例如「文件分類」這種需包含為數眾多的詞作為特徵值的任務。且不同於一般的分類器,Liblinear 能提供每項特徵對應不同分類別的的貢獻分數,因而能幫助研究者檢視何種特徵最能代表該作者類別。 從實驗一的結果得知,tf-idf 特徵權的表現略比比例分布佳,但並未比詞頻的表現好。這個結果顯示在此類社群短語中,不論是在單則文章中或是整個實驗語料庫中,關鍵詞鮮少重複出現。 原因有可能來自於在社群網站當張,短語的特性使其所能包含的文字較少,以及人們在此種社交平台上傾向不斷更換主題的特性。 因此tf-idf 這種降低功能詞權重並提高文章關鍵詞權重的計算方式,沒能在此類短語文章屬性中見其專長,反而簡單的詞頻計算方式表現更佳。並且,這種結果或許反映了在功能詞與內容詞兩種特徵的比較上,tf-idf預設功能詞特徵對於作者辨識不重要的假設或許並不適當。 實驗二展示中文不同階層的詞彙 (例如:字、詞、二字詞、字與詞混合)能提供的作者辨識度。另一個常見於中文作者辨識的議題是關於中文的斷詞問題。不同於字母系統的語言,中文在語言表層結構上並不存在字元間隔以區分單詞。因此先前許多針對中文作者辨識的研究選擇使用不分詞的方法進行分類辨識。本文中的第二項實驗以 CKIP 進行中文分詞,並且同時採用不分詞與分詞後的結果作為特徵值,以探索中文中不同字詞單元分別能提供的作者分類鑑識力(包括以字為本及以詞為本的一字詞單位、以詞為本的二字詞單位,以及混合字與詞)。結果顯示以詞為本的特徵值分類表現優於以字為本的特徵值。同時在第二個實驗中加入了字詞以外的特徵集(包含結構特徵、主觀化特徵、情緒特徵)。結果顯示主觀化特徵與情緒特徵在社群語料文類中的重要性。