文學院

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/2

院成立於民國44年,歷經50餘年的銳意發展,目前設有國文、英文、歷史、地理、臺文等5個學系、翻譯和臺灣史2個獨立所,以及全球華人寫作中心和國際臺灣學研究中心。除臺史所僅設碩士班,其餘6個系所均設有碩、博士班;目前專兼任教師近250人,學生約2500餘人。

本院早期以培養優秀中學國文、英文、歷史和地理教師為鵠的,臺灣中學語文和史地教育的實踐與成功,本院提供不可磨滅的貢獻。近年來,本院隨師範體系轉型而調整發展方向,除維持中學師資培育的優勢外,也積極朝理論研究和實務操作等面向前進。目前,本院各系所師培生的教師檢定通過率平均在95%以上;非師培生在文化、傳播、文學、應用史學及環境災害、地理資訊系統等領域發展,也已卓然有成。

本院各系所教師的研究能量極為豐富,參與國內外學術活動相當活躍。根據論文數量、引用次數等指標所作的學術力評比,本院居人文領域全國第2名。各系所之間,無論是教師的教學與研究,或學生的生活與學習,都能相輔相成、榮辱與共,彼此渾然一體,足堪「為師、為範」而無愧。

Browse

Search Results

Now showing 1 - 1 of 1
  • Item
    中文文本作者辨識研究: 以社群網站--臉書為例
    (2013) 陳美瑜; Mei-Yu Chen
    個人寫作風格差異(風格學)一直是熱門研究主題。從語言學角度觀察,研究人員嘗試各種量化方法及建立各種指數希望能將「個人差異」量化 (Tweedie& Baayen, 1998; Mosteller & Wallace, 1964; Burrows, 2002, 2003, 2007; Hoover, 2004)。而從資訊科學領域來看,現今社會對「語言鑑識」或「文件作者分類」有漸增的需求,因為在數位化的時代,人們需要這項技術來幫助偵測漸增的網路匿名犯罪,或是幫助數位化文件作者分類。 此篇論文首先介紹兩種學科對於個人寫作風格差異的研究方法,並且進行兩項實驗。實驗採用現今流行的社群網站Facebook 上的個人語料來探索中文的字(characters)與詞(words)能對個人寫作差異提供多少解釋力,並且探勘其他的文件風格,諸如:結構、主觀化、情緒特徵等,能對社群短語的作者判斷提供多少幫助。並且此研究坦討於常見的特徵權重 (tf-idf、詞頻、比例分布)計算中,何種權值能提供較佳的準確值。本實驗採用新式向量機套件— LibLinear 做為作者分類器,此分類器套件特殊的設計使其更適應於高維度的特徵訓練,例如「文件分類」這種需包含為數眾多的詞作為特徵值的任務。且不同於一般的分類器,Liblinear 能提供每項特徵對應不同分類別的的貢獻分數,因而能幫助研究者檢視何種特徵最能代表該作者類別。 從實驗一的結果得知,tf-idf 特徵權的表現略比比例分布佳,但並未比詞頻的表現好。這個結果顯示在此類社群短語中,不論是在單則文章中或是整個實驗語料庫中,關鍵詞鮮少重複出現。 原因有可能來自於在社群網站當張,短語的特性使其所能包含的文字較少,以及人們在此種社交平台上傾向不斷更換主題的特性。 因此tf-idf 這種降低功能詞權重並提高文章關鍵詞權重的計算方式,沒能在此類短語文章屬性中見其專長,反而簡單的詞頻計算方式表現更佳。並且,這種結果或許反映了在功能詞與內容詞兩種特徵的比較上,tf-idf預設功能詞特徵對於作者辨識不重要的假設或許並不適當。 實驗二展示中文不同階層的詞彙 (例如:字、詞、二字詞、字與詞混合)能提供的作者辨識度。另一個常見於中文作者辨識的議題是關於中文的斷詞問題。不同於字母系統的語言,中文在語言表層結構上並不存在字元間隔以區分單詞。因此先前許多針對中文作者辨識的研究選擇使用不分詞的方法進行分類辨識。本文中的第二項實驗以 CKIP 進行中文分詞,並且同時採用不分詞與分詞後的結果作為特徵值,以探索中文中不同字詞單元分別能提供的作者分類鑑識力(包括以字為本及以詞為本的一字詞單位、以詞為本的二字詞單位,以及混合字與詞)。結果顯示以詞為本的特徵值分類表現優於以字為本的特徵值。同時在第二個實驗中加入了字詞以外的特徵集(包含結構特徵、主觀化特徵、情緒特徵)。結果顯示主觀化特徵與情緒特徵在社群語料文類中的重要性。