Browsing by Author "劉宇錚"
Now showing 1 - 1 of 1
- Results Per Page
- Sort Options
Item 利用相鄰句子資訊探討人類疾病與基因之關係(2013) 劉宇錚; Yu-Jeng Liu本研究嘗試在生醫文獻中找出人類遺傳疾病與基因的關聯度,並在人類遺傳疾病及基因之間得到一些規則或關聯性。若能自動從文獻中預測疾病與基因能達到某種程度的相關性,對於以後生醫研究人員在探討人類遺傳疾病與基因等等的文獻資料時,相信都可以利用此關聯性或規則快速了解兩者之間的關係,達到快速閱讀的目的,在節省人力成本及時間之餘,更希望透過此研究能加速生物醫學的發展速度。 本研究使用的資料為孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM)網站中提供的morbid所中包含的Mendelian Inheritance in Man (MIM)文獻。在本研究中,首先在文獻中找出含有morbid所提及的人類遺傳疾病與基因共存的句子,視為正確的句子;以及不包含morbid所提及的疾病與基因的句子,視為不正確的句子。透過Memory-Based Shallow Parser (MBSP)來分析這些段落中的句子,將會得到句子文法相關的資訊(例如詞性),接著將MBSP標記好的句子利用自製的學習系統學習規則,在學習前需要準備三個檔案,第一個檔案需要寫入規則的模式、句子的詳細資訊與規則所需的元素,本實驗所需的元素為SVO-relation,表示主詞-動詞-受詞之間的關係;第二個檔案是在學習規則時用到的正確句子的編號;第三個檔案是在學習規則時用到的不正確的句子。利用這些資料訓練出的規則,再加入本論文所提出的多重句子探勘演算法,以便擴展原有規則的結果而得到新的關係。最後,對於實驗結果產生出來的人類遺傳疾病與基因,本研究以準確度和回收率當作評估的標準,並記錄各個門檻值的結果。實驗在多重句子探勘得到最好的F-score為72.18%,此時的準確度為72.66%,回收率為71.71%;而未使用多重句子探勘得到最好的F-score為67.32%,此時的準確度為76.29%,回收率為60.24%。