資訊工程學系

Now showing 1 - 2 of 2

生物資訊文獻中人類遺傳疾病與基因關聯度之研究
(2011) 陳立哲; Li-Che Chen
本論文之研究，是在探討文獻中人類遺傳疾病與基因的關聯度，希望從中得到一些人類遺傳疾病與基因這兩者之間的關係，其目的在於希望在往後的生物資訊文獻上，可以快速的得知文獻上出現的人類遺傳疾病是否與文獻上出現的基因相關聯。本論文所使用的相關資料包含了醫學文獻資料庫(Medical Literature Analysis and Retrieval System Online, Medline)，從中擷取出所需要使用的資訊，包括PMID、TI以及AB，其中PMID為該篇的ID number，TI為標題，而AB即為內文。接著，利用Geniatagger來標記AB上出現的基因。再來，利用線上人類孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM)的網站，下載人類遺傳疾病與相關基因的資料，再利用這兩者去標記AB上出現的疾病與基因。針對此研究，提出了兩類運算的方法，其中第二類方法會再加以變化，衍生出新的運算方法。第一類的方法分為五種，第一種方法是運用密度的計算公式，第二種是運用重力公式，此公式有四種變化。第二類的方法就是自然語言常用的Dice，在此，以此公式為基本架構，再加以調整延伸公式，和一般的比例公式以及一般比例公式延伸變化。 II 最後求出的結果，前兩者的準確率最高是在一成左右，屬於偏低的準確率，其原因是，他們只有運用到位置與TFIDFT(Term Frequency Inverse Document Frequency(Term))的變數去計算他們的值，忽略了一些疾病與基因的特性，所以分數才會如此的不顯著。再來，運用以Dice為主要架構的變化公式，這方法考慮到Gene Ontology，對此實驗來說，考慮的要素正好符合實驗的精神，所以計算出的分數，才會越高而越接近實驗的正確配對，當過一個門檻值之後，準確率就會達到100%。
Utilizing BLAST to Extract Citation Metadata from Online Publication Lists
(2003) 黃誼安
科學家相互引用文獻和研究結果，是科學得以迅速發展的重要因素。因此，書目表單(citation list)或文獻目錄(bibliography)無疑是學者的重要工具。一般常見的書目(citation)資料，通常記載著作者(author)、標題(title)、出版資訊(publication information)等訊息。出版資訊隨著出版形式不同(例如書本、期刊、研討會論文集、叢書、研究報告、技術報告等)，而有種種變化，其內容則包括期刊或研討會名稱、冊別、編號、頁數、出版年月、出版商、出版地點等。這些扼要描述文獻背景訊息的後設資料(metadata)，通常有結構化(structured)和半結構化(semi-structured)等兩種呈現形式。結構化的書目，可以資料庫或欄位式的表單作為代表；半結構化的文獻目錄，則以連續字串的形式呈現，其形式比較自由。因此，不同的學者在描述同一筆文獻的時候，可能會寫出兩筆外觀看來很不一致的書目資料。不止後設資料屬性的前後次序會有變化，連使用到的屬性也可能有所不同。然而出現在網路上的文獻目錄，絕大多數卻都屬於半結構化的形式。若要加值運用，就得先將半結構化的文獻目錄，剖析和轉換成為一致的結構化形式，並分析彼此參照的關係和建立索引，以提供文獻搜尋和引用統計等資訊服務。本論文擬探討如何將半結構化文獻目錄，轉換成為一致的結構化資料。這是書目資料處理的核心問題。由於書目資料型態眾多，想要自動將半結構化的書目轉換成結構化的資料實為不易。為了辨識書目後設資料，我們的基本構想是運用基因比對技術來解決這個書目資料辨識的問題。也就是將半結構化書目轉成蛋白質序列(protein sequence)。將已知的書目資料的樣板，則轉換成蛋白質序列，儲存於樣板資料庫中(template database)。當必須解析新的半結構化的書目時，則可將新的書目轉換成蛋白質序列。再以BLAST這項序列比對工具，從事先建立好的樣板資料庫中，找出與該蛋白質序列最相近的樣板。最後根據此樣板作後設資料的解析。這樣的處理方式讓系統更有彈性，不僅可以輕易加入新的書目樣板，也可以快速找到最相近的樣板作為解析後設資料的依據。解析結果的準確率會因樣本資料庫的完整度而有所不同，也會因為計分表的設計而有所偏差，更會因測試資料的型態不同(例如含中文姓氏的著作表列與不含中文姓氏的著作表列)而形成不一樣的結果。本論文在這些議題上作了一些測試，在最理想的狀況下本系統可以達到91.2%的準確率，而OpCit的系統準確率在理想狀況下卻僅能達到75%。相反的在樣板資料庫完整度低的情況下(樣板完整度百分之五十)，而且使用不利的測試資料，本系統的準確率降到38.2%，而OpCit系統為6%。

資訊工程學系

News

Browse

Filters

Settings

Sort By

Results per page

Search Results