近似探勘資料流常見資料代表樣式之研究

Abstract

探勘資料流中常見資料項集技術是近來重要的研究方向,在實際應用中,大部份的使用者對最近的資訊較有興趣,而採用滑動視窗定義資料範圍,可有效探勘出資料流中最近常見資料項集。因此本論文提出一個稱為一般化出現頻率改變點(NFCP)演算法,不需記錄滑動視窗中所有交易內容,以類似FP¬-tree的結構儲存資料項集出現時間的摘要資訊,即可有效的更新資料項集過時資訊並從中探勘出最近常見資料項集。此外,在探勘常見資料項集時,隨著最小支持度門檻值設定變小,探勘結果通常會隨著呈指數成長,為了有效減少探勘出重複資訊,本論文結合探勘代表樣式的方法,能從儲存結構中快速地近似找出資料流最近常見代表樣式,以進一步精簡探勘結果。由實做NFCP演算法之實驗結果顯示,以維護資料項集出現頻率改變點之摘要資訊,可有效近似探勘出目前交易視窗中的最近常見代表樣式,且保證不會有資料樣式的漏失。此外,NFCP所需的維護時間極少,因此若資料流中並非在每個時間點都需進行探勘,但亦隨時有可能要求進行探勘,則NFCP可以很有效率的維護方式,達到隨時可進行探勘最近常見資料項集的效果,可節省更多的處理成本。

Description

Keywords

一般化出現頻率改變點法, 近似探勘

Citation

Collections