學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73901
Browse
Item Adjustment Methods for Support Vector Machines with Imbalanced Data(2024) 蔡明碩; TSAI, Ming-Shuo在各種的資料集中,資料不平衡是機器學習領域中常見的現象,可以明顯影響模型訓練的結果。在各種提出的眾多解決方案中,最常使用的方法是合成少數資料的過採樣技術(Synthesized Minority Oversampling Technique, SMOTE),它在解決資料不平衡的同時實現了高度準確的分類。在這篇研究中,我們通過設置不同的參數來生成隨機資料,從而平衡資料比例,探討支持向量機(Support Vector Machines, SVM)在分類不平衡資料時的結果,此方法與過採樣技術都是用生成資料,達到資料比例趨於平衡,以實驗結果來說,兩者達到相似的效果。此外我們利用二分搜索算法來改善原始SVM提供的結果,提高少數類的分類效果,二元搜尋法的SVM可以在不需要生成資料的情況下,得到更好得分類結果。最後,我們將結果與過採樣技術方法進行比較。實驗結果顯示,二元搜尋法的SVM可以使少數族群得到更好的分群效果,同時平衡資料比例的隨機資料生成方法,也可以在資料比例相近時提高分類結果。Item Fuzzy C-Adaptive Shells Clustering by the Non-linear Regression Method(2022) 蔡宗穎; Cai, Zong-Ying在聚類的問題中圖形的邊緣識別是我們感興趣的議題,我們回顧了以往的文獻並注意到模糊c殼(Fuzzy C-Shells/FCS)聚類可以用於該領域,FCS是模糊c均值(Fuzzy C-means/FCM)的一種變體,與FCM不同的是FCS考慮的是資料與殼的距離而不是簇中心,這樣的改變可以使得FCS有邊緣辨識的能力,而FCS依據一開始所選的不同形狀的殼而有許多衍生的演算法,但這些演算法都是基於一開始給定的殼形進行聚類,這使得在實際運用上有它的侷限性。因此,我們提出了一種即使在不給定殼形的情況下也能運行的殼聚類演算法,我們通過調整半徑參數來構建FCS中目標函數與非線性回歸(Non-linear Regression)之間的關係,這種方式令我們可以在迭代過程中逐漸確定殼的形狀,這樣的方法比其他殼形聚類演算法更加靈活,且不需要隨著一開始給定的殼形而改變演算法,最後我們用模擬和實際數據證明了該方法的有效性。Item Fuzzy Weighted Support Vector Regression Using the Dual Coordinate Descent Method(2020) 簡子嘉; Chien, Tzu-Jia支持向量機(Support Vector Machine/SVM)是一種監督學習方法,通常用於分類問題。此外,SVM也被用於迴歸問題中,稱為支持向量迴歸(Support Vector Regression/SVR)。通過調整懲罰參數和可容忍的誤差界限,SVR比多數線性迴歸模型更有彈性。但其較常被用於單一結構的迴歸問題。 在無監督學習領域,聚類和混合回歸問題是我們非常感興趣的問題。因此,SVR也被推廣到混合回歸問題。基於模糊理論,延伸出了模糊加權支持向量迴歸(Fuzzy Weighted Support Vector Regression/FWSVR)。通過將隸屬度引入懲罰項,FWSVR可以處理混合迴歸問題,而不是像以前那樣一對一地使用SVR。然而,FWSVR在處理大規模數據時,所需的耗時較久。 在本文中,我們介紹了支持向量迴歸如何解決迴歸問題。並且我們將隸屬度作為不同數據的模糊權重,以構建模糊加權支持向量回歸(FWSVR)模型。然後,我們使用對偶坐標下降法找到模糊加權支持向量迴歸中拉格朗日乘數的更新函數。最後,我們考慮使用alpha cut方法來使模糊加權支持向量迴歸的結果更加有效率且穩定。實驗表明,FWSVR-DCD在處理大規模數據具有良好的性能且減少了所需的計算時間,並且估計結果對於有離群值的數據具有穩定性。Item 使用有效性指標選取基於EM半參數混合風險的模型(2018) 張怡雯; Chang, Yi-WenCox比例風險模型(Cox proportional hazards model)是一種經常在存活分析中使用的迴歸模型,此模型探討生存時間的分布和自變量的關係,可以應用在醫學、健康照護等領域。當模型中隱含著潛在變數(latent variables)時,利用混合迴歸模型(mixture regression model)分析這些變數的影響是一種合適的方法。 在使用混合模型時,選擇適當的模型組件個數是的一個重要議題,雖然有效性指標(validity indices)是選擇模型的方法中重要的一環,但是目前很少學者利用有效性指標選擇混合迴歸模型的模型組件個數。在這篇論文中,我們參考現有其它模型的指標,利用後驗概率(posterior probabilities)和殘差(residuals)發展出新的指標,且做一系列模擬來驗證新指標的有效性。 Cox比例風險模型包含基準風險函數(baseline hazard function)及比例迴歸模型(proportional regression model)兩個部分,估計基準風險函數一直是個富有挑戰性的議題,有的學者假設基準風險函數服從特定的時間分配,有的假設為分段常數函數(piecewise constant)。在這篇論文中,我們利用內核方法(kernel estimator)來估計基準風險函數,並發展EM演算法來估計混合迴歸模型的參數。 模擬結果顯示,估計基準風險函數時,利用內核方法表現的結果優於分段常數函數,因為內核方法將曲線估計得更為平滑,改善分段常數函數僵硬結構的缺點。此外,根據新指標選擇正確模型個數的高比例,推測新指標在選擇模型組件個數的表現上是有效的。Item 受限資料條件眾數的分位數回歸估計方法(2022) 張沛瑀; Chang, Pei-Yu條件眾數的分位數回歸估計法(Quantile Regression approach to conditional Mode estimation/QRM)是近年來提出的一種在給定回歸變量的情况下估計結果變量條件眾數的方法。然而,在對真實數據進行分析時,我們往往需要處理受限資料。由於QRM沒有考慮受限資料,所以可能會給出高度偏差的估計。因此本文延用QRM的做法,用受限資料條件分位數估計法(the method of estimate conditional quantile regression for censored data /QRC)取代了QRM中使用的傳統條件分位數估計法(traditional estimation approach of conditional quantile regression /QR),稱為受限資料條件眾數的分位數回歸估計方法(Quantile Regression for censored data approach to conditional Mode estimation /QRM-C)。然而與QR比較之下,QRC的計算時間更長。QRM中提到的估計值是通過最小化估計導數得到的,它在計算上很具吸引力,而估計導數的最小化是一個一維優化問題,因此可以通過網格搜尋來實現。由於QRM在網格搜索的過程中都需要重複QR多次,所以在我們的方法中用QRC代替QR時,計算耗時較長。所以我們用夾擠搜尋法代替了網格搜索。相比QRM,QRM-C估計量在處理受限資料時更為準確、偏差更小。此外,QRM-C搭配夾擠搜尋法的計算時間比QRM-C搭配網格搜索更短。我們還將我們的方法應用於科羅拉多高原鈾礦工人隊列數據,並與QRM進行比較。模擬實驗和實際數據應用發現,QRM-C在受限資料處理中具有良好的估計結果並且可以通過改變尋找函数導數最低點的方法來縮短運算時間。Item 應用於布阿松迴歸模型的EM改變點迴歸演算法(2016) 鄭乃瑜; Cheng, Nai-Yu布阿松迴歸(Poisson Regression)是一種使用於計數型資料(Count Data)的迴歸分析模型,此模型已被廣泛應用於保險、生物、經濟、醫學及工程等領域。 在群集分析(Clustering Analysis)的領域,當資料具備某種機率分配特性時,EM 演算法是最常被使用,也是公認最實用且有效估計最大概似估計(Maximum Likelihood Estimate)的方法。 一般來說,改變點迴歸模型(Change-Point Regression Models)是使用於探測資料中改變點的位置,類似於使用排序的資料分群,很適合運用群集的方法。然而,在改變點迴歸模型中,EM理論卻很少被應用於估計改變點的位置。因此,我們考慮應用EM理論估計有改變點的布阿松迴歸模型。 在本篇論文中,我們提出了一個新的方法叫做EM改變點迴歸演算法 (EM Change-Point Regression Algorithm),應用於布阿松迴歸。經由假設改變點為未知的變數,透過極大化最大概似估計函數,我們應用EM改變點迴歸演算法(EMCPR)估計改變點的位置以及布阿松迴歸模型的參數。我們同時也提供了模擬資料測試結果以及真實資料分析。結果顯示EM改變點迴歸演算法(EMCPR)是一個有效且實用的改變點迴歸演算法。 關鍵字:EM 演算法, 改變點, 改變點迴歸模型, 布阿松迴歸模型, EM 改變點迴歸演算法Item 檢測以韋伯分布為基線之混合風險模型的離群值(2018) 何莉維; Ho, Li-Wei離群值的檢測(Outlier detection)是統計分析方法中很重要的議題,是一種針對資料中極度異於其它資料的事件或觀測值的識別。適時地找出這些觀測值並加以處理,可以改善統計分析結果且合理解釋資料模型。在生活中離群值檢測常見的應用於結構缺陷、醫療問題等類型的問題。 在醫療問題中,Cox比例風險模型(Cox proportional Hazard model)是存活分析被廣為應用的分析模型,主要用於探討存活時間與自變項(Covariate)的關係。因此,有許多學者提出針對風險模型的離群值檢測,但較少著墨於混和風險模型(mixture hazard model)。然而,混和風險模型在這個領域也越來越被重視,因為實際在醫學中,疾病會被區分成許多類型(group),因此發展出一個適用於混和風險模型之檢測離群值及估計模型的方法是很重要的,此論文即探討此模型之離群值檢測及模型估計。 本論文將針對醫學研究領域最廣為應用的混和風險模型來探討離群值的檢測,並以韋伯分布為基線。利用收縮參數(shrinkage parameter)對現有的概似函數加入懲罰(penalty)函數項,以EM演算法估計收縮參數來檢測資料中的離群值,再進一步對離群值加權或是刪除以調整模型將參數估計做最佳化。 根據模擬顯示,此方法有效的偵測出資料中的離群值,且利用刪除離群值的方法通常可以得到較好的參數估計。Item 自動合併可能性C迴歸分群演算法(2015) 徐紹華; Hsu, Shao-Hua群集分析(Clustering Analysis)是一種很實用的統計分析方法,它透過邏輯程序將具有共同特性的資料聚集到同一群,使得群組內的個體相似性高,而不同群組間的個體相似性低。常見的應用包括機器學習(machine learning)、模型辨識(pattern recognition)及影像分析(image analysis)等。 混合迴歸(mixture regression)是群集分析重要的一環,而模糊分群是研究者常用的方法。傳統的模糊C迴歸(Fuzzy C-Regression;FCR)對初始值具有相當程度的依賴性,且容易受到離群值的影響。因此陸續有學者提出 Alpha截集模糊迴歸(α-cut Fuzzy C-Regression;α-cut FCR)、可能性C迴歸(Possibilistic C-Regression;PCR)等方法進行改善,使離群值的影響力變小,然而初始值的取以及資料群數的估計仍舊是PCR的兩大難題。 在本篇論文中,我們提出了一個新的自動合併可能性C迴歸(Automatic Merging Possibilistic C-Regression;AM-PCR)分群演算法,先透過階層式分群法(Hirearchical Clustering)選取初始值,搭配一種新型合併的方式,使得迴歸模型的參數估計更為穩健,並且在分群過程中,自動決定最適當的群數。