跨域科技產業創新研究學院

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/124120

為因應「跨域科技產業創新」的需求,臺師大成立「跨域科技產業創新研究學院」,以學院為統整單位,透過學院整合不同領域師資及教學資源,同時結合市場的趨勢與企業前瞻研發需求,讓學院成為跨領域創新的推動引擎,形成學企合一,使學生能夠在跨領域學習及前瞻技術商業化的框架下,達到即學即用的目標,同時將學研成果帶進企業。 為呼應政府提出產業創新為重點策略方向,研究學院下設置 「AI跨域應用研究所」及「綠能科技與永續治理研究所」二大研究所。其中「AI跨域應用」為教育部產業創新研究學院計畫擬定的五大重點領域中「人工智慧」及「智慧製造」項目;「綠能科技與永續治理」橫跨五大重點領域中「循環經濟」項目。 透過這二個研究所的設置,將建立學術界與產業界間系統性協力機制,緊密連結學校與產業,共同投入前瞻應用研究並培育人才,使臺師大成為產業創新的合作夥伴。

Browse

Search Results

Now showing 1 - 10 of 28
  • Item
    針對長尾視覺辨識之自適應目標增強策略
    (2025) 范哲瑋; Fan, Che-Wei
    監督學習中的長尾問題是由於現實世界資料集中固有的不平衡性所引起的,其中少數幾個類別或樣本佔據了資料分佈的大部分,而大多數類別(「尾部」)則擁有顯著較少的樣本。這個問題對傳統的監督學習算法構成了挑戰,因為這些算法通常優先優化在頻繁(頭部)類別上的表現,而犧牲了在罕見(尾部)類別上的表現。在近期提出的方法中,資料增強技術如 MixUp 和 CutMix 被廣泛應用於解決長尾問題。MixUp 通過對兩張影像進行插值,而 CutMix 則將一張影像的剪切區域貼到另一張影像上,從而合成更多樣化的訓練樣本。然而,據我們所知,目前尚無研究明確探討應該配對或結合哪些影像來達到最佳效果。為了解決這個挑戰,本研究提出了一種名為特徵感知分數選擇 (Feature-Aware Score-Based Selection, FASS) 的新策略。在應用 MixUp 或 CutMix 之前,FASS 根據影像的特徵表現動態選擇並配對影像。與傳統增強方法主要著重於增強少數類別樣本不同,FASS 動態識別與特徵相關的目標類別,以提升模型區分相似特徵的能力。當 FASS 與其他先進方法結合時,在 CIFAR-100 和 ImageNet-LT 等基準資料集上,FASS 展現出卓越的性能,達到了最新的最佳表現。
  • Item
    具環境感知能力的彩色電子紙前光調控
    (2025) 陳灝; Chen, Hao
    本研究旨在針對電泳式顯示器,改良現有之前光模組,結合環境光感測器以獲取環境光資訊,達成自動調整前光亮度以及色溫,並且針對顯示影像作色溫之補償以校正色偏。為達成上述目標,本研究建置一套嵌入式系統方法:採用發光二極體及導光板之前光架構與低功耗微控制器,搭配經校正之環境光感測器,先以對數域回歸估測照度,與透過係數最佳化等方式估測環境相對色溫;再依照照度分段策略與倒數色溫線性混光原理,並以查表方式連續調節前光亮度與色溫;同時在影像處理流程中,以固定參考白點實作色適應轉換以進行白點對應與色溫補償;最後以標準色卡、照度計與分光式色度計進行系統校正與驗證。實驗結果顯示,本系統可於多種環境光源下維持彩色電子紙的亮度、色溫與色域一致性,為未來低功耗、彩色顯示電子書閱讀器提供高可行性的硬體整合方案。
  • Item
    針對心電圖資料不平衡之分類模型設計
    (2025) 李政軒; Li, Zheng-Xuan
    本研究旨在探討運用深度學習技術於心電圖(ECG)訊號分類的應用潛力,以協助提升心律異常的辨識能力與早期診斷準確性。研究中提出一種基於一維殘差網路(1D ResNet-18)之模型架構,並整合卷積區塊注意力模組(CBAM)與輔助分類器(Auxiliary Classifier),以強化模型對 ECG 特徵的表達與判別能力。此架構源自電腦視覺任務,經調整後應用於一維生理訊號的分類工作,展現良好的適應性。資料處理方面採用 ADASYN 技術處理類別不平衡問題,並輔以資料增強策略以提升模型穩定性與泛化能力。模型於 MIT-BIH 公開資料集中進行驗證,結果顯示其分類表現優於傳統方法,特別是在多類別訊號辨識上具備一定的穩定性與準確性。綜合研究結果,顯示本模型結合注意力機制、輔助分類設計與資料處理策略後,能有效強化 ECG 訊號分類模型之應用能力,未來有望作為智慧健康照護輔助診斷系統的技術參考。
  • Item
    基於巨觀邊緣感知與對比圖分析的高動態範圍成像
    (2025) 鄭翔元; Cheng, Hsiang-Yuan
    本研究主要探討高動態範圍影像處理中,在極端光照條件下的影像主體重建與色調映射問題。當畫面遭遇強烈背光、低光源或大面積背景干擾時,傳統的影像處理方法經常無法有效地凸顯主體,且在壓縮動態範圍過程中容易造成細節喪失與色彩失真。本研究針對上述問題,提出一套考慮巨集邊緣資訊的影像處理方法,結合全域與區域對比度評估,透過調整適合的色調映射曲線,使暗部細節清晰且避免亮部過曝。此外,研究中亦針對色彩還原問題,於色彩轉換過程中引入色域映射模型的補償機制,有效避免傳統方法常見的色相偏移與飽和失真現象。本論文透過實驗驗證所提出方法的有效性,並經由業界常見的客觀指標評估其在亮度、色彩準確性與視覺對比度上的改善效果,期望能提供未來影像訊號處理系統設計的重要參考。
  • Item
    SA-FBCNN:一種具空間自適應性與彈性的盲式卷積神經網路於JPEG影像壓縮雜訊去除之研究
    (2025) 顏伯諭; Yen, Po-Yu
    本論文提出一種改良型JPEG影像壓縮失真修復網路SA-FBCNN(Spatially-Adaptive Flexible Blind CNN),結合FBCNN(Flexible Blind CNN)基礎架構與SAFMN(Spatially-Adaptive Feature Modulation Network)的空間自適應特徵調製機制。傳統JPEG壓縮因區塊處理方式產生明顯的方塊效應和環狀偽影,而現有深度學習方法雖有成效,但缺乏對空間特徵的自適應調整能力。本研究將FBCNN架構中的ResBlock替換為Feature Mixing Module模組,增強網路對不同尺度特徵的建模能力。接著,在對訓練完成後的模型進行分析時,我們觀察到品質因子(Quality Factor, QF)預測分支因普遍的Dead ReLU現象,其輸出對不同輸入趨於恆定。基於此,我們進行了模型剪枝,實驗證明移除該分支可在幾乎不影響效能的前提下,使參數量(60.01M)大幅減少,甚至少於原始FBCNN(71.90M)。實驗結果顯示,我們的輕量化模型在PSNR指標上平均提升約0.15dB,在圖像重建品質和細節保留方面表現更優越。
  • Item
    可見光視線追蹤器之眼角定位硬體架構
    (2025) 黃秋貴; Huang, Chiu-Kuei
    本研究針對僅採單一可見光相機的眼動儀,提出一套高效能、可即時運作的完整視線追蹤硬體系統。由於可見光環境下無法直接取得瞳孔或光斑,本系統改以內眼角作為穩定參考點,整合眼角偵測、眼球模型參數求解、幾何關係推算與動態縮放補償機制,建構完整的視線追蹤硬體架構。在既有高精度眼角偵測演算法的基礎上,我們將完整眼動儀系統硬體化,透過平行運算與管線化設計,在有 限現場可程式化邏輯閘陣列資源內實現快速的眼角定位與視線估測,有效解決使 用者頭部前後移動時的追蹤誤差問題。實驗結果顯示,眼角偵測模組在現場可程 式化邏輯閘陣列平台上的處理速度達每秒5,115幀,而完整的眼動儀系統整合後 仍能達到每秒476幀的處理效能,均具備即時運作能力。系統硬體資源使用率為 百分之十三邏輯元件與百分之三十五記憶體,證明本架構能為可見光眼動儀提供 可靠且高效的完整硬體解決方案。
  • Item
    用於反射式電子紙顯示器色彩校正的AI模型:邊緣實現的即時方法
    (2025) 童培軒; Tung, Pei-Hsuan
    本研究旨在解決反射式彩色電子紙的非線性色彩失真與色偏問題。為此本研究提出了一套基於深度學習的色彩校正架構和基於過往方法開發的半色調演算法,以有效提升色彩還原的準確度與空間連續性,克服傳統方法的限制。為驗證本方法在邊緣運算裝置上的可行性與即時性,我們將模型部署於 NVIDIA Jetson Orin NX,並採用訓練後量化策略將模型由全精度轉換為INT8精度。實驗結果顯示,量化後模型在推論速度上提升近五倍,同時僅有輕微的影像品質減損,大幅降低了記憶體與運算資源需求。本研究提供了一套低成本、高效率且無需額外色彩量測的AI調色方案,證實其具備高度的實用性與延展潛力。
  • Item
    以毫米波雷達為基礎的手勢辨識之研究
    (2025) 林聖凱; Lin, Sheng-Kai
    隨著人機互動技術的快速發展,毫米波雷達因具備隱私性高、不受光線干擾、可穿透遮蔽物等優勢,已逐漸成為手勢辨識應用之新興感測技術。本文採用開酷科技所開發之 60GHz 毫米波雷達,並搭配其專用的視覺化平台 Ksoc Tool,此工具為專門配合該雷達設計,具備資料收集與標註功能。透過 Ksoc Tool 完成原始資料擷取與資料標註後,進一步進行資料前處理、模型訓練與即時辨識顯示,建構出一套具備即時性與彈性的手勢辨識系統流程。在影像資料方面,本文深入說明兩種常見雷達影像格式:RDI(Range-Doppler Image)與 PHD(Phase Difference Map),並透過圖像與實例詳細解析其物理意義與應用情境。為有效處理動態手勢資料,系統採用滑動視窗機制切割連續序列,並透過高斯函數生成 soft label,提升標註於手勢邊界區域的過渡敏感性。模型部分則採用三維卷積神經網路(3D CNN)以同時擷取空間與時間特徵,並搭配均方誤差(MSE)作為損失函數進行監督式訓練。為強化手勢段落之區分能力,本文提出雙門檻後處理機制,透過進入與離開閥值協助界定動作啟始與終止點,並架設圖形介面,實現雷達資料的即時推論與手勢顯示。實驗結果顯示,本系統可正確辨識包含背景、PatPat、Come 與 Wave 四類別手勢,整體準確率達 95.8%,展現本研究於準確性、即時性與可擴展性三方面之應用潛力。
  • Item
    針對多粒度學習與有效抑制誤喚醒的零樣本關鍵詞辨識
    (2025) 黎洛雅; Li, Lo-Ya
    隨著科技的進步,不僅人人都攜帶智慧型手機,甚至家用電器也日益朝向語音控制的智慧家庭系統發展,使關鍵字偵測(Keyword Spotting, KWS)成為智慧裝置與語音助理中的核心關鍵技術。傳統的固定詞彙關鍵字偵測需要事先收集特定關鍵字的語音樣本並重新訓練模型才能辨識新關鍵字,具有彈性受限、成本高昂以及部署不便等缺點。為克服這些限制,近年來開放詞彙關鍵字偵測技術逐漸受到重視。無需依賴特定領域預先標註訓練資料的使用者自訂零樣本關鍵字偵測(zero-shot Keyword Spotting, ZSKWS),對於建構可適應且個人化的語音介面至關重要。然而,這類系統仍面臨艱鉅挑戰,包括有限的運算資源與有限的標註訓練資料。現有方法也難以區分聲學上相似的關鍵字,經常在實際部署中導致惱人的誤喚醒率(False Alarm Rate, FAR)。為解決這些限制,本研究提出一個輕量化、可即時運行的零樣本關鍵字偵測架構,能透過交叉注意力機制同時學習語句層級與音素層級對齊。該架構採用多粒度對比學習目標,並藉由文字轉語音(Text-to-Speech, TTS)資料增強,生成在語音上易混淆的關鍵字對以強化訓練流程。在四個公開基準資料集上的評估顯示,本研究模型達到最先進(State-of-the-Art)表現。在 Google Speech Commands v2 與 Qualcomm 資料集上,等錯誤率(Equal Error Rate, EER)降低至 3%,曲線下面積(Area Under the Curve, AUC)超過 99%,且準確率達 90% 以上。此外,在 AMI Meeting Corpus 上的誤喚醒率(FAR)低至 0.007%,同時維持 655K 參數的輕量化模型大小。這些結果證明本研究所提出的模型具有高運算效率,並能支援資源受限裝置上的即時部署。