資訊工程學系
Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/60
本系前身「資訊教育學系」成立於民國七十四年,首先招收大學部學生,民國九十年成立資訊工程研究所碩士班,而後於民國九十五年進行系、所調整合併為「資訊工程學系」;並於九十六年成立博士班。本系目前每年約招收大學部四十餘人,碩士班六十餘人,博士班約五人,截至民國一百零四年十一月止,總計現有大學部一百九十多人,碩士班一百二十多人,博士班二十三人,合計學生人數約為三百三十多位。
News
Browse
Item 高速公路上鄰近車輛之危險動向偵測(2003) 陳佳珮; Peggy Chen本篇主要為應用影像技術偵測在高速公路上行駛時鄰近我車之車輛的危險動向。系統主要分為三個部份:感覺分析器(sensory analyzer)、知覺分析器(perceptual analyzer)與概念分析器(conceptual analyzer)。感覺分析器可找出影像中移動的物體,主要針對為鄰近我車之車輛;知覺分析器則是利用—STA (spatial-temporal attention)類神經網路模組來記錄鄰近車輛之移動方向,其結果稱為注意力圖像(attention maps),隨後我們將此圖分割為五個視窗,以便偵測不同位置的障礙物,對於每個視窗我們計算其偏態(skewness)特徵值,作為分類時的輸入值;概念分析器則是根據各個視窗計算出來的偏態值利用CART (configurable adaptive resonance theory)類神經網路來做分類。最後在決策(decision making)模組中應用模糊理論整合各個CART類神經網路的結果以輸出最後分類的結果。在實驗結果中,我們提出數個例子以驗證我們的方法。Item 於室內停車場之環場攝影機架設策略(2003) 陳瀛彬本論文以環場攝影機為主要監控器具,提出一演算法則來自動決定一組攝影機的架設位置,以達到其整體堅控範圍能完整的覆蓋一停車場。我們將車場看成一任意多邊形,而每一攝影機的監控範圍為一小圓形,因此我們希望找到一組攝影機,其監控範圍的聯集可以含蓋多邊形車場。這個問題到現在仍在尋找較佳的解法,且多只限於一些特殊形狀的多邊形之處理,而本文提出的方法則可以解決任意形狀。系統主要包含前處理、攝影機校正、路徑規劃、攝影機設置以及產生environmental map五個步驟。於前處理中,我們將停車場的平面設計圖掃描後得到平面圖影像,並記錄下平面設計圖的比例尺及影像解析度,以便藉由它們來計算出影像上的像素所對應的3D尺寸;在攝影機校正中,主要想得到影像平面與真實空間之間的關係,由此關係來得到攝影機在真實空間與影像中之監控半徑的對應關係;接著我們使用一兩階段的類神經網路於影像上分別從事路徑規劃及攝影機配置的工作;最後產生一environmental map可供未來應用,例如車輛追蹤使用以及多攝影機之間的協調(coordination)。在實驗結果中,我們提出數個例子以驗證我們的方法。Item Utilizing BLAST to Extract Citation Metadata from Online Publication Lists(2003) 黃誼安科學家相互引用文獻和研究結果,是科學得以迅速發展的重要因素。因此,書目表單(citation list)或文獻目錄(bibliography)無疑是學者的重要工具。一般常見的書目(citation)資料,通常記載著作者(author)、標題(title)、出版資訊(publication information)等訊息。出版資訊隨著出版形式不同(例如書本、期刊、研討會論文集、叢書、研究報告、技術報告等),而有種種變化,其內容則包括期刊或研討會名稱、冊別、編號、頁數、出版年月、出版商、出版地點等。這些扼要描述文獻背景訊息的後設資料(metadata),通常有結構化(structured)和半結構化(semi-structured)等兩種呈現形式。結構化的書目,可以資料庫或欄位式的表單作為代表;半結構化的文獻目錄,則以連續字串的形式呈現,其形式比較自由。因此,不同的學者在描述同一筆文獻的時候,可能會寫出兩筆外觀看來很不一致的書目資料。不止後設資料屬性的前後次序會有變化,連使用到的屬性也可能有所不同。 然而出現在網路上的文獻目錄,絕大多數卻都屬於半結構化的形式。若要加值運用,就得先將半結構化的文獻目錄,剖析和轉換成為一致的結構化形式,並分析彼此參照的關係和建立索引,以提供文獻搜尋和引用統計等資訊服務。本論文擬探討如何將半結構化文獻目錄,轉換成為一致的結構化資料。這是書目資料處理的核心問題。 由於書目資料型態眾多,想要自動將半結構化的書目轉換成結構化的資料實為不易。為了辨識書目後設資料,我們的基本構想是運用基因比對技術來解決這個書目資料辨識的問題。也就是將半結構化書目轉成蛋白質序列(protein sequence)。將已知的書目資料的樣板,則轉換成蛋白質序列,儲存於樣板資料庫中(template database)。當必須解析新的半結構化的書目時,則可將新的書目轉換成蛋白質序列。再以BLAST這項序列比對工具,從事先建立好的樣板資料庫中,找出與該蛋白質序列最相近的樣板。最後根據此樣板作後設資料的解析。 這樣的處理方式讓系統更有彈性,不僅可以輕易加入新的書目樣板,也可以快速找到最相近的樣板作為解析後設資料的依據。解析結果的準確率會因樣本資料庫的完整度而有所不同,也會因為計分表的設計而有所偏差,更會因測試資料的型態不同(例如含中文姓氏的著作表列與不含中文姓氏的著作表列)而形成不一樣的結果。本論文在這些議題上作了一些測試,在最理想的狀況下本系統可以達到91.2%的準確率,而OpCit的系統準確率在理想狀況下卻僅能達到75%。相反的在樣板資料庫完整度低的情況下(樣板完整度百分之五十),而且使用不利的測試資料,本系統的準確率降到38.2%,而OpCit系統為6%。Item 電腦圍棋打劫的策略(2003) 黃士傑打劫在圍棋裏佔據了十分重要的位置,然而目前大部分的電腦圍棋程式都不具備打劫的能力。我們利用最大最小搜尋法的原則,得出本劫最佳的打劫策略,使得電腦圍棋程式在處理本劫時,能在局部求得獲利最大或損失最小的下法。我們根據形勢判斷的定義,精確的定義了棋步、劫爭與劫材的價值,作為探討打劫策略的基礎。我們也詳細探討了打劫過程中劫材的使用策略。Item 互動式提示虛擬題庫中介練習系統之設計與評估(2004) 蕭惠云無論是動態評量或是傳統靜態評量,當試題量不夠充足時,試題的曝光便可能威脅測驗結果的正確性。尤其圖形測驗編製過程不易,產生新試題相當耗時費力,所以試題之安全性特別受到重視。另一方面,近來風行於教育界的建構主義運用在電腦輔助教學中,能使電腦科技在促進學習或發展心智功能的角色上發揮得更為淋漓盡致。 基於上述二者,本研究以圖形測驗為內容,結合能解決試題曝光問題的虛擬題庫,以及具建構主義特色的互動式提示,運用於動態評量的中介系統及練習式電腦輔助教學系統上。針對此研究主旨,設計一套「互動式提示虛擬題庫中介練習系統」,並進行實際施測以評估其可行性。 研究結果發現:(1)以「互動式提示虛擬題庫中介練習系統」做練習,有助於增進受試者推理能力的發揮,且較無提供提示之紙筆練習有效。(2)在評估受試者於圖形推理的學習潛能方面,「互動式提示虛擬題庫中介練習系統」雖然可行,但評估對象僅限於圖形推理能力為中等的受試者;當受試者於中介練習時所接受的提示量愈少,表示其愈具有圖形推理方面的學習潛能Item 在3D虛擬環境中使用區段預取方法完成非中斷式的場景串流(2004) 蘇信維; Su Hsin Wei目前在一般的電腦遊戲中,尤其是萬人網路連線型態的電腦遊戲,通常將巨大的場景分割成許多不相連通的區段。這樣的做法有其實際上的現實因素。第一、場景的細節太多,無法一次全部載入到記憶體。這個問題在3D的環境裡更為嚴重。第二、這樣的作法可以使得同時間需要同步的線上玩家數量減低,達到自然的區隔,因而減少同步訊息的暴增,減少可能的網路延遲。 針對上述遊戲進行的現況,我們計畫發展一套系統,本系統的主要功能與規格由非同步式檔案輸入/輸出系統、區段預取機制、快取模組所組成。目標在提供玩家一個具有超大型的3D場景、但不延遲且流暢的遊戲經驗。在不減低遊戲流暢性的條件之下,隨著玩家所扮演的角色位置的移動,適時的載入所需的3D場景。 本系統的主要概念是把連續的3D場景(scene)切割成許多區段(sections),將這些區段作為基本的串流單位(streaming units)。每一個區段可能包含了許多靜態幾何資料(static geometry)、動態幾何資料(dynamic geometry)、貼圖(texture)、光線(lights)、物件的資訊、以及音效等等。當玩家所扮演的角色移動於場景時,區段將視需要不斷的被載入,讓玩家感覺整個超大型的場景早已經全部載入記憶體中。Item 以不完整的內容檢索資料庫內的車牌號碼(2004) 董致平視覺式的車牌辨識是一件看似簡單的工作,但是要達到高辨識率非常困難。視覺式的系統受到光線變化的影響很大,百分之百完美的車牌辨識系統並不可得。然而,在某些特定的應用中,當車牌辨識的工作能與車牌資料庫搭配時,即使不完美的辨識結果仍有很大的用處。舉例來說,假設在視覺式的智慧型停車場內所有停放的車輛,其車輛資訊皆已由視覺式的系統記錄到資料庫內,則車主取車時,我們可以依據車牌號碼之間的編輯距離很快地從資料庫中找出與輸入車牌最相似的候選車輛。 編輯距離是一種有效測量字串之間相似程度的工具,當比較車牌時,我們採用Chamfer distance來定義字串編輯時所需花費的「插入字元」、「刪除字元」與「取代字元」的代價。因為Chamfer distance能反映兩張影像在形狀上的差異,因此兩張車牌號碼的編輯距離能代表了兩張車牌號碼在形狀上的相似程度。 在本文中,我們改善編輯距離的計算方式,將字元與其鄰近字元的關係納入考慮。此種計算編輯距離方法最早由J. Wei[Wei04]提出,稱之為馬可夫編輯距離。我們修改了J. Wei的論文兩個有關馬可夫編輯距離的派系能量函數,使得修改後馬可夫編輯距離適用於車牌號碼的比對,而且其結果也較傳統的編輯距離的值更加精細。此種馬可夫編輯距離能有效地反應出車牌號碼之間的號碼錯置的關係。Item 線上同儕評量系統之設計與研究(2004) 廖偉良同儕評量是一種有別於傳統的變通性評量(alternative assessment),也即使 一群知識成熟度與學習背景類似的學生,彼此相互評量學習成果,並相互給予回 饋。藉同儕評量的過程來提高學生高層次的思考及學習動機,是許多學科領域中 常廣泛應用的學習策略,對學生的學習成就與學習態度皆有正向的影響。 隨著電腦與網路技術的快速發展,資料的處理、呈現及互動更具即時性,同 儕評量的實施方式也有所改進,從紙筆式同儕評量演變為線上同儕評量。早期以 電腦與網路技術做為同儕評量工具的研究中,對於學習成果呈現與同儕回饋各有 其不同的處理方式,如使用電子試算表軟體透過email 方式實施,或利用全球資 訊網做為展示學習成果的平台,並透過email 來傳遞同儕回饋。演變至今,線上 同儕評量系統皆已將學習成果呈現與同儕回饋整合至全球資訊網平台上。檢討分 析國內外現有線上同儕評量系統之研究,實施過程方面,尚有若干問題有待解 決,例如,1、適當的評審者分配方式,2、雙向的評審者與受評者溝通管道,3、 本研究將針對上述的幾項限制,提出相關策略及實施流程規劃設計,以突顯 同儕評量的設計理念,使參與學生透過本研究所設計的線上同儕評量系統,充分 達到反省思考與批判溝通的目的。對於評審結果公正性及客觀性的問題,本研究 也提出相關預防及檢查策略,藉此減少評審評分偏誤的情形發生。Item 強健性語音辨識上關於特徵正規化與其它改良技術的研究(2005) 劉成韋; Liu Cheng-Wei人類在幾千年的演化過程中,生活上的智慧不斷的累積傳承,因此過去文明變遷和人類演化的步伐是一致的。而如今科技進化的速度,卻早已大大的超越了人類演化的速度,並且日常生活中可以使用的多媒體影音資訊也越來越多,例如廣播電視節目、語音信件、演講錄影和數位典藏等,基於這個因素,可以隨時隨地的存取上述多媒體資訊的手持式行動裝置,也越來越受到重視。很明顯地,在上述的絕大部份多媒體中,語音可以說是最具語意的主要內涵之一。除此之外,語音自古以來一直都是人類最自然也最直接的溝通方式,若能利用語音來做為人類和科技產品之間的溝通橋樑,除了具備友善且有效的優點之外,更能省去繁雜的操作手續。現今市面上所見的科技產品,普遍的來說體積已越來越小,因此觸控的方式已漸漸地不再便利。此外傳統的人機介面如滑鼠和鍵盤,並非在所有的環境下都能適當的被使用,例如在行動的汽車環境下就顯得不夠方便。所以若能利用語音來做為人機介面,將會大大的提升便利性,使得科技和生活能夠更緊密的融合。然而語音辨識通常會遭受到一些複雜的因素干擾,諸如背景噪音,通道效應,以及語者和語言上的差異等諸多因素,使得辨識系統始終無法發揮最佳的效用,而辨識率往往也差強人意。 而本篇論文的主旨,在於針對目前許多語音強健技術進行研究比較並加以改良,最後整合出一套新的技術。而本論文主要的研究方法,是以查表式統計圖等化法為主,並和其它相關的技術結合來提升語音的強健性,最後將查表式統計圖等化法加以改良為改良式統計圖等化法,也就是將參考分佈依據音框的種類,分為靜音和語音。甚至根據中文特性,再將語音細分為聲母和韻母。而吾人所提出的改良式統計圖等化法,辨識率比傳統的查表示統計圖等化法相對提升了4.04% ; 對於原始辨識率也相對提升了至少5.75%。此外吾人也嘗試對語音訊號所擷取出的頻譜熵特徵與線性鑑別分析的技術結合,再與傳統的語音特徵參數合併來作為新的語音特徵參數,而辨識率也相對提升了近1.00%。若將新的特徵參數和本論文另一個研究主題(THEQ)作結合,更可以達到加成性的效果,平均相對辨識率提升至5.19%。Item 於可程式化系統晶片平台實現向量量化器快速碼字搜尋硬體電路之研究(2005) 魏文港; Wen-Kang , Wei本論文針對向量量化器(VQ)編碼端的硬體實現提出了一個新的VLSI架構,採用部分距離搜尋(PDS)演算法作為編碼端最佳碼字搜尋的法則。在大多數的軟體應用中,部份距離搜尋演算法可以適度的加速碼字搜尋。本論文提出的新部份距離搜尋演算法適合硬體實現,使用子空間搜尋(Subspace search)、位元平面縮減(Bitplane reduction)和多係數累積(Multiple-coefficient accumulation)三種技術來有效的降低面積複雜度(Area complexity)以及計算latency(Computation latency)。多模組架構的PDS專用硬體電路可以同時針對不同的輸入向量進行編碼,以達到更進一步的編碼加速。我們提出的硬體架構被內嵌於軟體核心中央處理器(Softcore CPU)來進行實際的效能量測。實驗結果顯示出我們的架構提供了一個符合成本效益的向量量化器編碼系統硬體實作解決方案,並且擁有高吞吐量(throughput)和高正確性(fidelity)。Item 偽幣問題之改良演算法設計與分析(2005) 劉耀才; Liu Yao Tsai偽幣問題由來已久,有許多人不斷的增加不同的條件,使得這個問題變得更具挑戰性也更加困難,也有許多人嘗試著提出各種不同的演算法去解決這些不同形式的偽幣問題。在本論文中,我們對兩枚偽幣不知其輕重、三枚偽幣知其輕重、三枚偽幣不知其輕重、四枚偽幣知其輕重、四枚偽幣不知其輕重等問題提出了改良的演算法,以及改進了李立中的三枚以上偽幣知其輕重演算法,使之成為三枚以上偽幣不知其輕重的演算法。在最後我們也對一枚偽幣知其輕重、一枚偽幣不知其輕重、兩枚偽幣不知其輕重、三枚偽幣知其輕重、三枚偽幣不知其輕重、四枚偽幣知其輕重、四枚偽幣不知其輕重等問題,提出了分析,說明各個演算法相對於理論下限還有多少可以努力的空間。Item 使用環場及PTZ抏影機結合之系統從事廣域安全監控(2005) 王政雄本論文提出結合攝影機(omni-directional camera)以及PTZ攝影機(PTZ camera: pan, title and zoom),進行廣域室內安全監控之系統。本系統首先以環場攝影機追蹤進出監控區域的人物,並且將追蹤到之人物的座標傳遞給PTZ攝影機,PTZ攝影機即根據環場攝影機傳來的座標訊息鎖定該人物,然後一邊追蹤,一邊將鏡頭拉近,直到取得該人物的特寫近照,將其儲存,供後續應用。 本系統的統程有三個主要步驟:導先利用相鄰影像相減法(temporal difference method)以及背景相減法(background subtraction)從環場影像中擷取出前景物;接下來追蹤擷取出的前景物,並且從這些前景物中挑選出一個最感興趣的前景物,將其座標告知PTZ抏影機,PTZ攝影機即根據接獲的座標方位,移動其鏡頭尋找該前景物,之後對其展開追蹤直到取得前景物清晰的特寫。以上各步驟,其中間結果並不一定儘如理想,聞中將會探討一些可能的狀況及困難,並提出解決的方法。 物體的追蹤,主要根據物體的特徵(features),本論文利用粗糙集合理論(rough sets theory),從一給予的特徵集合中選擇出適當的特徵集合,希望能夠增加追蹤的效率。而再物體追蹤時,則利用圖形比對法(graph matching method)來決定連續影像中物體的對應關係,達到追蹤的目的。本系統在突然地光線變化時,如:開關燈,仍能順利的運作。Item 使用H.264完成可調性之階層式多重描述視訊傳輸系統(2005) 周竺鼎; Sam Chou中文摘要 本論文提出了一個階層式多重描述編碼(Layered Multiple Description Coding ; LMDC)的架構,適用於可調式的視訊傳輸系統,當面臨到異種的網路結構(Heterogeneous networks)時,如何提供串流視訊服務到不同能力的客戶端,提供了好的解決方法。 本論文的LMDC系統是一個混合了離散小波轉換(Discrete Wavelet Transform ; DWT)和H.264的組合,在此演算法中,一個輸入的視訊序列會先經由DWT分解成一個基本序列和數個具正交性質的補充序列,每一個序列再經由H.264來有效利用空間與時間上的相關性進行編碼。使用本論文的LMDC系統,當在網路具有傳送優先順序的條件下提供串流服務時,相較於只使用H.264完成的階層式編碼系統,LMDC系統除了能提供更廣泛的碼率選擇,還能在網路頻寬發生變化時,使視訊品質能平滑的進行變化。且當網路不提供優先順序時,相同於在LMDC系統中使用的位元流,仍然可以被靈活編排成單純的多重描述位元流,來增強可調性與強健性傳輸。 本論文所提出之LMDC等方法也可以很容易與其他可調式編碼技術如MCTF等整合,而進一步擴展系統之可調性。不僅如此,現有的H.264軟體與硬體可以直接使用於實現本論文提出的演算法,因此LMDC系統在提供可調式視訊串流的實現上,是一個低成本解決方案。且LMDC系統比起motion JPEG2000和MPEG4具有更好的效能;另外在相同的碼率條件下進行資訊傳輸,LMDC系統的效能也勝過H.264-based simulcast的系統。 關鍵詞:可調式編碼,階層式編碼,多重描述式編碼,階層式多重描述式編碼Item 強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研究(2005) 張志豪語音是人類主要且最方便的溝通方式之一。現今由於小型電子產品的成功發展,如手機、個人數位代理(PDA)等,再加上無線通訊和無線網路的普及,一般都認為在不久的未來,語音將扮演舉足輕重的角色,且將擔任人類與各種不同智慧型產品溝通的主要人機介面。因此,自動語音辨識(Automatic Speech Recognition, ASR)的研究也變得日益受重視。其中,為了能讓自動語音辨識在真實且多變的環境下也可以適用,許多鑑別性(Discriminative)和強健性(Robust)的特徵擷取(Feature Extraction)技術在近二十年來也陸續被提出。 根據上述的觀察,在本論文裡我們研究基於聽覺知覺特性(Auditory-perception-based)的特徵擷取技術和資料相關(Data-driven)的線性特徵轉換(Linear Feature Transformation)技術,以達到強健性語音辨識的目的。對於基於聽覺知覺特性的特徵擷取技術,我們廣泛地比較常見的梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)與感知線性預測係數(Perceptual Linear Prediction Coefficients, PLPC),並且比較用來取得與結合時域軌跡(Time Trajectory)資訊的各種方法。在資料相關線性特徵轉換這方面,首先我們嘗試驗證,線性鑑別分析(Linear Discriminant Analysis, LDA)在語音辨識的特徵空間轉換上的表現的確優於主成份分析(Principal Component Analysis, PCA)。然後我們研究幾種線性鑑別分析的改進方法,像是異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)和異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA)等,這些方法在求取線性鑑別分析過程中,並未如傳統的線性鑑別分析般需假設每個類別分佈會有相同變異量(Variation)。此外,我們提出分別利用最小分類錯誤(Minimum Classification Error, MCE)和最大交互訊息(Maximum Mutual Information, MMI)等估測法來最佳化線性轉換矩陣,並與傳統最大相似度(Maximum Likelihood, ML)估測法作比較。最後,我們也進一步地結合最大相似度線性轉換(Maximum Likelihood Linear Transformation, MLLT)與其他強健性技術諸如特徵平均消去法(Feature Mean Subtraction)、特徵正規化法(Feature Normalization)等。本論文裡所有實驗皆使用中文廣播新聞為語料庫(Mandarin broadcast news corpus, MATBN)。實驗內容包括了中文自由音節辨識(Free Syllable Decoding),與大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)上。初步的實驗結果顯示出本論文所提出的作法對於語音辨識率有相當顯著的提昇。Item 「德州撲克」不完全資訊賽局之研究(2005) 張瓈文賽局是指兩人以上的競賽,交通路線選擇、益智遊戲的出招方式、股市投資、人際關係、公司經營、商場或政局中激烈的競爭、甚至國際情勢間的戰與和,都屬於賽局的一種,為了求得勝利而產生了各種策略、智謀,也就是賽局理論。 撲克屬於不完全資訊賽局的一種,由於有機率因素而使複雜度大幅提高,在所有撲克變形中,德州撲克又是複雜度最高的類型之一,若視牌桌為一個小型的經濟社會,撲克投注策略即為簡化過的投資策略,對於不完全資訊賽局是良好的研究目標。 本篇研究以德州撲克的下注策略為主題,進行不完全資訊賽局之研究,從雙人德州撲克賽局開始著手,以多人德州撲克之應用為目標。首先,在每次輪詢下注時,利用賽局理論中的策略矩陣求最佳策略分佈,並使用取樣及近似方法以加速計算複雜的勝率,以便利用於策略矩陣中;再將單次輪詢之策略矩陣以樹狀結構組織,形成矩陣迭代樹的模型,以簡化運算複雜度,並可在合理時間內得到德州撲克賽局之非確定性策略;最後嘗試將此結構擴張為多人賽局模型,以驗證此模型之通用性。 實驗結果顯示,使用矩陣迭代樹模型確實能得出快速而符合理論的最佳解,隨著賽局局數的增加,獲利逐漸累積上升,且同樣的模型可以輕易轉換至多人賽局中使用,也能在相差不多的短時間內得到最佳解,對於不完全資訊賽局分析而言,矩陣迭代樹的確是一個具擴張性的良好模型。Item 容許多次錯誤回應之演繹競局問題之研究(2005) 黃立德; Li-Te Huang今日的資訊科學領域日新月異、發展迅速,許多相關應用領域的重要關鍵技術,如:容錯通信(fault-tolerant communication)、電路測試(circuit testing)、附加條件搜尋(additive search problem胝)以及密碼學中的差分密碼分析(differential cryptanalysis)等組合計算最佳化問題皆與演繹競局最佳化問題相關。 在本論文中,我們提出嶄新且有系統的演算法解決著名的Mastermind和AB game等兩個演繹競局問題之變形“容許e次錯誤回應的Mastermind演繹競局問題”與“容許e次錯誤回應的AB game演繹競局問題”。首先我們使用k分支演算法(KWB)針對不同的e值求得此類問題所需猜測次數的上限。藉由分群技巧,KWB演算法能有效且有效率的求得接近最佳的結果。另一方面,我們根據鴿籠原理的觀念,發展出一個以鴿籠原理為基礎的快速式回溯驗證演算法(PPBFB)來求出所需猜測次數的下限。這是一種電腦輔助驗證演算法,在搜尋過程中它能估計競局樹的高度,且當高度超過我們欲驗證的值時,就回溯並繼續驗證其他分支。此外我們更進一步提出「容量更新」和「預先處理」二種創新的技術,能更有效的提升下限估計的準確度和搜尋的速度。 我們提出的KWB演算法與PPBFB演算法可推廣到任意次數錯誤回應之演繹競局問題,而且若使用KWB演算法時,在空間與時間允許的情況下,我們可以增加k值,以求出更好的策略。目前我們使用KWB演算法和PPBFB演算法得到以下的成果: (1) 對容許一次錯誤回應的Mastermind,我們求得此問題所需的猜測次數之上限和下限皆為7。因此我們完整的解決此問題而且求出在最差情況下最佳的猜測次數為7。 (2) 對容許一次錯誤回應的AB game,我們得到此問題所需的猜測次數之上限為9、下限為8。 (3) 對容許二次錯誤回應的Mastermind,我們求得上限與下限分別為10和7,而對容許二次錯誤回應的AB game,得到的上限與下限分別為15和8。 此外,針對容許一次錯誤回應的Mastermind與容許一次錯誤回應的AB game,我們將找到的競局策略表示成遞迴表示法,並實作成線上對局系統,供作後續驗證及研究之用。Item 研究使用詞彙與語意資訊於(2005) 朱惠銘; Huei-Ming Chu語音文件切割是指在長時間的聲音訊號上自動地標定不同主題之間的邊界,因此可將語音文件分隔成具有主題凝聚力的段落。另外,語音文件組織是指對於已切割過的段落分析其應隸屬的主題,使這些段落群聚在主題群集中,並標示群集標記後以階層式視覺化呈現便於使用者瀏覽。兩者在近幾年都逐漸受到重視。 本論文首先探究如何將隱藏式馬可夫模型(HMM)此種已被廣泛應用在語音辨識及資訊檢索的模型延伸應用於語音文件切割。不僅使用了語音文件本身具有的詞彙資訊,如統計上的特徵及語言模型機率。另考量了聲學上的資訊,像是停頓分佈及辨識可信度,以辨別段落邊界。我們也融合了語音文件中具有的語意資訊於隱藏式馬可夫模型切割器中以更精確地模擬狀態的觀測分佈。此外,我們也研究了兩種非監督式且為資料導引式的組織方法於語音新聞文件分析上,分別為自我組織圖(SOM)以及機率式潛藏語意分析圖示(ProbMap)。我們提出了另一種觀察潛藏主題方式的主題混合模型圖示(TMMmap)以改進機率式潛藏語意分析圖示。透過一系列在主題偵測與追(TDT)中文語音文件集上的實驗,來分析這些方法的效能與其中的異同。最後,我們更進一步融合主題分佈資訊,也就是語音文件組織所得到的拓撲分佈資訊,於隱藏式馬可夫模型切割器中。初步發現有非常好的效果與進步空間。Item 最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究(2005) 郭人瑋; Jen-Wei Kuo近來,有不少文獻針對鑑別式聲學模型訓練加以研究改進,本論文則延伸最小化音素錯誤(Minimum Phone Error, MPE)聲學模型訓練及調適,並使之應用在中文大詞彙連續語音辨識上。本論文以公視新聞外場記者語料作為實驗平台,在實驗中,先對聲學模型進行最大化相似度(Maximum Likelihood, ML)聲學模型訓練,再來則比較最小化音素錯誤與最大化交互資訊(Maximum Mutual Information, MMI)兩種鑑別式訓練,最小化音素錯誤訓練相較於最大化相似度訓練能大幅降低15.52%的相對音節錯誤率、12.33%的相對字錯誤率及10.02%的相對詞錯誤率,明顯優於最大化交互資訊的訓練方式。此外,在非監督式聲學模型調適上,本論文探討了在聲學模型空間及特徵空間上透過轉換矩陣間接調適的調適技術。然而,因為缺少正確轉譯文句(Correct Transcripts)可供最小化音素錯誤估測原始正確率,故需以辨識所產生對應的轉譯文句來取代,使得非監督式最小化音素錯誤調適技術無法對聲學模型參數做良好的估測,導致辨識效能顯著地下降。為了改善此現象,本論文提出了「原始正確率預測模型」(Raw Accuracy Prediction Model, RAPM)用來改良非監督式最小化音素錯誤之調適,對辨識效能有少許的提升。Item 語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究(2005) 蔡文鴻; Wen-Hung Tsai在過去三十年間,統計式語言模型在各種與自然語言相關的應用上一直是一個重要的研究議題,它的功能是擷取自然語言中的各種資訊,諸如前後文資訊(contextual information)、語意資訊(semantic information)等,再利用這些資訊以機率量化來決定一個詞序列(word sequence)發生的可能性。例如,在語音辨識中,語言模型扮演的角色是要解決聲學混淆(acoustic confusion)的問題,將正確的辨識結果從有可能的候選詞序列中挑選出來。 近年來,語音辨識在我們生活中已有越來越多的應用,例如語音聽寫(voice dictation)、電話轉接(call routing)系統等等。但是語音辨識效能的好壞,通常會隨著辨識任務的詞彙或語意的不同,而受到嚴重的影響,於是誕生了語言模型調適的研究。語言模型調適是要利用辨識任務中固有的詞彙和語意資訊來彌補訓練語料與測試語料間的不一致性(mismatch)。 在本論文中,提出了原本應用在機率式資訊檢索上的主題混合模型法(topic mixture model, TMM)來動態的利用長距離的主題資訊,並且運用在語言模型調適上得到了不錯的效果。此外,本論文對最大熵值法(maximum entropy, ME)亦做了深入的研究,最大熵值法是一種將不同資訊來源(information sources)整合的方法,在此方法中,每一個資訊來源都會引發一群限制(constraints),限制合併後的語言模型要滿足所有的資訊。然而,這些限制的交集(intersection),是滿足所有資訊的機率分佈的集合,在這個集合中,擁有最大熵值(highest entropy)的機率分佈即為此方法的解。初步的實驗結果顯示以最大熵值法來合併一連詞、二連詞與三連詞所得到的語言模型,比用傳統最大相似度估測法(maximum likelihood)所訓練的語言模型,在中文廣播新聞轉寫上的字錯誤率(character error rate, CER)與語言模型複雜度(perplexity)都達到較好的效果。Item 智慧型停車場管理系統(2005) 黃仲誼根據統計,目前的停車位與現有的車輛數量有著相當大的落差,如何在有限的停車位下,提高停車場的使用效率,為解決停車問題的重要課題之一。現有的停車場系統存在著不少的缺失,我們希望藉由目前已有的高科技,如電腦、通訊、感測、機電控制等,來改善現有的停車場系統,使其更加安全、效率以及人性化,我們稱其為智慧型停車場系統。 我們所提的智慧型停車系統是由七個子系統所組成,包括車牌辨識系統、控制系統、導引系統、收費系統、監視系統、網路系統以及中央管理系統。每個子系統隨時會產生新的資料,也可能需要別的子系統提供資料,各系統所產生的資料規格不一,我們需要一個有效的機制來整合各個子系統所產生的資料,其中包括資料的儲存、傳輸、分析及管理等。本文以資料倉儲的觀念來設計資料整合中心。資料倉儲架構包含Load manager、Warehouse manager以及Query manager三個主要單元,Load manager將來自不同系統的資料加以分析、整合,並轉換為資料倉儲所需的格式予以儲存;Warehouse manager則管理著實際的記憶元件,將系統上所有的資料儲存及備份於此;而Query manager則提供使用者查詢資料的功能,可以依使用者的需求迅速的從資料倉儲中取得所要求的資料,並依使用者所需的格式回應給使用者。上述的架構可以整合不同電腦所產生的異質資料,而且可以隨時提供給不同平台所需之不同資料格式。在此架構下,上述的子系統有共同溝通及存放的標準,增加資料管理以及應用的效率。