科技與工程學院

Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/5

沿革

科技與工程學院(原名為科技學院)於87學年度成立,其目標除致力於科技與工程教育師資培育外,亦積極培育與科技產業有關之工程及管理專業人才。學院成立之初在原有之工業教育學系、工業科技教育學系、圖文傳播學系等三系下,自91學年度增設「機電科技研究所」,該所於93學年度起設立學士班並更名為「機電科技學系」。本學院於93學年度亦增設「應用電子科技研究所」,並於96學年度合併工教系電機電子組成立「應用電子科技學系」。此外,「工業科技教育學系」於98學年度更名為「科技應用與人力資源發展學系」朝向培育科技產業之人力資源專才。之後,本院為配合本校轉型之規劃,增加學生於科技與工程產業職場的競爭,本院之「機電科技學系」與「應用電子科技學系」逐漸朝工程技術發展,兩系並於103學年度起分別更名為「機電工程學系」及「電機工程學系」。同年,本學院名稱亦由原「科技學院」更名為「科技與工程學院」。至此,本院發展之重點涵蓋教育(技職教育/科技教育/工程教育)、科技及工程等三大領域,並定位為以技術為本位之應用型學院。

107學年度,為配合本校轉型規劃,「光電科技研究所」由原隸屬於理學院改為隸屬本(科技與工程)學院,另增設2學程,分別為「車輛與能源工程學士學位學程」及「光電工程學士學位學程」。

News

Browse

Search Results

Now showing 1 - 10 of 31
  • Item
    基於Faster R-CNN演算法的行人偵測應用研究與分析
    (2025) 何逸凡; He, Yi-Fan
    本論文的研究動機在於物件偵測與追蹤的運作探討與原理分析,研究目的主要在於行人的影像偵測與追蹤上,了解現有的物件分類的演算法及數據庫,同時改良出新演算法以達到的較高的物件匹配度。本文中所改良的物件辨識演算法主要以Faster R-CNN為主,對行人影像目標進行物件追蹤,過程中也會與現有的演算法做分析比較取得研究的可行性與可靠度。
  • Item
    結合影像與四輪控制之智能車體與人體追蹤系統
    (2025) 呂彥澂; Lu, Yen-Cheng
    本研究設計一套可以辨識並追蹤人體的智慧型四輪驅動車。結合了四輪驅動車與影像辨識模型,車體由四顆馬達驅動四個車輪,具備靈活的運動控制能力,達成穩定追隨目標的控制。在影像辨識上,車體搭配深度攝影機擷取前方人體影像,透過關節偵測工具MediaPipe Pose擷取人體背部關節的移動資訊,並使用GRU時間序列模型學習並記憶主人的關節動作模式。當系統辨識出該模式與記憶資料相符時,會將此人標記為主人(Master),並啟動自動追隨模式。在運動控制方面,利用運動方程式得出的轉速控制馬達,並透過增量型PID控制器調整轉速,讓車子轉彎與前進更穩定。此研究整合了影像辨識、深度學習與四輪控制技術,有效提升四輪驅動車對指定目標的辨識準確率與追蹤穩定性,未來可應用於智慧陪伴、物流配送及購物跟隨等場域。
  • Item
    應用於行動裝置之基於深度學習的手繪運算放大器電路辨識與教學動畫生成系統開發
    (2025) 李柏翰; Li, Po-Han
    隨著深度學習技術的發展,手繪文本和電路圖的識別取得了顯著進步。然而,針對手繪運算放大器 OPA 電路的研究仍較為有限。本研究提出了一種行動裝置專用的手繪運算放大器電路識別與動畫生成系統,旨在解決現有影像搜尋工具(如 Google Images)無法有效辨識手繪電路的問題。本系統採用最新的 YOLOv9t 目標檢測模型進行電子元件識別,相較於 YOLOv8n,在模型參數量(Parameters, Params)與每秒十億次浮點運算次數(Giga Floating Point Operations Per Second, GFLOPS)方面均有所提升。系統透過分析識別出的電子元件及其相對位置來確定電路類型,並允許使用者輸入元件參數,以 Manim 動畫引擎生成對應的輸出波形動畫,幫助學生直觀理解運算放大器電路特性。本研究構建了一個包含 1,199 張手繪運算放大器電路圖的資料集,並比較了 YOLOv8n 和 YOLOv9t 兩種物件偵測模型的辨識效能。實驗結果顯示, YOLOv9t 與 YOLOv8n 在 Precision 指標上均達到 99%,整體辨識校效能相當。然而 YOLOv9t 的參數量為 2.8M,較 YOLOv8n 的 3.0M 減少約 7%,在模型輕量化方面展現優勢;此外 YOLOv9t 的每秒十億次浮點運算次數為 11.7,遠高於 YOLOv8n 的 8.1,效能提升約 44.4%。顯示 YOLOv9t 更具運算效率,適合應用於本系統所需的即時辨識場景。除此之外,系統整合 LINE Bot 作為互動介面,使學生可直接透過行動裝置拍攝手繪電路圖,並即時獲得識別結果與動畫回饋。整體實驗結果顯示,本系統在電子工程教育領域具有潛在應用價值,未來將進一步透過使用者調查來優化互動設計與學習成效。
  • Item
    基於超聲波的手部動作辨識模型研究
    (2025) 張仲軒; Chang, Michael-Austin
    隨著人工智慧與深度學習技術的快速發展,人體動作辨識在醫療照護、監控系統、人機互動等領域展現出極高的應用潛力。然而,傳統的影像辨識技術多仰賴可見光或紅外線攝影機,不僅容易受到環境光源變化影響,可能還有潛在的隱私疑慮。為解決上述問題,本研究提出一種結合超聲波訊號與深度學習之手部動作辨識模型,利用聲波反射特性來辨識手部動作,從而克服光線限制並提升隱私保護性。本研究使用USB介面的超聲波收音設備,錄製人體動作引發的聲波變化,並透過短時距傅立葉轉換(STFT)將訊號轉換為頻譜圖,以提取含有時頻解析度的特徵,接著使用ResNet-50卷積神經網路(CNN)進行手部動作分類。為驗證本方法之效能,本研究建立了一個包含五種手部動作及一類靜態背景的超聲波資料庫,並透過多位受試者進行測試以評估模型效能。實驗結果顯示,在特定實驗環境下,模型的辨識準確率可達95%;即使在不同受試者的推論測試中,仍能維持92%的表現。
  • Item
    結合頭部姿態估計與補償的視線追蹤
    (2025) 陳璽文; Chen, Xi-Wen
    本文提出了一種基於可見光影像的視線追蹤系統,採用單一高速相機,取代傳統依賴紅外光源或專用傳感器的方案,從而顯著提升了使用者體驗。然而,這種設置在補償頭部移動方面面臨更大的挑戰。為解決此問題,我們設計了一種新型視線追蹤系統,結合了精確的頭部姿態估計方法。該方法通過識別臉部特徵點並解決 2D 到 3D 的對應問題,獲取特徵點的 3D 坐標,進而估算頭部運動。該系統能夠實時更新眼球模型並準確計算虹膜區域的初始位置。實驗結果表明,當使用者進行輕微頭部移動或旋轉時,該系統能有效提高視線追蹤的精度與準確性。
  • Item
    基於圖像串接和深度學習的改良生咖啡豆分類方法
    (2024) 温鑫; Wen, Xin
    為了解決生咖啡豆在影像辨識上的分類困難並提升精確度,這篇論文提出了一種通過串接不同的影像增強技術來融合不同的特徵提取演算法,以提高對生咖啡豆的辨識準確率。為了從原始影像中獲得各種關鍵特徵,我們選用了自適應閾值、位元平面分割、黑帽運算、Canny邊緣偵測、灰階、直方圖等化、Laplacian濾波、頂帽運算與非銳化濾鏡九種常見的影像增強方法。我們提出先在原本九種影像增強算法中挑選出與基準真相相關性較高的方法,並且僅將原始影像的RGB影像平面替換成相關性較高的影像處理方法,藉著多種特徵提升模型辨識度。在這項研究中,我們使用MobileViT進行實驗,最後選擇相關性較高的處理方式作為特徵融合的素材,經過影像串接產生的影像資料集作為新的輸入重新訓練。我們將不進行任何影像增強的分類方法視為基準。在二分法中,位元平面分割、直方圖等化和非銳化濾鏡的組合達到了96.9%的準確率,相對於原始方法提高了約5.5%。如果使用去除背景的相同資料集,相同的組合可以達到了97.0%的準確率;當我們選擇三分法進行實驗時,同樣都是由位元平面分割、直方圖等化和非銳化濾鏡的組合,分別達到了96.8%以及97.4%的準確率,較原始方法提升6.7%與4.9%。最後我們使用MobileNetV3驗證研究結果,在二分法的情況下,相同的影像增強組合分別在未去除背景與去除背景的影像可以獲得最高的99.12%與99.21%的準確率,相較原始方法有0.39%與0.44%的提升;如果以三分法再次進行實驗,與原始方法比較,大約分別有0.92%以及0.79%的提升,取得了98.73%與99.25%的準確率。
  • Item
    針對空拍影像物件偵測之改良型YOLOv7演算法研究
    (2024) 鍾宜修; Chung, Yi-Hsiu
    近幾年無人機的技術發展迅速,飛行距離越來越遠、體積也不斷縮小,甚至能自動飛行,因此能應用的範圍也越來越廣泛,例如交通監測、工業或自然環境巡檢等等。另外隨著人工智慧的興起,現在無人機也會結合人工智慧演算法協助其辨識影像。由於無人機所拍攝的影像內物件往往尺寸偏小,且無人機本身的運算支援有限,因此如何提升小物件的辨識效果且同時降低模型運算時所需的資源至關重要。本論文以YOLOv7為基礎模型進行改良,提升它對小物件的偵測效果且同時降低模型參數量及計算量,我們以VisDrone-DET2019資料集來驗證模型改良成效。總共修改五種方式,第一種方式是將ELAN (Efficient Layer Aggregation Network)替換成M-ELAN (Modified Efficient Layer Aggregation Network),第二種方式是在高階特徵層添加M-FLAM (Modified Feature Layer Attention Module),第三種方式是將特徵融合的結構從PANet (Path Aggregation Network)改成ResFF (Residual Feature Fusion),第四種方式是將模型內下採樣的模塊改成I-MP模塊 (Improved MaxPool Module),最後一種方式是將SPPCSPC (Spatial Pyramid Pooling Cross Stage Partial Networks)替換成GSPP(Group Spatial Pyramid Pooling)。綜合以上方法,將mAP (mean Average Precision)提升1%,同時模型參數量卻下降24.5%,模型計算量GFLOPs (Giga Floating Point of Operations)也降低13.7%。
  • Item
    改良深度學習的人形機器人於高動態雜訊之視覺定位
    (2024) 隋嘉銘; Sue, Chia-Ming
    一些基於相機或其他技術的視覺 SLAM 方法已經被提出。 光學感測器來導航和了解其環境。例如, ORB-SLAM 是一個完 整的 SLAM 系統,包括視覺里程計、追蹤和定位 ORB-SLAM 僅 依賴使用單目視攝影機進行特徵偵測,但在與人形機器人一起工 作時,會出現嚴重的問題晃動模糊問題。深度學習已被證明對於穩健且即時的單眼影像重新定位是有 效的。視覺定位的深度學習是基於卷積神經網路來學習 6-DoF 姿 勢。 它對於複雜的照明和運動條件更加穩健。然而,深度學習的 問題是視覺定位方法的一個缺點是它們需要大量的資料集和對這 些資料集的準確標記。本文也提出了標記視覺定位資料和自動辨識的方法用於訓練 視覺定位的資料集。我們的標籤為基於 2D 平面( x 軸、 y 軸、 方向)的姿勢。最後,就結果而言可見,深度學習方法確實可以 解決運動模糊的問題。比較與我們以往的系統相比,視覺定位方 法減少了最大誤差率 31.73% ,平均錯誤率減少了 55.18% 。
  • Item
    基於雙重注意力機制之視網膜血管分割深度學習網路
    (2024) 胡景閎; Hu, Jing-Hung
    眼底影像之血管分割可以用來協助眼睛病灶的觀察,以提早發現病灶並進行治療,例如黃斑部病變、糖尿病視網膜病變、青光眼等等。由於眼底影像的採集會經過各種不同的程序而導致影像有不同的品質變化,眼底影像血管分割的精確度會影響病灶的判斷,儘管現今已存在許多影像分割方法,但是具有病灶的眼底圖像血管分支變化多端,現存各種分割方法的精確度也依舊無法達到完美,本研究目的為提出改良式眼底影像的血管分割方法,針對各種視網膜圖像,進行精確血管分割,以協助醫師對眼疾病變的診斷,期能對眼疾醫療做出微薄的貢獻。準確的血管分割是一項具有挑戰性的任務,主要是因為眼底影像的對比度低以及血管形態結構的複雜性,傳統卷積會增加乘法的數量,同時執行卷積操作,導致與細長且對比度低的血管相關信息損失。為了解決現有方法在血管提取時低敏感度以及信息損失的問題,本研究提出結合兩種注意力模型EPA以及DLA的並行注意力U-Net以實現準確的血管分割,EPA聚焦於空間以及通道的特徵提取,而DLA則專注於多尺度的局部特徵以及邊緣檢測的特徵,再將並行所得特徵進行深度和淺層特徵融合。本研究在DRIVE數據集上進行實驗,以驗證模型性能,研究結果指出,採用並行運算的U-Net模型分割視網膜血管具有競爭性效能。
  • Item
    應用深度學習演算法之海報文字區域檢測實驗
    (2022) 盧聖侃; Lu, Sheng-Kan
    近年來,數位化的廣泛應用也促使了互聯網的發展。伴隨著互聯網技術日新月異,大量的社交媒體和其他應用程式不斷推陳出新,數位圖像已然成為社會中一種主要的資訊獲取來源。在當今資訊量爆炸的社會裡,海報作為生活中最常見的資訊傳達媒介,成為生活中處處可見的藝術表現方式並充斥在現代人的生活當中。若能提出一個檢測方法來辨識海報中的文字區域,不僅能提取海報文字區域作為後續分析的資訊,也能使海報在網路中的更容易被使用者檢索。隨著深度學習的興起,越來越多研究者利用深度學習來完成影像分析及物件檢測。而其中,Mask R-CNN 與 Yolov4 分別代表著 two-stage 與 one-stage 的目標檢測方法,無論是在物件的瑕疵檢測、人臉的偵測、交通路況的偵測等領域都有很好的研究結果。然而,以上大多都是檢測自然場景物件,較少應用在平面設計的領域之中。基此,為了提取海報圖像的文字區域,本研究將訓練 Mask R-CNN 與Yolov4 兩個檢測方法,分別來對海報圖像文本進行檢測。實驗結果顯示,Mask R-CNN檢測文字區域的 mAP50 可達 79.0%;Yolov4 檢測文字區域的 mAP50 也高達 85.1%。意味著兩個目標檢測方法都可在海報版面中,定位出海報中文字區域,提供未來作為文字辨識的數據。而對比 Mask R-CNN 與 Yolov4 兩種演算法的輸出結果後,發現 Yolov4 可以更準確地檢測文字區域,並且較不受海報因色彩、文字大小、文字間隔等設計因素影響到檢測結果。