Browsing by Author "張國恩老師"

Now showing 1 - 1 of 1

使用支援向量機進行中文文本可讀性分類-以國小國語課文為例
(2011) 胡夢珂
語文能力在各方面都扮演著重要的角色。而獲取語文能力最重要、最直接的管道之一就是透過閱讀。可讀性可以評估一個文本是否適合閱讀者的閱讀能力。以往的研究指出可讀性公式是一個工具，可以把對於不同教育程度的讀者所閱讀的文章加以調整。英文文本的可讀性研究很早就出現了，可是中文領域這方面的研究不多，而中文能力在現今社會又是一個很主要的趨勢。因此，一個適合文本可讀性的分類方法是很重要的。過去西方學者因為過去技術的不足多採用線性的可讀性公式對文本做可讀性分類，而線性的可讀性公式對本研究的資料有些限制，因此本研究的目的在建立一個由支援向量機(Support Vector Machine，SVM)所訓練產生的預測模型，將國小的國語科課文做可讀性的分類。進而觀察預測的課文跟原來實際的課文的年級是否相符，並針對錯誤的課文做分析，以改善與謀求分類上的準確性。本研究以課程專家編撰，經國家編審單位審定的三個民間版本教科書(H版、K版、N版)，國小一年級至六年級國語科課文刪減掉新詩、絕句、古文、律詩的課文後共計386篇為實驗資料，將課文一部分做為訓練資料，另一部分課文為測試資料，透過中文斷詞的處理及資料格式的轉換，最後以SVM來對文本的可讀性進行分類。研究結果發現：利用LIBSVM預測國小國語科課文冊別的準確率(accuracy)為47.92%、正確率(fit rate)為80.31%。最後針對預測錯誤的課文做錯誤分析，了解是甚麼因素造成預測上的錯誤。