摘要
離線手寫中文文字辨識多年來一直是文字辨識的重要問題,其困難的原因是因為不同的使用者字跡變異度很大或文字書寫文字不明顯等問題,以致難以藉由資料庫的統計特徵而達到正確的文字辨識。近年來,有關自然語言處理的研究快速增加,這些技術包括中文斷詞、詞性標記、語意分析等。因此運用自然語言處理的技術,提高離線手寫中文文字辨識系統的辨識能力,進一步提高文字辨識的辨識率,是解決文字辨識問題的可能方法之一。目前文字辨識大多利用特徵擷取或文字結構與已知字進行比對,並從許多可能的候選字中挑選出最符合模型結論的文字。然而從實際運作環境中,我們可以發現雖然許多正確字都出現在前面排序的候選字中,卻因為只能挑選最符合模型計算值的字而失之交臂。因此如何從候選字集中進一步有效地挑選正確字,成為改善辨識率的可能途徑之一。本研究的目的在利用文字在語料集中出現的語法及詞彙模式來進行提高中文手寫文本文字的辨識率。我們採用以整句為辨識處理單位,藉由辨識候選字與候選字在同句發生的可能性進一步修正挑選的文字,換句話說,假設一個句子的文字個數為M,每個字有N個候選字,則我們的目標是從N的M次方個可能句子中,挑選出一組正確的文字組合,該組合符合日常生活中人所說的語言規則。本研究提出一個三階段方法來達成研究目標。首先、我們使用詞彙優先概念從可能組合中挑選語料庫詞彙的組合做為挑選字。第二、尋找在第一階段未確認的字中是否出現特定的文法組合,並以該組合的候選字做為挑選依據。第三階段則將相鄰兩個仍未決定的文字、各自挑選一個候選字組成字串組,並與語料庫出現的字串組進行比對,而以共發生機率最高的組合做為挑選依據。實驗結果可以顯示這個方法可以有效提高辨識率,由單一字頻決定法的0.45提升至0.85。
貢獻的翻譯標題 | Revision for recognizing Chinese handwritten sentences based on lexical, syntactical and corpus rules |
---|---|
原文 | ???core.languages.zh_TW??? |
頁面 | 227-239 |
頁數 | 13 |
出版狀態 | Published - 8 9月 2011 |
事件 | 23rd Conference on Computational Linguistics and Speech Processing, ROCLING 2011 - Taipei, Taiwan 持續時間: 8 9月 2011 → 9 9月 2011 |
Conference
Conference | 23rd Conference on Computational Linguistics and Speech Processing, ROCLING 2011 |
---|---|
國家/地區 | Taiwan |
城市 | Taipei |
期間 | 8/09/11 → 9/09/11 |
Keywords
- Corpus rules
- Handwritten Chinese character recognition
- Lexical rules
- Offline recognition
- Syntactic rules