OCR是什么 ? OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備檢查紙上打印的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程。 而由于技術(shù)門檻相當(dāng)?shù)母?,能做中文OCR識(shí)別的公司并不多,所以那些獨(dú)立開發(fā)者開發(fā)的OCR軟件,一般都是借用大公司的API接口。
OCR文字識(shí)別的解碼主要難點(diǎn)在于如何進(jìn)行輸入輸出的對(duì)齊。 如上圖所示,如果每個(gè)1xn預(yù)測(cè)一個(gè)字符,那么可能會(huì)出現(xiàn)多個(gè)1xn預(yù)測(cè)同一個(gè)字符,這樣子得到的最終結(jié)果會(huì)產(chǎn)生重復(fù)字符。 所以需要設(shè)計(jì)針對(duì)文字識(shí)別的解碼算法來(lái)解決輸入輸出的對(duì)齊問題。
OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。 如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。
OCR技術(shù)的興起便是從印刷體識(shí)別開始的,印刷體識(shí)別的成功為后來(lái)手寫體的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。 印刷體識(shí)別的主要流程大致分為以下幾個(gè)部分:圖像預(yù)處理;版面處理;圖像切分;特征提取及模型訓(xùn)練;識(shí)別后處理。