0551-63838842

OCR技術在檔案數字化中(zhōng)的運用

作者:大(dà)檔家時間:2020-11-18

什麽是OCR技術?

OCR是英文Optical Character Recognition的縮寫,中(zhōng)文含義爲光學字符識别,也稱爲文字識别,是文字自動輸入的一(yī)種方法。它通過掃描和攝像等光學輸入方式獲取紙(zhǐ)張上的文字、圖像信息,利用各種模式識别算法分(fēn)析文字形态特征,與漢字的标準編碼相比較從而判别不同的字符,并按通用格式存儲在文本文件中(zhōng),實現文本的編輯、檢索和存儲。所以,OCR技術是一(yī)種快捷、省力的文字輸入方式,實踐證明其在檔案信息數字化工(gōng)程中(zhōng)的作用愈來愈顯著。其運用過程一(yī)般使用掃描等光學輸入設備讀取紙(zhǐ)張上的文字、圖像信息到計算機能識别的格式,如JPG、FDF、TIF、BMP等,再通過OCR軟件自動分(fēn)析比較生(shēng)成可編輯的文本文件。


OCR技術的發展曆程

OCR的概念是由德國科學家Tausheck在1929年率先提出來,後來美國科學家Handel也提出了利用計算機掃描等技術對文字進行識别的想法。而最早對印刷體(tǐ)漢字識别進行研究的是IBM公司的Casey和Nagy,1966年他們發表了第一(yī)篇關于漢字識别的文章,采用了模闆匹配法識别了1000個印刷體(tǐ)漢字。可以說是第一(yī)次把OCR從理論概念到實際運用的實現。經過四十年各領域專家和學者的運用和研究,以及計算機技術和光學掃描技術的不斷發展,OCR技術已經從原來的字符識别率低于50%到現在針對印刷體(tǐ)字符識别正确率達到了99%以上,并可以識别宋體(tǐ)、黑體(tǐ)、楷體(tǐ)等多種字體(tǐ)的簡、繁體(tǐ);也可對多種字體(tǐ)、不同字号的混排進行識别;有的OCR技術識别速度很快,1000字符控制在一(yī)二分(fēn)鍾之内,而且可以識别圖像、表格、文字混排的版面。所以從技術角度分(fēn)析當前的OCR技術完全可以運用到檔案信息數字化工(gōng)程中(zhōng),從應用層面分(fēn)析OCR技術也已完全适合在檔案數字化中(zhōng)發揮其識别率高、速度快捷、批量處理等作用。


OCR軟件工(gōng)作原理

OCR軟件一(yī)般是由圖像處理模塊、版面劃分(fēn)模塊、文字識别模塊和文字編輯模塊等四部分(fēn)組成。圖像處理模塊主要具有文稿掃描、圖像縮放(fàng)、圖像旋轉等功能。通過掃描儀輸入後,文稿形成圖像文件,圖像處理模塊可對圖像進行放(fàng)大(dà),去(qù)除污點和劃痕等處理,目的是爲文字識别創造更好的條件,使識别率更高。版面劃分(fēn)模塊主要包括版面劃分(fēn)、更改劃分(fēn),即對版面的理解、字切分(fēn)、歸一(yī)化等,目的是使OCR軟件将同一(yī)版面的文章、表格等分(fēn)開(kāi),以便分(fēn)别處理,并按照一(yī)定的順序進行識别。文字識别模塊是OCR軟件的核心部分(fēn),主要對輸入的漢字進行"閱讀",對于漢字通常是一(yī)個字、一(yī)個字的辨認,即單字識别,再進行統一(yī)歸類。文字識别模塊通過對不同樣本漢字的特征進行提取,完成識别,自動查找可疑字,具有前後聯想等功能。文字編輯模塊主要對OCR識别後的文字進行修改、編輯,如系統識别認爲有誤,則文字會以醒目的紅色或藍(lán)色顯示,并提供相似的文字供選擇,選擇編輯器供輸出等。所以随之OCR軟件的不斷完善和發展,越來越被圖書(shū)、檔案管理單位等需要成GB和TB容量的數據錄入行業所倚重和青睐。

OCR技術的發展得益于掃描儀和計算機硬件的迅速發展。盡管漢字量大(dà)、字形複雜(zá),但随着OCR技術逐漸趨向成熟。許多OCR軟件不僅能識别黑白(bái)印刷體(tǐ)漢字,還能識别灰度和彩色印刷體(tǐ)漢字,同時,對于手寫體(tǐ)漢字識别的研究也取得了很大(dà)進展,正确識别率已達到了70%以上。


OCR技術與檔案數字化的關系

檔案數字化發展曆程

回顧檔案現代化管理發展曆程,經曆過兩次實質性的跨越式發展:第一(yī)次,二十世紀八十年代開(kāi)始,檔案目錄實現計算機檢索,建立可供計算機檢索的檔案信息目錄數據庫(包括案卷級和文件級目錄)。第二次,從二十一(yī)世紀初開(kāi)始,檔案信息數字化的管理與利用,即通過對檔案信息的電(diàn)子掃描,建立檔案信息圖像文件以及全文信息數據庫,使用戶可以做到在授權範圍内實現檔案信息任意關鍵詞的全文檢索和查閱。第一(yī)次的跨越式發展實際是從傳統的手工(gōng)管理向計算機數據庫管理的轉變,也就是機讀檔案目錄替換紙(zhǐ)質檔案目錄檢索,其關鍵技術是依托計算機數據庫技術。由于計算機掃描技術和存儲技術應用費(fèi)用昂貴、工(gōng)序繁雜(zá),以及檔案形成部門的電(diàn)子文件還沒有完全普及,所以在此過程中(zhōng)很少涉及到全文檢索和利用。而第二次跨越式發展實質是徹底改變了傳統檔案信息管理中(zhōng)目錄級檢索和調卷的方法,真正把紙(zhǐ)質檔案信息通過數據錄入或計算機掃描技術以及OCR技術把檔案信息以數據庫和圖像格式保存在計算機存儲設備上,實現檔案信息的全文檢索和閱讀。其關鍵技術就是把文本類電(diàn)子文件中(zhōng)檔案信息提純出來,以數據庫形式存放(fàng),提供檢索和利用,或者在案件級和文件級目錄下(xià)挂接電(diàn)子文件,如圖像格式(TIF、JPG、PDF)等,實現不進庫房,不調案卷,不翻實體(tǐ),而利用相當于原始紙(zhǐ)質檔案的信息,縮短了利用時間、拓展了利用人群、增加了利用效果、提高了工(gōng)作效率。


OCR技術與檔案數字化的關系

從當前流行的檔案數字化技術層面分(fēn)析,檔案的存儲技術、載體(tǐ)性質、計算機運行和檢索速度都在發生(shēng)着日新月異的變化,但檔案的檢索技術從本質上還是沒有改變,與傳統手工(gōng)目錄檢索一(yī)樣依賴于檔案案卷和卷内目錄。随着OCR技術的不斷完善,OCR軟件的識别正确率趨向完美以及辦公自動化軟件的推廣,檔案檢索技術得以突破目錄檢索的瓶頸,可以實現全文任何字符的檢索。這是自計算機數據庫技術、網絡技術以及存儲技術運用于檔案管理後又(yòu)一(yī)個裏程碑式的發展,使檔案信息檢索技術實現了跨越式的發展,從根本上解決了檔案用戶面對浩瀚檔案目錄無所适從、束手無策的局面。從OCR技術的發明到實際應用一(yī)直沒有脫離(lí)計算機數據庫技術和文字輸入背景,也就是OCR技術的産生(shēng)是爲了減輕批量文字輸入、打印工(gōng)作量、提高工(gōng)作效率,而檔案信息數字化的關鍵技術和工(gōng)作也是海量文字的輸入和檢索,所以可以斷定OCR技術的産生(shēng)和發展是檔案現代化管理或類似檔案管理行業在發展過程中(zhōng),存在批量文字輸入計算機數據庫時,代替人工(gōng)單字或詞組輸入的最适合的方法之一(yī)。從技術層面講兩者的關系是相互依賴、相互發展、相互促進。

QQ截圖20201118140058.png


OCR技術在檔案數字化中(zhōng)的運用研究

OCR技術在檔案數字化中(zhōng)的應用

OCR技術在檔案數字化中(zhōng)運用,主要過程是把紙(zhǐ)質載體(tǐ)檔案的信息内容利用高速掃描儀轉換成計算機能識别的圖像文件,如JPG、TIF或合成多頁的PDF文件,再利用OCR軟件的字符識别功能把不能編輯的圖像文件和PDF文件中(zhōng)每個字符與标準的漢字數據庫中(zhōng)字符對比,截取相同形狀的字符并保存在文本編輯軟件中(zhōng),保持能編輯的狀态,并可以進行自動标引或運用各類數據庫軟件的搜索引擎針對字符搜索,以達到檔案信息的全文檢索。 

在實際檔案全文數字化過程中(zhōng)一(yī)般先把一(yī)份文件掃描成多頁JPG、TIF或PDF文件,再運用OCR軟件識别并判斷識别效果,并進行必要的調整和修複就可以到達全文數字化的要求。

在掃描生(shēng)成頁面後,OCR技術針對印刷體(tǐ)的頁面文件一(yī)般識别率可達98%以上,在自動糾錯、人工(gōng)校對後,基本符合檔案數字化的要求。從掃描和識别的速度分(fēn)析,一(yī)般中(zhōng)檔掃描儀每分(fēn)鍾掃描在40-60頁面左右,配合主流OCR識别軟件以及處理、分(fēn)析、校對每頁檔案全文數字化用時在1分(fēn)鍾以内,裝訂50個頁面的案卷數字化時間在30分(fēn)鍾左右。與人工(gōng)單字符輸入法相比,工(gōng)作效率提高近十倍,工(gōng)作強度成倍減少。運用OCR識别技術進行檔案全文數字化,工(gōng)作人員(yuán)可以長時間連續工(gōng)作,而純人工(gōng)輸入連續工(gōng)作的後果是差錯率的居高不下(xià),從而影響檔案信息全文的檢索和使用。


OCR技術在全文輸入中(zhōng)的作用

OCR技術在檔案全文檢索技術中(zhōng)的運用主要在于實現檔案全文數據庫的輸入工(gōng)作。如針對一(yī)卷50頁的案卷,案卷和卷内目錄一(yī)般不超過51個,而全部目錄在數據庫著錄時,對于熟悉計算機輸入的人來講不費(fèi)吹灰之力,幾分(fēn)鍾或更長點時間就可以完成,但是如需做到全文任何關鍵詞檢索,必須把每個頁面上的漢字字符(可能超過500個)輸入計算機數據庫,50頁的文件可能有漢字字符25000個左右,以1分(fēn)鍾輸入100中(zhōng)文字符計算,連續不斷地輸入也需要4個多小(xiǎo)時。所以面對浩瀚如海的館藏檔案案卷以及每日俱增的新歸檔案卷,依賴單個字符的輸入法和數量相對較少的檔案工(gōng)作人員(yuán)是無法完成如此巨大(dà)的全文輸入工(gōng)作量。在檔案管理工(gōng)作中(zhōng)館藏量和增量檔案一(yī)般很難縮小(xiǎo)和控制,工(gōng)作人員(yuán)數量很難大(dà)幅度增加,所以唯有改變數據的輸入方式,提高輸入效率。OCR技術正是彌補了單字符輸入速度慢(màn)的不足,OCR識别率的大(dà)幅提高更是填補單字符輸入差錯率高的缺陷。因此從當前檔案全文數字的工(gōng)作量以及計算機輸入和各種文字識别技術的功效來判定,OCR技術是比較适應檔案全文數字化的一(yī)種技術,是實現檔案全文數字化的技術基礎和實現途徑之一(yī)


OCR技術的缺陷和彌補方法

經過OCR技術在檔案數字化過程中(zhōng)的實際運用,其掃描高速、識别快捷、高效等優勢顯而易見,但是這畢竟是依賴于計算機和人工(gōng)智能等技術,也存在一(yī)些先天缺陷,如針對手寫字迹,特别是保存時間較長的曆史檔案,其識别率往往較低,甚至識别成一(yī)堆亂碼,使人無法閱讀。針對這種OCR技術的缺陷,第一(yī)種彌補方法是進行掃描和OCR識别後,實行人工(gōng)校對識别文字,盡量保持OCR文字與原始頁面内容一(yī)緻,雖然所需時間、精力較多,但畢竟可以實現檔案全文檢索,值得嘗試和運用;第二種彌補方法是從OCR識别率極低考慮,從現在的OCR技術以及相關技術的局限性出發,隻能考慮手工(gōng)全文輸入或掃描成圖像文件後,放(fàng)棄全文檢索功能直接挂接到文件目錄中(zhōng),做到文件級目錄檢索。在針對一(yī)些陳舊(jiù)紙(zhǐ)質檔案,頁面泛黃、局部生(shēng)有黴斑或受污染的檔案,在OCR過程中(zhōng)也經常把其識别成文字或亂碼。其彌補方法是在掃描成多頁JPG或TIF或PDF文件後進行人工(gōng)修複,把原來是文字部分(fēn)以外(wài)的頁面進行清潔處理(删除或複制成空白(bái))。也可以對整個頁面進行補光或柔化處理,使沒有文字部分(fēn)頁面接近白(bái)色,識别過程中(zhōng)OCR軟件不會把其當成文字或圖像處理,從而達到檔案信息數字化的要求。


結語

随着信息化社會的不斷發展,計算機網絡技術的不斷普及,檔案利用人群對檔案信息的檢索準确率、查全率的要求越來越高,而傳統的案卷級和文件級目錄檢索技術已經無法适應當前網絡時代的搜索要求,檔案全文數字化是檔案管理發展的必然趨勢。采用高性價比的數字化方法,在最短的時間内把檔案全文進行數字化是檔案管理者必須考慮的發展戰略,縱觀并比較當前的各類檔案數字化技術,使用高速掃描和OCR技術以及計算機全文數據庫技術是實現檔案信息數字化比較适合的方法。









作者:徐忠勇單位|上海大(dà)學檔案館


(圖文來自網絡,轉載僅做交流分(fēn)享,若有侵權請聯系删除)


分(fēn)享到QQ
分(fēn)享到微信
分(fēn)享到微博
【免責聲明】當您認爲本文的知(zhī)識産權或其他合法權益被侵犯,或者頁面信息有誤需要糾正或者删除,請聯系客服。

掃一(yī)掃 關注我(wǒ)們

咨詢電(diàn)話(huà)

0551-63838842
18505518392
15155971385