OCR技(jì )術在檔案數字化中(zhōng)的運用(yòng)

作(zuò)者：大檔家時間：2020-11-18

什麽是OCR技(jì )術？

OCR是英文(wén)Optical Character Recognition的縮寫，中(zhōng)文(wén)含義為(wèi)光學(xué)字符識别，也稱為(wèi)文(wén)字識别，是文(wén)字自動輸入的一種方法。它通過掃描和攝像等光學(xué)輸入方式獲取紙張上的文(wén)字、圖像信息，利用(yòng)各種模式識别算法分(fēn)析文(wén)字形态特征，與漢字的标準編碼相比較從而判别不同的字符，并按通用(yòng)格式存儲在文(wén)本文(wén)件中(zhōng)，實現文(wén)本的編輯、檢索和存儲。所以，OCR技(jì )術是一種快捷、省力的文(wén)字輸入方式，實踐證明其在檔案信息數字化工(gōng)程中(zhōng)的作(zuò)用(yòng)愈來愈顯著。其運用(yòng)過程一般使用(yòng)掃描等光學(xué)輸入設備讀取紙張上的文(wén)字、圖像信息到計算機能(néng)識别的格式，如JPG、FDF、TIF、BMP等，再通過OCR軟件自動分(fēn)析比較生成可(kě)編輯的文(wén)本文(wén)件。

OCR技(jì )術的發展曆程

OCR的概念是由德(dé)國(guó)科(kē)學(xué)家Tausheck在1929年率先提出來，後來美國(guó)科(kē)學(xué)家Handel也提出了利用(yòng)計算機掃描等技(jì )術對文(wén)字進行識别的想法。而最早對印刷體(tǐ)漢字識别進行研究的是IBM公(gōng)司的Casey和Nagy，1966年他(tā)們發表了第一篇關于漢字識别的文(wén)章，采用(yòng)了模闆匹配法識别了1000個印刷體(tǐ)漢字。可(kě)以說是第一次把OCR從理(lǐ)論概念到實際運用(yòng)的實現。經過四十年各領域專家和學(xué)者的運用(yòng)和研究，以及計算機技(jì )術和光學(xué)掃描技(jì )術的不斷發展，OCR技(jì )術已經從原來的字符識别率低于50％到現在針對印刷體(tǐ)字符識别正确率達到了99％以上，并可(kě)以識别宋體(tǐ)、黑體(tǐ)、楷體(tǐ)等多(duō)種字體(tǐ)的簡、繁體(tǐ)；也可(kě)對多(duō)種字體(tǐ)、不同字号的混排進行識别；有(yǒu)的OCR技(jì )術識别速度很(hěn)快，1000字符控制在一二分(fēn)鍾之内，而且可(kě)以識别圖像、表格、文(wén)字混排的版面。所以從技(jì )術角度分(fēn)析當前的OCR技(jì )術完全可(kě)以運用(yòng)到檔案信息數字化工(gōng)程中(zhōng)，從應用(yòng)層面分(fēn)析OCR技(jì )術也已完全适合在檔案數字化中(zhōng)發揮其識别率高、速度快捷、批量處理(lǐ)等作(zuò)用(yòng)。

OCR軟件工(gōng)作(zuò)原理(lǐ)

OCR軟件一般是由圖像處理(lǐ)模塊、版面劃分(fēn)模塊、文(wén)字識别模塊和文(wén)字編輯模塊等四部分(fēn)組成。圖像處理(lǐ)模塊主要具(jù)有(yǒu)文(wén)稿掃描、圖像縮放、圖像旋轉等功能(néng)。通過掃描儀輸入後，文(wén)稿形成圖像文(wén)件，圖像處理(lǐ)模塊可(kě)對圖像進行放大，去除污點和劃痕等處理(lǐ)，目的是為(wèi)文(wén)字識别創造更好的條件，使識别率更高。版面劃分(fēn)模塊主要包括版面劃分(fēn)、更改劃分(fēn)，即對版面的理(lǐ)解、字切分(fēn)、歸一化等，目的是使OCR軟件将同一版面的文(wén)章、表格等分(fēn)開，以便分(fēn)别處理(lǐ)，并按照一定的順序進行識别。文(wén)字識别模塊是OCR軟件的核心部分(fēn)，主要對輸入的漢字進行"閱讀"，對于漢字通常是一個字、一個字的辨認，即單字識别，再進行統一歸類。文(wén)字識别模塊通過對不同樣本漢字的特征進行提取，完成識别，自動查找可(kě)疑字，具(jù)有(yǒu)前後聯想等功能(néng)。文(wén)字編輯模塊主要對OCR識别後的文(wén)字進行修改、編輯，如系統識别認為(wèi)有(yǒu)誤，則文(wén)字會以醒目的紅色或藍色顯示，并提供相似的文(wén)字供選擇，選擇編輯器供輸出等。所以随之OCR軟件的不斷完善和發展，越來越被圖書、檔案管理(lǐ)單位等需要成GB和TB容量的數據錄入行業所倚重和青睐。

OCR技(jì )術的發展得益于掃描儀和計算機硬件的迅速發展。盡管漢字量大、字形複雜，但随着OCR技(jì )術逐漸趨向成熟。許多(duō)OCR軟件不僅能(néng)識别黑白印刷體(tǐ)漢字，還能(néng)識别灰度和彩色印刷體(tǐ)漢字，同時，對于手寫體(tǐ)漢字識别的研究也取得了很(hěn)大進展，正确識别率已達到了70％以上。

OCR技(jì )術與檔案數字化的關系

檔案數字化發展曆程

回顧檔案現代化管理(lǐ)發展曆程，經曆過兩次實質(zhì)性的跨越式發展：第一次，二十世紀八十年代開始，檔案目錄實現計算機檢索，建立可(kě)供計算機檢索的檔案信息目錄數據庫（包括案卷級和文(wén)件級目錄）。第二次，從二十一世紀初開始，檔案信息數字化的管理(lǐ)與利用(yòng)，即通過對檔案信息的電(diàn)子掃描，建立檔案信息圖像文(wén)件以及全文(wén)信息數據庫，使用(yòng)戶可(kě)以做到在授權範圍内實現檔案信息任意關鍵詞的全文(wén)檢索和查閱。第一次的跨越式發展實際是從傳統的手工(gōng)管理(lǐ)向計算機數據庫管理(lǐ)的轉變，也就是機讀檔案目錄替換紙質(zhì)檔案目錄檢索，其關鍵技(jì )術是依托計算機數據庫技(jì )術。由于計算機掃描技(jì )術和存儲技(jì )術應用(yòng)費用(yòng)昂貴、工(gōng)序繁雜，以及檔案形成部門的電(diàn)子文(wén)件還沒有(yǒu)完全普及，所以在此過程中(zhōng)很(hěn)少涉及到全文(wén)檢索和利用(yòng)。而第二次跨越式發展實質(zhì)是徹底改變了傳統檔案信息管理(lǐ)中(zhōng)目錄級檢索和調卷的方法，真正把紙質(zhì)檔案信息通過數據錄入或計算機掃描技(jì )術以及OCR技(jì )術把檔案信息以數據庫和圖像格式保存在計算機存儲設備上，實現檔案信息的全文(wén)檢索和閱讀。其關鍵技(jì )術就是把文(wén)本類電(diàn)子文(wén)件中(zhōng)檔案信息提純出來，以數據庫形式存放，提供檢索和利用(yòng)，或者在案件級和文(wén)件級目錄下挂接電(diàn)子文(wén)件，如圖像格式（TIF、JPG、PDF）等，實現不進庫房，不調案卷，不翻實體(tǐ)，而利用(yòng)相當于原始紙質(zhì)檔案的信息，縮短了利用(yòng)時間、拓展了利用(yòng)人群、增加了利用(yòng)效果、提高了工(gōng)作(zuò)效率。

OCR技(jì )術與檔案數字化的關系

從當前流行的檔案數字化技(jì )術層面分(fēn)析，檔案的存儲技(jì )術、載體(tǐ)性質(zhì)、計算機運行和檢索速度都在發生着日新(xīn)月異的變化，但檔案的檢索技(jì )術從本質(zhì)上還是沒有(yǒu)改變，與傳統手工(gōng)目錄檢索一樣依賴于檔案案卷和卷内目錄。随着OCR技(jì )術的不斷完善，OCR軟件的識别正确率趨向完美以及辦(bàn)公(gōng)自動化軟件的推廣，檔案檢索技(jì )術得以突破目錄檢索的瓶頸，可(kě)以實現全文(wén)任何字符的檢索。這是自計算機數據庫技(jì )術、網絡技(jì )術以及存儲技(jì )術運用(yòng)于檔案管理(lǐ)後又(yòu)一個裏程碑式的發展，使檔案信息檢索技(jì )術實現了跨越式的發展，從根本上解決了檔案用(yòng)戶面對浩瀚檔案目錄無所适從、束手無策的局面。從OCR技(jì )術的發明到實際應用(yòng)一直沒有(yǒu)脫離計算機數據庫技(jì )術和文(wén)字輸入背景，也就是OCR技(jì )術的産(chǎn)生是為(wèi)了減輕批量文(wén)字輸入、打印工(gōng)作(zuò)量、提高工(gōng)作(zuò)效率，而檔案信息數字化的關鍵技(jì )術和工(gōng)作(zuò)也是海量文(wén)字的輸入和檢索，所以可(kě)以斷定OCR技(jì )術的産(chǎn)生和發展是檔案現代化管理(lǐ)或類似檔案管理(lǐ)行業在發展過程中(zhōng)，存在批量文(wén)字輸入計算機數據庫時，代替人工(gōng)單字或詞組輸入的最适合的方法之一。從技(jì )術層面講兩者的關系是相互依賴、相互發展、相互促進。

QQ截圖20201118140058.png

OCR技(jì )術在檔案數字化中(zhōng)的運用(yòng)研究

OCR技(jì )術在檔案數字化中(zhōng)的應用(yòng)

OCR技(jì )術在檔案數字化中(zhōng)運用(yòng)，主要過程是把紙質(zhì)載體(tǐ)檔案的信息内容利用(yòng)高速掃描儀轉換成計算機能(néng)識别的圖像文(wén)件，如JPG、TIF或合成多(duō)頁(yè)的PDF文(wén)件，再利用(yòng)OCR軟件的字符識别功能(néng)把不能(néng)編輯的圖像文(wén)件和PDF文(wén)件中(zhōng)每個字符與标準的漢字數據庫中(zhōng)字符對比，截取相同形狀的字符并保存在文(wén)本編輯軟件中(zhōng)，保持能(néng)編輯的狀态，并可(kě)以進行自動标引或運用(yòng)各類數據庫軟件的搜索引擎針對字符搜索，以達到檔案信息的全文(wén)檢索。

在實際檔案全文(wén)數字化過程中(zhōng)一般先把一份文(wén)件掃描成多(duō)頁(yè)JPG、TIF或PDF文(wén)件，再運用(yòng)OCR軟件識别并判斷識别效果，并進行必要的調整和修複就可(kě)以到達全文(wén)數字化的要求。

在掃描生成頁(yè)面後，OCR技(jì )術針對印刷體(tǐ)的頁(yè)面文(wén)件一般識别率可(kě)達98％以上，在自動糾錯、人工(gōng)校對後，基本符合檔案數字化的要求。從掃描和識别的速度分(fēn)析，一般中(zhōng)檔掃描儀每分(fēn)鍾掃描在40－60頁(yè)面左右，配合主流OCR識别軟件以及處理(lǐ)、分(fēn)析、校對每頁(yè)檔案全文(wén)數字化用(yòng)時在1分(fēn)鍾以内，裝(zhuāng)訂50個頁(yè)面的案卷數字化時間在30分(fēn)鍾左右。與人工(gōng)單字符輸入法相比，工(gōng)作(zuò)效率提高近十倍，工(gōng)作(zuò)強度成倍減少。運用(yòng)OCR識别技(jì )術進行檔案全文(wén)數字化，工(gōng)作(zuò)人員可(kě)以長(cháng)時間連續工(gōng)作(zuò)，而純人工(gōng)輸入連續工(gōng)作(zuò)的後果是差錯率的居高不下，從而影響檔案信息全文(wén)的檢索和使用(yòng)。

OCR技(jì )術在全文(wén)輸入中(zhōng)的作(zuò)用(yòng)

OCR技(jì )術在檔案全文(wén)檢索技(jì )術中(zhōng)的運用(yòng)主要在于實現檔案全文(wén)數據庫的輸入工(gōng)作(zuò)。如針對一卷50頁(yè)的案卷，案卷和卷内目錄一般不超過51個，而全部目錄在數據庫著錄時，對于熟悉計算機輸入的人來講不費吹灰之力，幾分(fēn)鍾或更長(cháng)點時間就可(kě)以完成，但是如需做到全文(wén)任何關鍵詞檢索，必須把每個頁(yè)面上的漢字字符（可(kě)能(néng)超過500個）輸入計算機數據庫，50頁(yè)的文(wén)件可(kě)能(néng)有(yǒu)漢字字符25000個左右，以1分(fēn)鍾輸入100中(zhōng)文(wén)字符計算，連續不斷地輸入也需要4個多(duō)小(xiǎo)時。所以面對浩瀚如海的館藏檔案案卷以及每日俱增的新(xīn)歸檔案卷，依賴單個字符的輸入法和數量相對較少的檔案工(gōng)作(zuò)人員是無法完成如此巨大的全文(wén)輸入工(gōng)作(zuò)量。在檔案管理(lǐ)工(gōng)作(zuò)中(zhōng)館藏量和增量檔案一般很(hěn)難縮小(xiǎo)和控制，工(gōng)作(zuò)人員數量很(hěn)難大幅度增加，所以唯有(yǒu)改變數據的輸入方式，提高輸入效率。OCR技(jì )術正是彌補了單字符輸入速度慢的不足，OCR識别率的大幅提高更是填補單字符輸入差錯率高的缺陷。因此從當前檔案全文(wén)數字的工(gōng)作(zuò)量以及計算機輸入和各種文(wén)字識别技(jì )術的功效來判定，OCR技(jì )術是比較适應檔案全文(wén)數字化的一種技(jì )術，是實現檔案全文(wén)數字化的技(jì )術基礎和實現途徑之一

OCR技(jì )術的缺陷和彌補方法

經過OCR技(jì )術在檔案數字化過程中(zhōng)的實際運用(yòng)，其掃描高速、識别快捷、高效等優勢顯而易見，但是這畢竟是依賴于計算機和人工(gōng)智能(néng)等技(jì )術，也存在一些先天缺陷，如針對手寫字迹，特别是保存時間較長(cháng)的曆史檔案，其識别率往往較低，甚至識别成一堆亂碼，使人無法閱讀。針對這種OCR技(jì )術的缺陷，第一種彌補方法是進行掃描和OCR識别後，實行人工(gōng)校對識别文(wén)字，盡量保持OCR文(wén)字與原始頁(yè)面内容一緻，雖然所需時間、精(jīng)力較多(duō)，但畢竟可(kě)以實現檔案全文(wén)檢索，值得嘗試和運用(yòng)；第二種彌補方法是從OCR識别率極低考慮，從現在的OCR技(jì )術以及相關技(jì )術的局限性出發，隻能(néng)考慮手工(gōng)全文(wén)輸入或掃描成圖像文(wén)件後，放棄全文(wén)檢索功能(néng)直接挂接到文(wén)件目錄中(zhōng)，做到文(wén)件級目錄檢索。在針對一些陳舊紙質(zhì)檔案，頁(yè)面泛黃、局部生有(yǒu)黴斑或受污染的檔案，在OCR過程中(zhōng)也經常把其識别成文(wén)字或亂碼。其彌補方法是在掃描成多(duō)頁(yè)JPG或TIF或PDF文(wén)件後進行人工(gōng)修複，把原來是文(wén)字部分(fēn)以外的頁(yè)面進行清潔處理(lǐ)（删除或複制成空白）。也可(kě)以對整個頁(yè)面進行補光或柔化處理(lǐ)，使沒有(yǒu)文(wén)字部分(fēn)頁(yè)面接近白色，識别過程中(zhōng)OCR軟件不會把其當成文(wén)字或圖像處理(lǐ)，從而達到檔案信息數字化的要求。

結語

随着信息化社會的不斷發展，計算機網絡技(jì )術的不斷普及，檔案利用(yòng)人群對檔案信息的檢索準确率、查全率的要求越來越高，而傳統的案卷級和文(wén)件級目錄檢索技(jì )術已經無法适應當前網絡時代的搜索要求，檔案全文(wén)數字化是檔案管理(lǐ)發展的必然趨勢。采用(yòng)高性價比的數字化方法，在最短的時間内把檔案全文(wén)進行數字化是檔案管理(lǐ)者必須考慮的發展戰略，縱觀并比較當前的各類檔案數字化技(jì )術，使用(yòng)高速掃描和OCR技(jì )術以及計算機全文(wén)數據庫技(jì )術是實現檔案信息數字化比較适合的方法。

作(zuò)者：徐忠勇單位｜上海大學(xué)檔案館

（圖文(wén)來自網絡，轉載僅做交流分(fēn)享，若有(yǒu)侵權請聯系删除）