作(zuò)者:大檔家時間:2020-11-18
什麽是OCR技(jì )術?
OCR是英文(wén)Optical Character Recognition的縮寫,中(zhōng)文(wén)含義為(wèi)光學(xué)字符識别,也稱為(wèi)文(wén)字識别,是文(wén)字自動輸入的一種方法。它通過掃描和攝像等光學(xué)輸入方式獲取紙張上的文(wén)字、圖像信息,利用(yòng)各種模式識别算法分(fēn)析文(wén)字形态特征,與漢字的标準編碼相比較從而判别不同的字符,并按通用(yòng)格式存儲在文(wén)本文(wén)件中(zhōng),實現文(wén)本的編輯、檢索和存儲。所以,OCR技(jì )術是一種快捷、省力的文(wén)字輸入方式,實踐證明其在檔案信息數字化工(gōng)程中(zhōng)的作(zuò)用(yòng)愈來愈顯著。其運用(yòng)過程一般使用(yòng)掃描等光學(xué)輸入設備讀取紙張上的文(wén)字、圖像信息到計算機能(néng)識别的格式,如JPG、FDF、TIF、BMP等,再通過OCR軟件自動分(fēn)析比較生成可(kě)編輯的文(wén)本文(wén)件。
OCR技(jì )術的發展曆程
OCR的概念是由德(dé)國(guó)科(kē)學(xué)家Tausheck在1929年率先提出來,後來美國(guó)科(kē)學(xué)家Handel也提出了利用(yòng)計算機掃描等技(jì )術對文(wén)字進行識别的想法。而最早對印刷體(tǐ)漢字識别進行研究的是IBM公(gōng)司的Casey和Nagy,1966年他(tā)們發表了第一篇關于漢字識别的文(wén)章,采用(yòng)了模闆匹配法識别了1000個印刷體(tǐ)漢字。可(kě)以說是第一次把OCR從理(lǐ)論概念到實際運用(yòng)的實現。經過四十年各領域專家和學(xué)者的運用(yòng)和研究,以及計算機技(jì )術和光學(xué)掃描技(jì )術的不斷發展,OCR技(jì )術已經從原來的字符識别率低于50%到現在針對印刷體(tǐ)字符識别正确率達到了99%以上,并可(kě)以識别宋體(tǐ)、黑體(tǐ)、楷體(tǐ)等多(duō)種字體(tǐ)的簡、繁體(tǐ);也可(kě)對多(duō)種字體(tǐ)、不同字号的混排進行識别;有(yǒu)的OCR技(jì )術識别速度很(hěn)快,1000字符控制在一二分(fēn)鍾之内,而且可(kě)以識别圖像、表格、文(wén)字混排的版面。所以從技(jì )術角度分(fēn)析當前的OCR技(jì )術完全可(kě)以運用(yòng)到檔案信息數字化工(gōng)程中(zhōng),從應用(yòng)層面分(fēn)析OCR技(jì )術也已完全适合在檔案數字化中(zhōng)發揮其識别率高、速度快捷、批量處理(lǐ)等作(zuò)用(yòng)。
OCR軟件工(gōng)作(zuò)原理(lǐ)
OCR軟件一般是由圖像處理(lǐ)模塊、版面劃分(fēn)模塊、文(wén)字識别模塊和文(wén)字編輯模塊等四部分(fēn)組成。圖像處理(lǐ)模塊主要具(jù)有(yǒu)文(wén)稿掃描、圖像縮放、圖像旋轉等功能(néng)。通過掃描儀輸入後,文(wén)稿形成圖像文(wén)件,圖像處理(lǐ)模塊可(kě)對圖像進行放大,去除污點和劃痕等處理(lǐ),目的是為(wèi)文(wén)字識别創造更好的條件,使識别率更高。版面劃分(fēn)模塊主要包括版面劃分(fēn)、更改劃分(fēn),即對版面的理(lǐ)解、字切分(fēn)、歸一化等,目的是使OCR軟件将同一版面的文(wén)章、表格等分(fēn)開,以便分(fēn)别處理(lǐ),并按照一定的順序進行識别。文(wén)字識别模塊是OCR軟件的核心部分(fēn),主要對輸入的漢字進行"閱讀",對于漢字通常是一個字、一個字的辨認,即單字識别,再進行統一歸類。文(wén)字識别模塊通過對不同樣本漢字的特征進行提取,完成識别,自動查找可(kě)疑字,具(jù)有(yǒu)前後聯想等功能(néng)。文(wén)字編輯模塊主要對OCR識别後的文(wén)字進行修改、編輯,如系統識别認為(wèi)有(yǒu)誤,則文(wén)字會以醒目的紅色或藍色顯示,并提供相似的文(wén)字供選擇,選擇編輯器供輸出等。所以随之OCR軟件的不斷完善和發展,越來越被圖書、檔案管理(lǐ)單位等需要成GB和TB容量的數據錄入行業所倚重和青睐。
OCR技(jì )術的發展得益于掃描儀和計算機硬件的迅速發展。盡管漢字量大、字形複雜,但随着OCR技(jì )術逐漸趨向成熟。許多(duō)OCR軟件不僅能(néng)識别黑白印刷體(tǐ)漢字,還能(néng)識别灰度和彩色印刷體(tǐ)漢字,同時,對于手寫體(tǐ)漢字識别的研究也取得了很(hěn)大進展,正确識别率已達到了70%以上。
OCR技(jì )術與檔案數字化的關系
檔案數字化發展曆程
回顧檔案現代化管理(lǐ)發展曆程,經曆過兩次實質(zhì)性的跨越式發展:第一次,二十世紀八十年代開始,檔案目錄實現計算機檢索,建立可(kě)供計算機檢索的檔案信息目錄數據庫(包括案卷級和文(wén)件級目錄)。第二次,從二十一世紀初開始,檔案信息數字化的管理(lǐ)與利用(yòng),即通過對檔案信息的電(diàn)子掃描,建立檔案信息圖像文(wén)件以及全文(wén)信息數據庫,使用(yòng)戶可(kě)以做到在授權範圍内實現檔案信息任意關鍵詞的全文(wén)檢索和查閱。第一次的跨越式發展實際是從傳統的手工(gōng)管理(lǐ)向計算機數據庫管理(lǐ)的轉變,也就是機讀檔案目錄替換紙質(zhì)檔案目錄檢索,其關鍵技(jì )術是依托計算機數據庫技(jì )術。由于計算機掃描技(jì )術和存儲技(jì )術應用(yòng)費用(yòng)昂貴、工(gōng)序繁雜,以及檔案形成部門的電(diàn)子文(wén)件還沒有(yǒu)完全普及,所以在此過程中(zhōng)很(hěn)少涉及到全文(wén)檢索和利用(yòng)。而第二次跨越式發展實質(zhì)是徹底改變了傳統檔案信息管理(lǐ)中(zhōng)目錄級檢索和調卷的方法,真正把紙質(zhì)檔案信息通過數據錄入或計算機掃描技(jì )術以及OCR技(jì )術把檔案信息以數據庫和圖像格式保存在計算機存儲設備上,實現檔案信息的全文(wén)檢索和閱讀。其關鍵技(jì )術就是把文(wén)本類電(diàn)子文(wén)件中(zhōng)檔案信息提純出來,以數據庫形式存放,提供檢索和利用(yòng),或者在案件級和文(wén)件級目錄下挂接電(diàn)子文(wén)件,如圖像格式(TIF、JPG、PDF)等,實現不進庫房,不調案卷,不翻實體(tǐ),而利用(yòng)相當于原始紙質(zhì)檔案的信息,縮短了利用(yòng)時間、拓展了利用(yòng)人群、增加了利用(yòng)效果、提高了工(gōng)作(zuò)效率。
OCR技(jì )術與檔案數字化的關系
從當前流行的檔案數字化技(jì )術層面分(fēn)析,檔案的存儲技(jì )術、載體(tǐ)性質(zhì)、計算機運行和檢索速度都在發生着日新(xīn)月異的變化,但檔案的檢索技(jì )術從本質(zhì)上還是沒有(yǒu)改變,與傳統手工(gōng)目錄檢索一樣依賴于檔案案卷和卷内目錄。随着OCR技(jì )術的不斷完善,OCR軟件的識别正确率趨向完美以及辦(bàn)公(gōng)自動化軟件的推廣,檔案檢索技(jì )術得以突破目錄檢索的瓶頸,可(kě)以實現全文(wén)任何字符的檢索。這是自計算機數據庫技(jì )術、網絡技(jì )術以及存儲技(jì )術運用(yòng)于檔案管理(lǐ)後又(yòu)一個裏程碑式的發展,使檔案信息檢索技(jì )術實現了跨越式的發展,從根本上解決了檔案用(yòng)戶面對浩瀚檔案目錄無所适從、束手無策的局面。從OCR技(jì )術的發明到實際應用(yòng)一直沒有(yǒu)脫離計算機數據庫技(jì )術和文(wén)字輸入背景,也就是OCR技(jì )術的産(chǎn)生是為(wèi)了減輕批量文(wén)字輸入、打印工(gōng)作(zuò)量、提高工(gōng)作(zuò)效率,而檔案信息數字化的關鍵技(jì )術和工(gōng)作(zuò)也是海量文(wén)字的輸入和檢索,所以可(kě)以斷定OCR技(jì )術的産(chǎn)生和發展是檔案現代化管理(lǐ)或類似檔案管理(lǐ)行業在發展過程中(zhōng),存在批量文(wén)字輸入計算機數據庫時,代替人工(gōng)單字或詞組輸入的最适合的方法之一。從技(jì )術層面講兩者的關系是相互依賴、相互發展、相互促進。
OCR技(jì )術在檔案數字化中(zhōng)的運用(yòng)研究
OCR技(jì )術在檔案數字化中(zhōng)的應用(yòng)
OCR技(jì )術在檔案數字化中(zhōng)運用(yòng),主要過程是把紙質(zhì)載體(tǐ)檔案的信息内容利用(yòng)高速掃描儀轉換成計算機能(néng)識别的圖像文(wén)件,如JPG、TIF或合成多(duō)頁(yè)的PDF文(wén)件,再利用(yòng)OCR軟件的字符識别功能(néng)把不能(néng)編輯的圖像文(wén)件和PDF文(wén)件中(zhōng)每個字符與标準的漢字數據庫中(zhōng)字符對比,截取相同形狀的字符并保存在文(wén)本編輯軟件中(zhōng),保持能(néng)編輯的狀态,并可(kě)以進行自動标引或運用(yòng)各類數據庫軟件的搜索引擎針對字符搜索,以達到檔案信息的全文(wén)檢索。
在實際檔案全文(wén)數字化過程中(zhōng)一般先把一份文(wén)件掃描成多(duō)頁(yè)JPG、TIF或PDF文(wén)件,再運用(yòng)OCR軟件識别并判斷識别效果,并進行必要的調整和修複就可(kě)以到達全文(wén)數字化的要求。
在掃描生成頁(yè)面後,OCR技(jì )術針對印刷體(tǐ)的頁(yè)面文(wén)件一般識别率可(kě)達98%以上,在自動糾錯、人工(gōng)校對後,基本符合檔案數字化的要求。從掃描和識别的速度分(fēn)析,一般中(zhōng)檔掃描儀每分(fēn)鍾掃描在40-60頁(yè)面左右,配合主流OCR識别軟件以及處理(lǐ)、分(fēn)析、校對每頁(yè)檔案全文(wén)數字化用(yòng)時在1分(fēn)鍾以内,裝(zhuāng)訂50個頁(yè)面的案卷數字化時間在30分(fēn)鍾左右。與人工(gōng)單字符輸入法相比,工(gōng)作(zuò)效率提高近十倍,工(gōng)作(zuò)強度成倍減少。運用(yòng)OCR識别技(jì )術進行檔案全文(wén)數字化,工(gōng)作(zuò)人員可(kě)以長(cháng)時間連續工(gōng)作(zuò),而純人工(gōng)輸入連續工(gōng)作(zuò)的後果是差錯率的居高不下,從而影響檔案信息全文(wén)的檢索和使用(yòng)。
OCR技(jì )術在全文(wén)輸入中(zhōng)的作(zuò)用(yòng)
OCR技(jì )術在檔案全文(wén)檢索技(jì )術中(zhōng)的運用(yòng)主要在于實現檔案全文(wén)數據庫的輸入工(gōng)作(zuò)。如針對一卷50頁(yè)的案卷,案卷和卷内目錄一般不超過51個,而全部目錄在數據庫著錄時,對于熟悉計算機輸入的人來講不費吹灰之力,幾分(fēn)鍾或更長(cháng)點時間就可(kě)以完成,但是如需做到全文(wén)任何關鍵詞檢索,必須把每個頁(yè)面上的漢字字符(可(kě)能(néng)超過500個)輸入計算機數據庫,50頁(yè)的文(wén)件可(kě)能(néng)有(yǒu)漢字字符25000個左右,以1分(fēn)鍾輸入100中(zhōng)文(wén)字符計算,連續不斷地輸入也需要4個多(duō)小(xiǎo)時。所以面對浩瀚如海的館藏檔案案卷以及每日俱增的新(xīn)歸檔案卷,依賴單個字符的輸入法和數量相對較少的檔案工(gōng)作(zuò)人員是無法完成如此巨大的全文(wén)輸入工(gōng)作(zuò)量。在檔案管理(lǐ)工(gōng)作(zuò)中(zhōng)館藏量和增量檔案一般很(hěn)難縮小(xiǎo)和控制,工(gōng)作(zuò)人員數量很(hěn)難大幅度增加,所以唯有(yǒu)改變數據的輸入方式,提高輸入效率。OCR技(jì )術正是彌補了單字符輸入速度慢的不足,OCR識别率的大幅提高更是填補單字符輸入差錯率高的缺陷。因此從當前檔案全文(wén)數字的工(gōng)作(zuò)量以及計算機輸入和各種文(wén)字識别技(jì )術的功效來判定,OCR技(jì )術是比較适應檔案全文(wén)數字化的一種技(jì )術,是實現檔案全文(wén)數字化的技(jì )術基礎和實現途徑之一
OCR技(jì )術的缺陷和彌補方法
經過OCR技(jì )術在檔案數字化過程中(zhōng)的實際運用(yòng),其掃描高速、識别快捷、高效等優勢顯而易見,但是這畢竟是依賴于計算機和人工(gōng)智能(néng)等技(jì )術,也存在一些先天缺陷,如針對手寫字迹,特别是保存時間較長(cháng)的曆史檔案,其識别率往往較低,甚至識别成一堆亂碼,使人無法閱讀。針對這種OCR技(jì )術的缺陷,第一種彌補方法是進行掃描和OCR識别後,實行人工(gōng)校對識别文(wén)字,盡量保持OCR文(wén)字與原始頁(yè)面内容一緻,雖然所需時間、精(jīng)力較多(duō),但畢竟可(kě)以實現檔案全文(wén)檢索,值得嘗試和運用(yòng);第二種彌補方法是從OCR識别率極低考慮,從現在的OCR技(jì )術以及相關技(jì )術的局限性出發,隻能(néng)考慮手工(gōng)全文(wén)輸入或掃描成圖像文(wén)件後,放棄全文(wén)檢索功能(néng)直接挂接到文(wén)件目錄中(zhōng),做到文(wén)件級目錄檢索。在針對一些陳舊紙質(zhì)檔案,頁(yè)面泛黃、局部生有(yǒu)黴斑或受污染的檔案,在OCR過程中(zhōng)也經常把其識别成文(wén)字或亂碼。其彌補方法是在掃描成多(duō)頁(yè)JPG或TIF或PDF文(wén)件後進行人工(gōng)修複,把原來是文(wén)字部分(fēn)以外的頁(yè)面進行清潔處理(lǐ)(删除或複制成空白)。也可(kě)以對整個頁(yè)面進行補光或柔化處理(lǐ),使沒有(yǒu)文(wén)字部分(fēn)頁(yè)面接近白色,識别過程中(zhōng)OCR軟件不會把其當成文(wén)字或圖像處理(lǐ),從而達到檔案信息數字化的要求。
結語
随着信息化社會的不斷發展,計算機網絡技(jì )術的不斷普及,檔案利用(yòng)人群對檔案信息的檢索準确率、查全率的要求越來越高,而傳統的案卷級和文(wén)件級目錄檢索技(jì )術已經無法适應當前網絡時代的搜索要求,檔案全文(wén)數字化是檔案管理(lǐ)發展的必然趨勢。采用(yòng)高性價比的數字化方法,在最短的時間内把檔案全文(wén)進行數字化是檔案管理(lǐ)者必須考慮的發展戰略,縱觀并比較當前的各類檔案數字化技(jì )術,使用(yòng)高速掃描和OCR技(jì )術以及計算機全文(wén)數據庫技(jì )術是實現檔案信息數字化比較适合的方法。
作(zuò)者:徐忠勇單位|上海大學(xué)檔案館
(圖文(wén)來自網絡,轉載僅做交流分(fēn)享,若有(yǒu)侵權請聯系删除)
2021-09-13
2021-09-13
2020-11-30
2020-11-27
2020-11-26