什么是雙層PDF文件格式?
雙層PDF格式文件是一種具有多層結(jié)構(gòu)的PDF格式文件,是PDF文件衍生的一種文件,其特點(diǎn)是:文件既可以是文本型的,也可以是圖像型的,既可以100%保留原始版面效果,又便于建立索引數(shù)據(jù)庫,進(jìn)行科學(xué)的管理。
雙層PDF與OCR技術(shù)結(jié)合
OCR(optical character recognition)文字識(shí)別系統(tǒng)是指電子設(shè)備檢查紙上打印的字符,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。通過OCR文字識(shí)別系統(tǒng)得到的雙層PDF可以在打印的時(shí)候保持原圖輸出,
雙層PDF與檔案數(shù)字化
為了方便檔案的數(shù)字化管理,紙介質(zhì)文件要通過圖像掃描儀進(jìn)行掃描錄入再通過數(shù)字化加工轉(zhuǎn)化成相應(yīng)格式。一般來說,對(duì)紙質(zhì)檔案的數(shù)字化加工流程有圖像檔案形成流程、雙層PDF檔案形成流程或純數(shù)字化檔案形成流程。雙層PDF格式的文件的形成流程主要有兩個(gè)方面:首先,將掃描獲得的圖像轉(zhuǎn)入圖像處理系統(tǒng),對(duì)掃描圖像進(jìn)行處理和優(yōu)化。其次,將處理好的圖像利用雙層PDF軟件轉(zhuǎn)化成雙層PDF文檔,形成標(biāo)準(zhǔn)的文本。
雙層PDF與全文索引
目前檔案檢索的常見檢索方式有主題、分類、文號(hào)、自序等,雙層PDF技術(shù)可以實(shí)現(xiàn)全文的復(fù)制、搜索等功能,解決了以往非文本資料只能閱讀,不能檢索、復(fù)制的問題。因此,雙層PDF文檔技術(shù)在全文搜索中的應(yīng)用對(duì)研究如何實(shí)現(xiàn)全文一站式搜索具有非常重要的現(xiàn)實(shí)意義。
首先,將處理好的雙層PDF文檔掛接到檔案管理系統(tǒng)中的相應(yīng)案卷和卷內(nèi)文件目錄。其次,再將原文的存放地址信息自動(dòng)存入數(shù)據(jù)庫,通過與案卷和卷內(nèi)文件目錄相對(duì)應(yīng),在檔案文檔的Text層文本內(nèi)容及其元數(shù)據(jù)等相關(guān)信息之間建立永久聯(lián)系,形成數(shù)據(jù)包。最后,在形成數(shù)據(jù)包之后,通過調(diào)用全文檢索子系統(tǒng)內(nèi)核函數(shù),為數(shù)字化加工后的雙層PDF文件和數(shù)據(jù)包建立對(duì)應(yīng)的索引文件。創(chuàng)建索引時(shí),要先提取雙層PDF文檔中的Text層、文檔對(duì)應(yīng)的卷內(nèi)目錄和案卷目錄及有關(guān)元數(shù)據(jù)(也可以說是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的信息,再根據(jù)提取的信息創(chuàng)建索引文件。
通過與傳統(tǒng)搜索方式進(jìn)行對(duì)比,可以看出基于雙層PDF技術(shù)的一站式全文檢索的優(yōu)勢(shì)比較明顯。首先,明顯提高了搜索的效率。其次,在客戶查詢時(shí),由于是通過訪問索引而不需訪問數(shù)據(jù)庫進(jìn)行搜索,減輕了數(shù)據(jù)庫和系統(tǒng)的壓力。再者,基于雙層PDF技術(shù)的搜索的兼容性較強(qiáng),可以適應(yīng)不同的操作系統(tǒng)平臺(tái),支持多種數(shù)據(jù)庫接口。最后,這種搜索的使用更加方便,用戶可通過任意輸入檢索信息進(jìn)行搜索。
總結(jié)
總之,雙層PDF技術(shù)綜合了數(shù)字文件的所有優(yōu)點(diǎn),對(duì)于紙質(zhì)檔案的保存與管理具有非常重大的意義,在檔案信息化管理過程中發(fā)揮著獨(dú)特的作用。
轉(zhuǎn)載:數(shù)字檔案管理