日韩视频免费观看,成人黄片免费观看,黄色片免费的视频

當(dāng)前位置：首頁 > 新聞中心 > 業(yè)內(nèi)關(guān)注 >

新聞中心

News

雙層PDF技術(shù)在檔案數(shù)字化過程中的應(yīng)用

發(fā)布時(shí)間：2021-08-17 13:42:02 來源：中衛(wèi)標(biāo)認(rèn)證中心

什么是雙層PDF文件格式？

雙層PDF格式文件是一種具有多層結(jié)構(gòu)的PDF格式文件，是PDF文件衍生的一種文件，其特點(diǎn)是：文件既可以是文本型的，也可以是圖像型的，既可以100%保留原始版面效果，又便于建立索引數(shù)據(jù)庫，進(jìn)行科學(xué)的管理。

雙層PDF與OCR技術(shù)結(jié)合

OCR（optical character recognition）文字識(shí)別系統(tǒng)是指電子設(shè)備檢查紙上打印的字符，然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程；即，對(duì)文本資料進(jìn)行掃描，然后對(duì)圖像文件進(jìn)行分析處理，獲取文字及版面信息的過程。通過OCR文字識(shí)別系統(tǒng)得到的雙層PDF可以在打印的時(shí)候保持原圖輸出，

雙層PDF與檔案數(shù)字化

為了方便檔案的數(shù)字化管理，紙介質(zhì)文件要通過圖像掃描儀進(jìn)行掃描錄入再通過數(shù)字化加工轉(zhuǎn)化成相應(yīng)格式。一般來說，對(duì)紙質(zhì)檔案的數(shù)字化加工流程有圖像檔案形成流程、雙層PDF檔案形成流程或純數(shù)字化檔案形成流程。雙層PDF格式的文件的形成流程主要有兩個(gè)方面：首先，將掃描獲得的圖像轉(zhuǎn)入圖像處理系統(tǒng)，對(duì)掃描圖像進(jìn)行處理和優(yōu)化。其次，將處理好的圖像利用雙層PDF軟件轉(zhuǎn)化成雙層PDF文檔，形成標(biāo)準(zhǔn)的文本。

雙層PDF與全文索引

目前檔案檢索的常見檢索方式有主題、分類、文號(hào)、自序等，雙層PDF技術(shù)可以實(shí)現(xiàn)全文的復(fù)制、搜索等功能，解決了以往非文本資料只能閱讀，不能檢索、復(fù)制的問題。因此，雙層PDF文檔技術(shù)在全文搜索中的應(yīng)用對(duì)研究如何實(shí)現(xiàn)全文一站式搜索具有非常重要的現(xiàn)實(shí)意義。

首先，將處理好的雙層PDF文檔掛接到檔案管理系統(tǒng)中的相應(yīng)案卷和卷內(nèi)文件目錄。其次，再將原文的存放地址信息自動(dòng)存入數(shù)據(jù)庫，通過與案卷和卷內(nèi)文件目錄相對(duì)應(yīng)，在檔案文檔的Text層文本內(nèi)容及其元數(shù)據(jù)等相關(guān)信息之間建立永久聯(lián)系，形成數(shù)據(jù)包。最后，在形成數(shù)據(jù)包之后，通過調(diào)用全文檢索子系統(tǒng)內(nèi)核函數(shù)，為數(shù)字化加工后的雙層PDF文件和數(shù)據(jù)包建立對(duì)應(yīng)的索引文件。創(chuàng)建索引時(shí)，要先提取雙層PDF文檔中的Text層、文檔對(duì)應(yīng)的卷內(nèi)目錄和案卷目錄及有關(guān)元數(shù)據(jù)（也可以說是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)）的信息，再根據(jù)提取的信息創(chuàng)建索引文件。

通過與傳統(tǒng)搜索方式進(jìn)行對(duì)比，可以看出基于雙層PDF技術(shù)的一站式全文檢索的優(yōu)勢(shì)比較明顯。首先，明顯提高了搜索的效率。其次，在客戶查詢時(shí)，由于是通過訪問索引而不需訪問數(shù)據(jù)庫進(jìn)行搜索，減輕了數(shù)據(jù)庫和系統(tǒng)的壓力。再者，基于雙層PDF技術(shù)的搜索的兼容性較強(qiáng)，可以適應(yīng)不同的操作系統(tǒng)平臺(tái)，支持多種數(shù)據(jù)庫接口。最后，這種搜索的使用更加方便，用戶可通過任意輸入檢索信息進(jìn)行搜索。

總結(jié)

總之，雙層PDF技術(shù)綜合了數(shù)字文件的所有優(yōu)點(diǎn)，對(duì)于紙質(zhì)檔案的保存與管理具有非常重大的意義，在檔案信息化管理過程中發(fā)揮著獨(dú)特的作用。

轉(zhuǎn)載：數(shù)字檔案管理