最近中文字幕2019年中文字幕/性色网站/最近中文字幕完整国语/在线日韩欧美 - 啄木系列成人系列在线观看

18513152006
當前位置: 首頁 > 新聞中心 > 業內關注 >

雙層PDF技術在檔案數字化過程中的應用

發布時間:2021-08-17 13:42:02    來源:中衛標認證中心

打印本文             

 
什么是雙層PDF文件格式?
 
雙層PDF格式文件是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件,其特點是:文件既可以是文本型的,也可以是圖像型的,既可以100%保留原始版面效果,又便于建立索引數據庫,進行科學的管理。
 
 
雙層PDF與OCR技術結合
 
OCR(optical character recognition)文字識別系統是指電子設備檢查紙上打印的字符,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。通過OCR文字識別系統得到的雙層PDF可以在打印的時候保持原圖輸出,
 
 
雙層PDF與檔案數字化
 
為了方便檔案的數字化管理,紙介質文件要通過圖像掃描儀進行掃描錄入再通過數字化加工轉化成相應格式。一般來說,對紙質檔案的數字化加工流程有圖像檔案形成流程、雙層PDF檔案形成流程或純數字化檔案形成流程。雙層PDF格式的文件的形成流程主要有兩個方面:首先,將掃描獲得的圖像轉入圖像處理系統,對掃描圖像進行處理和優化。其次,將處理好的圖像利用雙層PDF軟件轉化成雙層PDF文檔,形成標準的文本。
 
 
雙層PDF與全文索引
 
目前檔案檢索的常見檢索方式有主題、分類、文號、自序等,雙層PDF技術可以實現全文的復制、搜索等功能,解決了以往非文本資料只能閱讀,不能檢索、復制的問題。因此,雙層PDF文檔技術在全文搜索中的應用對研究如何實現全文一站式搜索具有非常重要的現實意義。
首先,將處理好的雙層PDF文檔掛接到檔案管理系統中的相應案卷和卷內文件目錄。其次,再將原文的存放地址信息自動存入數據庫,通過與案卷和卷內文件目錄相對應,在檔案文檔的Text層文本內容及其元數據等相關信息之間建立永久聯系,形成數據包。最后,在形成數據包之后,通過調用全文檢索子系統內核函數,為數字化加工后的雙層PDF文件和數據包建立對應的索引文件。創建索引時,要先提取雙層PDF文檔中的Text層、文檔對應的卷內目錄和案卷目錄及有關元數據(也可以說是結構化和非結構化數據)的信息,再根據提取的信息創建索引文件。
通過與傳統搜索方式進行對比,可以看出基于雙層PDF技術的一站式全文檢索的優勢比較明顯。首先,明顯提高了搜索的效率。其次,在客戶查詢時,由于是通過訪問索引而不需訪問數據庫進行搜索,減輕了數據庫和系統的壓力。再者,基于雙層PDF技術的搜索的兼容性較強,可以適應不同的操作系統平臺,支持多種數據庫接口。最后,這種搜索的使用更加方便,用戶可通過任意輸入檢索信息進行搜索。
 
 
總結
 
總之,雙層PDF技術綜合了數字文件的所有優點,對于紙質檔案的保存與管理具有非常重大的意義,在檔案信息化管理過程中發揮著獨特的作用。
 
 
轉載:數字檔案管理

相關熱詞搜索: