民國檔案數(shù)字化研究與思考
朱琪
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫等技術(shù)的迅速發(fā)展及其在各領(lǐng)域的廣泛應(yīng)用,社會信息流通的基礎(chǔ)結(jié)構(gòu)發(fā)生了根本性的變化,檔案數(shù)字化的建設(shè)勢在必行①。民國檔案年代久遠,記載著民國社會歷史的原貌,反映著民國社會發(fā)展的軌跡。將館藏民國檔案數(shù)字化,對于繼承和保護人類寶貴的文化財富,無疑是最有意義的。為此,筆者就檔案數(shù)字化建設(shè)作粗淺的探討,與檔案界同行交流,以推進檔案數(shù)字化的健康發(fā)展。
一、檔案數(shù)字化
檔案數(shù)字化就是將存儲于傳統(tǒng)載體上的檔案信息進行數(shù)字化。它利用掃描、照相及其他數(shù)字轉(zhuǎn)換技術(shù)、將紙質(zhì)及其他載體中記錄的傳統(tǒng)檔案信息(模擬形式)轉(zhuǎn)換成可以被計算機識別和處理的數(shù)字形式的過程。數(shù)字化檔案的最大特點是能夠通過網(wǎng)絡(luò)迅速流動,徹底改變檔案的利用方式,促使檔案管理從檔案的保管、利用職能向信息采集、信息管理和信息服務(wù)職能轉(zhuǎn)變。
二、檔案數(shù)字化面臨的問題
近些年來,為充分利用現(xiàn)代信息技術(shù)為檔案的管理與利用服務(wù),檔案界對檔案數(shù)字化進行了理論研究,同時全國各地的一些檔案館也開展了積極的嘗試,但是在檔案數(shù)字化過程中也面臨著一些問題。
1.標(biāo)準問題
數(shù)字化標(biāo)準是數(shù)字化建設(shè)規(guī)范和高效的保障,是穩(wěn)步推進檔案數(shù)字化建設(shè)的基礎(chǔ)。但目前檔案數(shù)字化標(biāo)準化建設(shè)還處在簡單、孤立、單個的狀態(tài),還沒有形成完整的體系。全國檔案數(shù)字化無相關(guān)數(shù)據(jù)標(biāo)準,不同檔案部門數(shù)據(jù)結(jié)構(gòu)格式不統(tǒng)一,盡管可以通過大量的元數(shù)據(jù)來克服這樣不一致的問題,但不利于網(wǎng)絡(luò)條件下檔案信息的高效率共享。檔案數(shù)字化標(biāo)準的缺位與滯后,已成為制約檔案數(shù)字化建設(shè)的瓶頸;檔案管理軟件低水平與數(shù)據(jù)壁壘現(xiàn)象,已成為阻礙檔案數(shù)字化發(fā)展的阻力②。
2.優(yōu)選問題
長期以來,受歷史檔案“片紙只字不得銷毀”思想影響,在民國檔案接收進館過程中,采取“有文必收,有檔定管”的態(tài)度,永久保管。這樣,不免將內(nèi)容極具一般的事務(wù)性文件、零散性文件、重復(fù)性文件與體現(xiàn)民國時期機關(guān)主要職能的業(yè)務(wù)性文件交織在一起,這種“魚龍混雜,玉石不分”的館藏現(xiàn)象,造成了“館藏的虛腫,內(nèi)容的龐雜”,影響著館藏檔案的優(yōu)化管理。在當(dāng)前檔案數(shù)字化工作中哪些內(nèi)容優(yōu)先數(shù)字化,哪些全宗優(yōu)先數(shù)字化,哪些全宗暫緩數(shù)字化等,這些問題都很難明確。極端的做法是盡其所能通過鍵盤、采集卡及掃描設(shè)備等將其內(nèi)容全部數(shù)字化③。目前,二史館共收藏有940多個全宗,計180多萬卷檔案,排架長度達5萬余米,繞南京城墻1.5周④,如果將這些檔案全部數(shù)字化,需耗時20年。
3.檢索問題
檔案信息檢索是館藏檔案數(shù)字化基礎(chǔ)工作的重中之重。數(shù)字化的館藏檔案,不僅應(yīng)該是經(jīng)過系統(tǒng)化整理的,而且是建立了能與全文數(shù)字化信息鉤鏈檢索的案卷級或文件級機讀目錄。因此,必須處理好館藏檔案實體整理中的遺留問題,完善案卷級目錄的主題揭示和加強文件級目錄的編制以及目錄數(shù)據(jù)庫的建設(shè)。
三、檔案數(shù)字化對象的界定
民國檔案數(shù)量浩繁,而資金和人力資源相對有限,檔案數(shù)字化不可能一步到位。因此,我們應(yīng)該從實際出發(fā),采取優(yōu)先原則進行檔案數(shù)字化⑤。
一是館藏珍貴檔案應(yīng)優(yōu)先數(shù)字化。各檔案館都有其最為珍貴的“鎮(zhèn)館之寶”,從保護人類歷史遺產(chǎn)和搶救的角度出發(fā),這些特藏應(yīng)該成為數(shù)字化的首選對象。
二是瀕危、經(jīng)過鑒定確認具有重要保存和使用價值的檔案應(yīng)優(yōu)先數(shù)字化。此舉有利于加快搶救與妥善保存這些反映民國時期歷史進程、社會變遷等重大歷史事件的瀕危檔案信息。
三是具有館藏特色的檔案應(yīng)優(yōu)先數(shù)字化。選擇本館獨有、特有的資源進行檔案數(shù)字化,可以突出自己的特色,實現(xiàn)優(yōu)勢互補和共享。
四是利用率高、需求大、開放的檔案應(yīng)優(yōu)先數(shù)字化。這樣不僅可以發(fā)揮館藏檔案的社會效益和經(jīng)濟效益,而且有利于對檔案原件的保護。
二史館在長期的館藏建設(shè)中形成了自己的核心館藏,它們形成時間早、影響范圍廣、使用價值大、利用頻率高。早在上世紀六十年代,老一代檔案工作者為適應(yīng)當(dāng)時形勢的需要,從實體館藏150萬卷,700多個全宗的基礎(chǔ)上,精心選出74000多卷重要檔案。雖然這些檔案不能代表館藏中極具重要價值檔案的全部,卻是二史館館藏最為核心檔案的一部分,成為館藏檔案中利用最頻繁和最有亮點的檔案。我們應(yīng)該在尊重前人勞動成果基礎(chǔ)上,將這些檔案優(yōu)先進行數(shù)字化運作。
四、檔案數(shù)字化建設(shè)
1.檔案目錄數(shù)據(jù)庫
由于館藏檔案歷史跨度大,數(shù)量多,早期檔案整理編目工作較粗,目錄數(shù)據(jù)庫質(zhì)量不高。例如案卷過大過厚,目錄籠統(tǒng)不準確,不能反映卷內(nèi)內(nèi)容或只反映部分內(nèi)容等,造成大量有價值的信息沒有被揭示出來,降低了檔案利用的效益。2009年4月我館正式啟動館藏檔案數(shù)字化掃描工作,先期將教育部全宗和內(nèi)政部全宗進行整理編目,共計36931條目錄,比原來增加了6000多條,解決了部分案卷過厚、標(biāo)題不準確、檔案著錄項缺失(如形成時間、責(zé)任者不詳、事由不清)等問題,使整理后案卷標(biāo)題規(guī)范,主題清晰,能夠全面反映卷內(nèi)文件內(nèi)容。然后將這些優(yōu)質(zhì)目錄和規(guī)范數(shù)據(jù)輸入計算機檔案管理系統(tǒng),形成的新案卷目錄數(shù)據(jù)庫質(zhì)量大為提高。同時,也為今后數(shù)字化全文掃描準確掛接,為檔案利用者快速和準確查詢提供了重要保證。
2.紙質(zhì)檔案全文數(shù)字化
通過掃描儀、數(shù)碼相機對檔案原文進行光學(xué)掃描,以圖片格式或光學(xué)字符進入計算機,形成圖像文件。之后可用OCR識別軟件,將掃描后的圖像文件轉(zhuǎn)換成文本文件。
掃描系統(tǒng)參數(shù)的選擇和確定對掃描數(shù)字影像質(zhì)量有著較大影響,其中掃描分辨率直接關(guān)系到掃描文件的清晰度和還原效果。我們在選擇分辨率時應(yīng)根據(jù)實際需要綜合考慮,包括掃描文件的可閱讀性、存儲空間、輸出打印質(zhì)量等。
根據(jù)檔案紙質(zhì)的不同,采用不同的分辨率。否則,有的幅面清晰度好;有的幅面則清晰度差。對大幅面的表冊和地圖等檔案資料進行分塊掃描,形成的多幅圖像,要即時合并為一個完整的圖像,避免遺忘,以保證檔案資料數(shù)字化圖像的整體性。
3.多媒體檔案數(shù)字化
(1)照片檔案數(shù)字化。可采用以下兩種方法進行輸入,一種是利用光電掃描儀將照片存貯到計算機中的磁盤上,然后將照片采用壓縮文件格式進行縮小,解決因掃描圖象占用磁盤空間較大的問題。另一種方法是采用數(shù)碼相機對照片進行拍攝,圖像存貯在相機的磁盤上,再將圖像下載到計算機的硬盤或光盤上。對照片檔案進行掃描轉(zhuǎn)換,照片檔案掃描采用圖形格式,一般格式為JPG、TIFF,并且采用較高的分辨率,便于日后沖洗和印刷利用。
(2)聲像檔案數(shù)字化。主要是對錄音帶、錄像帶進行數(shù)字化處理。聲像檔案采用視頻采集卡和軟件進行模數(shù)轉(zhuǎn)換,音頻數(shù)據(jù)采用MP3、WAV等格式存儲,視頻數(shù)據(jù)采用MPEG、MOV等格式存儲。
(3)對數(shù)碼照相機和攝像機產(chǎn)生的已經(jīng)是數(shù)字化格式的多媒體檔案,則可直接進入對應(yīng)的多媒體檔案管理系統(tǒng)。
(4)檔案縮微品的數(shù)字轉(zhuǎn)換。使用縮微膠片掃描儀進行掃描,直接將縮微膠片轉(zhuǎn)換成數(shù)字信號,避免再對紙質(zhì)原件進行重復(fù)掃描。
4.實現(xiàn)掃描文件和已有目錄數(shù)據(jù)庫的掛接
通過檔案目錄數(shù)據(jù)庫和掃描文件的快速掛接,系統(tǒng)就可初步實現(xiàn)對目標(biāo)檔案的全文檢索。然而,真正意義上的全文檢索,不僅應(yīng)該構(gòu)建功能完備的檔案全文數(shù)據(jù)庫,而且能夠集成數(shù)據(jù)庫檢索技術(shù)、全文檢索技術(shù)、圖像內(nèi)容檢索技術(shù)以及數(shù)字化音頻和視頻信息的檢索技術(shù)等。由于數(shù)字化檔案要求必須與檔案原件完全一致,然而目前的數(shù)字轉(zhuǎn)換、識別技術(shù)又不能完全滿足這一要求,因此,要實現(xiàn)數(shù)字檔案全文檢索,還有待技術(shù)的進一步發(fā)展。
5.開展網(wǎng)上利用服務(wù)
檔案數(shù)字化的目的就是要組織數(shù)字信息上網(wǎng),面向應(yīng)用,建立“活性”,實現(xiàn)檔案信息的網(wǎng)上檢索和利用,為用戶提供更好的服務(wù)。
五、結(jié)束語
檔案數(shù)字化是對檔案部門的挑戰(zhàn),也給檔案工作帶來了新的契機。面對新的挑戰(zhàn)和機遇,我們要勇于擔(dān)負起社會使命,以優(yōu)化理論為指導(dǎo),以用戶需求為導(dǎo)向,以檔案利用為目的,加快檔案數(shù)字化建設(shè)的進程,實現(xiàn)“資源共享、保護檔案、傳承歷史”的愿景目標(biāo)。
注釋:
①熊飛,熊艷.城建檔案數(shù)字化建設(shè)[J].城建檔案,2009(2):12-13.
②趙寧燕等.檔案數(shù)字化建設(shè)危機[J].蘭臺世界,2008(10):6-7.
③王素立.檔案信息數(shù)字化邊界問題的研究[J].檔案學(xué)通訊,2008(4):65-67.
④王俊明.九州圖籍歸天府——中國第二歷史檔案館解放初期接收政權(quán)檔案紀實[J].中國檔案,2009(9):37-39.
⑤陳光誼.淺談檔案數(shù)字化建設(shè)中應(yīng)遵循的幾個原則[J].四川檔案,2009(3):46-47.
⑥趙煒.檔案的影像化趨勢研究[J].中國檔案,2009(7):44-49.