新利平台 > 即時新聞 > 文化

激活數字服務平台,給古籍注入新的生命力

發布時間:2022-03-10 16:00:00來源: 文匯報

  激活數字服務平台,給“養(yang) 在深閨”的古籍注入新的生命力

  古籍,即1912年之前經過刻印、抄寫(xie) 等方式所生產(chan) 出版的圖書(shu) 和文獻,用來傳(chuan) 承文明、普及教育以及記載曆史,承載厚重的曆史和文化。相關(guan) 統計數據顯示,我們(men) 已完成普查的270多萬(wan) 部古籍中,僅(jin) 有7萬(wan) 多部可供線上閱讀,更多海量古籍文化資源亟待數字化,這也是當下古籍保護、傳(chuan) 承與(yu) 開放的重要課題之一。目前上海古籍出版社推出的“匯典·古籍數字服務平台”引起業(ye) 界關(guan) 注,該平台聚合上海、長三角乃至更廣泛地區出版社的優(you) 質古籍資源,利用最新光學文字識別(OCR)、自然語言處理、大規模語料庫和機器學習(xi) 標點等古籍智能算法技術,建設麵向傳(chuan) 統文化與(yu) 古籍行業(ye) 的知識服務平台。

  “北方有中華書(shu) 局‘籍合網’,南方有上海古籍出版社‘匯典’。”複旦大學圖書(shu) 館副館長、中華古籍保護研究院常務副院長楊光輝表示,古籍數字化對於(yu) 中華古代文明的傳(chuan) 承、保護和利用有著積極的促進作用,這一平台一方麵可以把上海古籍出版社多年積累起來的古籍文化資源通過數字化的方式向大眾(zhong) 普及,另一方麵也可以加速古籍數字轉化和出版的流程,推動相應出版產(chan) 業(ye) 領域的數字化發展。

  經曆數十年發展的古籍數字化之路任重道遠

  《上海市全麵推進城市數字化轉型“十四五”規劃》指出,要“深化文化大數據體(ti) 係建設,推進文化資源數字化”,在媒介大融合、知識大融通的時代背景下,實現以數字技術推動優(you) 秀傳(chuan) 統文化的傳(chuan) 承創新。古籍數字化,是保護和合理利用古籍的方向。複旦大學古籍整理研究所研究員石祥在接受記者采訪時說,“古籍的‘用’和‘藏’之間是矛盾的,誰都想來翻一翻,時間久了必然影響古籍的保護”,而數字化之後,古籍“母本”就不用冒著各種風險“拋頭露臉”了。同時,“養(yang) 在深閨人未識”的古籍可以在數字化之後走出“深閨”,可不受時間、地域限製滿足更多讀者的閱讀需求,實現一對多、點對麵、虛對實的變化。

  從(cong) “將紙質書(shu) 變為(wei) 電子掃描版”的“采集側(ce) ”到“將電子掃描版變為(wei) 文字版”的“生產(chan) 側(ce) ”,再到“將文字版變為(wei) 古籍研學係統”的“應用側(ce) ”,古籍數字化流程並不複雜。在數十年曆史發展中,有兩(liang) 個(ge) 分水嶺。其一是上世紀80年代,美國華裔學者陳炳藻提出用計算機統計《紅樓夢》的字詞,計算機技術和人文研究逐漸開始結合。其二是1999年,被譽為(wei) “大型中文電子出版工程的典範書(shu) ”文淵閣《四庫全書(shu) 》電子版問世。

  在數十年的發展中,我國的古籍數字化取得一定成效——國家圖書(shu) 館的“中華古籍資源庫”已在線發布超過3.3萬(wan) 部古籍影像;中華書(shu) 局的“中華經典古籍庫”已發布3000多種、15億(yi) 字的點校本古籍;愛如生公司的“中國基本古籍庫”收書(shu) 1萬(wan) 種,既有可供檢索的全文,又有古籍原版圖像。但與(yu) 此同時,古籍數字化推進之路也鋪滿荊棘。究其原因,一方麵源於(yu) 古籍成本,據上海古籍出版社數字出版中心負責人侯君明透露:“大多古籍獲取成本不菲,此外製作、版權、平台開發以及版權保護技術研發等方麵費用高昂。相對而言古籍數字化回報周期卻又比較漫長。”另一方麵,根據全國古籍普查工作要求,要對全部古籍鑒定編目,具體(ti) 包括書(shu) 名、卷數、作者、版本、存卷、冊(ce) 次、藏印等項目,須逐一厘清,工作量巨大,對編目鑒定者的業(ye) 務水平要求頗高。

  事實上,我國目前尚存在大量現有的古籍數字化資源呈黑白影像,分辨率較低,難以滿足讀者和研究人員的需要。

  加速古籍數字轉化,利用新技術整合海量古籍知識體(ti) 係

  上海古籍出版社總編輯呂健表示,古籍整理是一項古老的事業(ye) ,而數字化則屬於(yu) 當下,數字化轉型代表著產(chan) 業(ye) 的前沿。在古籍亟待數字化的當下,“匯典·古籍數字服務平台”的出現猶如一道曙光。這一平台的OCR係統、自動標點與(yu) 自動標引技術開發都已初見成效。其中OCR技術可以迅速識別一本書(shu) ,準確率達93%。達到理想準確率的機器標點後,剩下的疑難問題通過專(zhuan) 家學者可以較快完成,把學者從(cong) 大量簡單重複的勞動中解放出來。

  有著OCR的文本生成技術、自然語言處理的文本整理與(yu) 標引等先進技術的加持,大量優(you) 秀古籍可以在準確權威的平台上與(yu) 公眾(zhong) 、專(zhuan) 業(ye) 研究人員麵對麵,使用效率大幅提高,有力促進海量優(you) 秀傳(chuan) 統文化信息便利快捷有效利用。這一平台還通過解析上海古籍出版社海量古籍資源內(nei) 容,對其進行知識結構化揭示,重構原有的古籍內(nei) 容組織形式,並創建全新的知識模塊,實現古籍資源的知識化、專(zhuan) 業(ye) 化服務。

  通過技術的加持,從(cong) 內(nei) 容可利用的深度和廣度上使古籍裏的文字快速“活”起來。侯君明表示:“利用新技術整合海量古籍的知識體(ti) 係,深入闡釋中華文化的曆史淵源、發展脈絡、基本走向,有助於(yu) 推動有中國底蘊、中國特色的思想體(ti) 係、學術體(ti) 係和話語體(ti) 係的構建。從(cong) 再生性保護的角度,古籍數字化技術對中國優(you) 秀傳(chuan) 統文化的普及、研究與(yu) 傳(chuan) 承具有重大意義(yi) 。”

  推動古籍的數字化進程,不僅(jin) 是內(nei) 容的數字化,更是思維的數字化。編、印、發是傳(chuan) 統出版的基本流程,在數字化項目實踐過程中,這些傳(chuan) 統的工作流程也在逐漸接受來自數字化思維的積極影響。在楊光輝眼中,普通掃描技術向三維高清掃描的迭代發展,互聯網向物聯網的轉變,古籍數字化向數字人文進化,藏在圖書(shu) 館的書(shu) 可以通過數字出版技術,打通虛擬和現實之間鴻溝,傳(chuan) 統館藏資源通過新媒介形成“元宇宙”,也並非遙不可及。

  記者 汪荔誠

(責編: 常邦麗)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。