數字化,讓古籍觸手可及
記者 吳 丹
核心閱讀
我國現存古籍約有20萬(wan) 種,修複整理現存的全部古籍,可能需要300餘(yu) 年。古籍數字化迫在眉睫。一本古籍,如何從(cong) 紙頁“搬”到網頁?廣泛收集圖像資料、利用現代技術精細化處理……自2022年10月上線以來,“識典古籍”平台已陸續匯集經、史、子、集等2200餘(yu) 部古籍,免費麵向公眾(zhong) 開放,為(wei) 解決(jue) 古籍保護和利用矛盾進行了有益嚐試。
“青蒿一握,以水二升漬,絞取汁,盡服之”,屠呦呦從(cong) 古籍中獲得靈感,由此發現青蒿素;在浩瀚古籍中尋幽入微,竺可楨繪製出一條物候變遷的曲線——“竺可楨曲線”,濃縮出五千年中華大地的冷暖變化圖景。
卷帙浩繁的中華古籍,凝結著先人的智慧,記載著璀璨的文化,訴說著綿延不絕的中華文明。歲月不居,書(shu) 闕有間,部分古籍正慢慢“老去”,褪色、脆化、腐蝕,甚至稍一翻閱就會(hui) 損毀。
當古老典籍遇到現代技術,會(hui) 產(chan) 生什麽(me) 奇妙反應?
一種“打開”古籍的全新方式
“初見”“流光”“驚鴻”“珠聯”“綴玉”……點擊網頁上的標簽,《永樂(le) 大典》的前世今生、編纂方法、曆史價(jia) 值等信息,伴隨著動畫音效,呈現於(yu) 眼前。
點擊頁麵右上角“閱讀大典”,進入文本閱讀平台。《永樂(le) 大典》原本影像與(yu) 數字化文本相互對照,繁簡體(ti) 文字隨時切換。遇生僻詞句,可選中文本,點擊“查看引用”,出處清晰可考。
《永樂(le) 大典》是我國古代規模最大的類書(shu) ,匯集先秦至明初各類典籍,被譽為(wei) “世界有史以來最大的百科全書(shu) ”。但幾經散佚,副本存世不及原書(shu) 的4%。對學者而言,《永樂(le) 大典》是進行學術研究的重要資料;對普通讀者來說,古籍文本往往艱澀難懂,且接觸機會(hui) 不多。
如今,《永樂(le) 大典》高清影像數據庫(第一輯)在古籍數字化平台“識典古籍”正式上線,免費麵向公眾(zhong) 開放。借助現代數字技術,厚重典籍濃縮在方寸之間,塵封已久的曆史畫卷徐徐展開,成為(wei) 觸手可及的文化資源。
“互動化、可視化的呈現方式更加符合當代人的閱讀習(xi) 慣,沉浸式閱讀體(ti) 驗拉近了古籍與(yu) 普通讀者之間的距離。”“識典古籍”平台項目負責人之一、北京大學信息管理係助理教授位通說。
自2022年10月上線以來,“識典古籍”平台已陸續匯集經、史、子、集等2200餘(yu) 部古籍,麵向海內(nei) 外讀者免費開放。該平台由北京大學與(yu) 抖音合作共建,致力於(yu) 為(wei) 用戶提供免費、公開、穩定、快速、方便的檢索和閱讀古籍服務。
“識典古籍”平台項目負責人、北京大學數字人文研究中心主任王軍(jun) 希望,“識典古籍”平台能推動散落海外的中華古籍回流,促成古籍的開放共享。
一次解決(jue) 保護和利用矛盾的嚐試
古籍數字化為(wei) 何迫切?
王軍(jun) 算過一筆賬:我國現存古籍約有20萬(wan) 種,從(cong) 1949年到2019年,共修複整理出版了近3.8萬(wan) 種,修複整理現存的全部古籍,可能需要300餘(yu) 年。可以說,古籍修複速度趕不上老化速度。
修複整理,隻是數字化的第一步。古籍具有文物和文獻的雙重屬性,修複好的古籍若隻被束之高閣,後續研究就無法開展,更無法發揮其文化傳(chuan) 承的價(jia) 值。
因此,數字化是一場生產(chan) 效率的變革,也是一次解決(jue) 古籍保護和利用矛盾的嚐試。
一本古籍,如何從(cong) 紙頁“搬”到網頁?
進入“識典古籍”平台,平台設計者、北京大學人工智能研究院副研究員楊浩開始演示:“古籍的數字化分為(wei) 兩(liang) 步。一是圖像化,我們(men) 與(yu) 海內(nei) 外古籍收藏單位合作,廣泛收集古籍數字化圖像資料。二是文本化,利用人工智能技術對古籍文字進行識別、排序、校對、結構整理、標點、實體(ti) 識別等,對內(nei) 容作精細化處理。”
楊浩上傳(chuan) 了一頁古籍圖像,不一會(hui) 兒(er) ,文字自動識別處理完成。古籍圖像上顯現出不同顏色的小方框,“每個(ge) 方框對應一個(ge) 文字,先切分再調整順序。紅色方框是提醒此處需要人工介入,來進一步判斷和處理。”
與(yu) 此同時,古籍圖像旁已自動識別出一段文字,並可比照原圖像進行修改調整。楊浩繼續解釋:“這個(ge) 過程中,主要使用了文字識別、自動標點和命名實體(ti) 識別等人工智能技術。文字識別技術,是對古籍數字圖像中的文字進行單個(ge) 切分,再進行文字識別和順序讀出;自動標點技術,是通過序列標注的方式對古籍自動進行現代標點;命名實體(ti) 識別技術,則是通過序列標注方法識別出文本中的人名、地名、書(shu) 名、時間、官職等信息。”同時,在機器自動識別後,會(hui) 有專(zhuan) 人複查結果,進一步提升準確率。
據悉,“識典古籍”平台文字識別的準確率達到96%以上,自動句讀的準確率達到94%,命名實體(ti) 識別在中古史料上的準確率接近98%。
“大部分古籍閱讀平台或隻提供掃描文稿,或隻提供文本內(nei) 容,有些商業(ye) 數據庫收費高昂,獲取資源十分不便。”北京大學曆史學係學生劉沐含說,“識典古籍”平台有著豐(feng) 富的檢索功能以及分類與(yu) 年代篩選功能,可以輔助開展學術研究。
一個(ge) 全流程的智能化整理平台
集納展示古籍數字版本,不是“識典古籍”平台的全部。團隊有著更大的設想——在一個(ge) 平台實現古籍智能整理的全部環節。
“‘識典古籍’平台由兩(liang) 部分組成,前端是閱讀平台,後端是古籍整理平台。”王軍(jun) 作了一個(ge) 比喻,“就像是餐廳的前廳和後廚。”
目前,作為(wei) “後廚”的古籍整理平台,已經設定了團隊管理員、書(shu) 目管理員、審訂員、整理員等各種用戶角色。下一步,將吸引各行各業(ye) 的古籍愛好者、研究者,以眾(zhong) 包校對、協同審核等形式,推進古籍整理項目和數據庫建設,打造“古籍圖像上傳(chuan) —文本校對整理—高質量標記—文本輸出”的全流程係統。
哈爾濱師範大學曆史文化學院學生劉鈺昕,提前體(ti) 驗了一回“整理員”角色。
“希望能為(wei) 損毀嚴(yan) 重的古籍做點力所能及的事情。”2022年4月,看到北大數字人文研究中心的招募信息,劉鈺昕第一時間報名,成為(wei) “識典古籍”平台的一名誌願者。
“我參與(yu) 了《春秋左傳(chuan) 注》《史記》《漢書(shu) 》等古籍的校對工作。”談及誌願工作,劉鈺昕的熱愛之情溢於(yu) 言表,“印象最深的就是,為(wei) 了製定魏晉南北朝官職標注規則,我查閱了大量的文獻,還詳細翻閱了《文獻通考》的‘職官考’二十一考。”
“新時代古籍事業(ye) 發展,需要一批對古典文獻學、古籍保護、信息技術以及數字化流程都比較熟悉,又能將各方麵有機融合的複合型人才。”北京大學中文係教授楊海崢建議,應加強古籍學科理論構建和課程體(ti) 係建設,編寫(xie) 適合新時代古籍工作需要的專(zhuan) 業(ye) 教材,並多為(wei) 學生提供實踐機會(hui) ,以推進新時代古籍人才隊伍建設。
“古籍是中華文明延續數千年未曾中斷的有力證明,希望通過‘識典古籍’平台以及暑期工作坊、學術研討等活動,推動中華文明傳(chuan) 承發展,向世界展示和傳(chuan) 播我們(men) 的文化之美。”王軍(jun) 說。
新年伊始,楊浩寫(xie) 下了新的展望:
“泱泱中華,曆史何其悠久,文明何其博大。2024年,希望能收集更多古籍、提升整理質量,更好守護古籍這個(ge) 文明之根!”
(厲 燁參與(yu) 采寫(xie) )
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。