新利平台 > 即時新聞 > 地方

用科技手段激活古籍瑰寶(講述·弘揚科學家精神)

發布時間:2023-06-28 14:56:00來源: 人民日報

  打開瀏覽器,登錄“智慧古籍平台”,可在線查閱4.4萬(wan) 篇古籍,除了著述、篇目詳情等基本內(nei) 容外,還有著者小傳(chuan) 、人物行跡、世係圖及社會(hui) 網絡關(guan) 係圖等延伸信息,全麵立體(ti) 地展現古籍內(nei) 容,滿足讀者一站式查詢、閱讀與(yu) 研究需求。

  這是由浙江大學徐永明教授及其團隊打造的人機交互式智慧數據共享平台,將中國古典文獻和研究成果圖譜化、智能化,打造了集瀏覽、查詢、研究、欣賞於(yu) 一體(ti) 的古籍大數據平台,通過科技賦能,讓古籍知識變得“觸手可及”。

  科技賦能,推動古籍資源“上線”

  在浙江大學文學院,記者見到技術團隊負責人徐永明時,他正專(zhuan) 心致誌地坐在電腦前,忙著審核已完成校對的古籍篇目並準備上線發布……

  “目前平台已上線著述總字數約700萬(wan) 字。”說罷,徐永明招呼記者上手體(ti) 驗。在“智慧古籍平台”,古籍內(nei) 容按“著述導覽”“篇目導覽”“著者導覽”等板塊分類呈現,界麵設計古典雅致、功能齊全,令人眼前一亮……

  “平台引入知識圖譜理念,綜合運用大數據進行計量統計、定位查詢、聚類查詢等,讓讀者輕鬆便利地獲取古籍知識。”徐永明邊演示邊介紹,點擊“篇目導覽”按鈕,即可進入文本閱讀界麵,“文本閱讀是本平台的特色功能,為(wei) 提高文本的真實性和準確性,平台提供了古籍圖片與(yu) 古籍數字化文本一一對應的功能。”

  不僅(jin) 如此,“智慧古籍平台”還有許多其他亮點:為(wei) 降低閱讀時查閱相關(guan) 資料的頻率,平台提供了關(guan) 鍵字詞釋義(yi) 功能,文本中重要信息及疑難詞按照人名、地名、職官、時間、典故等不同類型以不同顏色顯示,點擊即可查看釋義(yi) ;借助地理信息係統軟件,結合在線地理信息係統,古籍中留存的地理信息實現了可視化,點擊著者詳情,即可查看所鏈接的人物行跡圖……

  而提及地理信息可視化,不得不提徐永明團隊的另一個(ge) 平台——“學術地圖發布平台”,其中匯集了李白、蘇軾等500多位中華曆史名人的行跡圖、《全元詩》作者分布圖等各類學術地圖……“其實這個(ge) 平台比‘智慧古籍平台’還要早一些,是中國首個(ge) 綜合性學術地圖平台。”他介紹,平台迄今已發布1600餘(yu) 幅地圖,共有70餘(yu) 個(ge) 國家100萬(wan) 讀者的訪問量。

  綜合利用這兩(liang) 個(ge) 平台,徐永明團隊將文史數據與(yu) 數字地圖相結合,極大地增強閱讀體(ti) 驗,旨在豐(feng) 富讀者對古籍知識的綜合認知。

  為(wei) 解決(jue) 技術難題,文科背景出身的徐永明自學編程

  在徐永明看來,完善豐(feng) 富的前端體(ti) 驗少不了強大的後台技術支持,“比如,要將古籍圖像中的文字轉換成文本格式,就需要OCR識別,即‘光學字符識別’技術,平台現用的OCR技術能較為(wei) 精確地識別版刻古籍,準確率達到90%以上。”他向記者科普起來,再如,借助計算機學習(xi) 技術,平台采用的“機器古籍標點技術”,可根據特定算法為(wei) 古籍文本自動標注現代中文標點符號,準確率也穩定在90%以上。

  “但正所謂‘隔行如隔山’,僅(jin) 靠我一人無法建起這個(ge) 平台,需要許多相關(guan) 專(zhuan) 業(ye) 人員的支持。”他介紹,作為(wei) 項目負責人,從(cong) 2020年項目立項以來,他找來浙江大學計算機科學與(yu) 技術學院、地球科學學院和校圖書(shu) 館等相關(guan) 學院和部門老師,組建起一支20餘(yu) 人的技術團隊。

  這期間,曾遇到不少難點,“比如,前期需要不斷跟第三方公司磨合,解決(jue) 前、後台頁麵設計、框架布局、功能模塊等問題;到了後期,我們(men) 更換了合作方,又得重新磨合,主要解決(jue) 地域導覽、編輯器、職官圖譜、智能OCR服務引入等相關(guan) 問題。”徐永明說。

  緣何要研發這樣的古籍知識大數據平台?徐永明坦言,這跟自己早年的經曆有關(guan) 。上世紀90年代末期,他曾在浙江圖書(shu) 館古籍部工作過一段時間,目睹了讀者來看古籍善本有多不方便,比如隻能抄錄,複製的話也要經過許可,且費用很貴。

  在他讀博期間,國內(nei) 還沒有出全文檢索的《四庫全書(shu) 》電子產(chan) 品。那時,他寫(xie) 作博士論文材料,都是靠自己翻閱原書(shu) ,一條一條抄錄。這些經曆讓徐永明深深地感到,紙質文獻難以保存傳(chuan) 播,古籍信息存在“孤島化”“碎片化”現象,“如今,數字技術發展日新月異,我們(men) 便琢磨著能否將大數據技術與(yu) 古籍進行深度融合,為(wei) 傳(chuan) 承中華優(you) 秀傳(chuan) 統文化探索新的可能。”

  在“學術地圖發布平台”開發階段,麵對界麵不美觀,操作不方便,功能有限,經常出現程序故障等問題,文科背景出身的徐永明開始了他的自學Python(計算機編程語言)開發之路。在他的朋友圈,他時常發布學習(xi) 編程的動態、用Python完成的各種小成果、自己編寫(xie) 的代碼,等等。

  麵對海量數據,徐永明善於(yu) 利用團隊的力量,“過去整理古籍,主要是個(ge) 體(ti) 作業(ye) ,以書(shu) 為(wei) 單位,不能修改、不可關(guan) 聯,效率不高。”他說,“現在,我們(men) 將古籍整理任務通過勤工儉(jian) 學、暑期社會(hui) 實踐等形式,遴選相關(guan) 專(zhuan) 業(ye) 學生、專(zhuan) 家,在線上線下一同參與(yu) ,努力發揮集體(ti) 的智慧。”

  幫助讀者掃除古代文獻閱讀障礙,推動古籍閱讀普及化,激活學者的研究成果

  浙江大學中國古代文學專(zhuan) 業(ye) 的博士生郝亞(ya) 潔認領了新任務:對《徐文長文集》《吟香室詩草》等古籍的OCR校對結果進行二次審核。

  “根據平台不同時期的需求,我的工作內(nei) 容側(ce) 重點都有不同。”郝亞(ya) 潔介紹,比如,在平台建設初期,同學們(men) 主要負責數據上傳(chuan) 整理,“數據一般以一部文集為(wei) 單位,需要製作目錄文件把文集的文字內(nei) 容按照篇目和影像一一對應。”後期,郝亞(ya) 潔則負責OCR識別和機器標點校對後的人工審核等工作。

  全程參與(yu) “智慧古籍平台”建設,讓郝亞(ya) 潔受益匪淺……在她眼中,徐永明是治學嚴(yan) 謹的導師,自己從(cong) 平台維護中收獲良多。“比如,之前學過的Python計算機編程語言,就苦於(yu) 沒機會(hui) 實踐;現在的校對環節中,用Python代碼檢查不僅(jin) 幫了我大忙,更體(ti) 會(hui) 到了什麽(me) 叫‘活學活用’。”

  平台運行至今獲得各方好評,但徐永明坦言,“智慧古籍平台”建設任重道遠,想要把浩如煙海的中華古籍資源利用起來,還有很長的路要走。“我們(men) 的初衷很簡單,就是想為(wei) 讀者掃除古代文獻閱讀障礙,推動古籍閱讀普及化,激活學者的研究成果,突破學術壁壘,將前沿的學術研究成果轉化為(wei) 社會(hui) 大眾(zhong) 共享的文化資源,同時改變‘數據在中國,數據庫在國外’的現象。”

  麵向未來,徐永明團隊定下了新目標:利用“智慧古籍平台”進一步推進古籍數據資源的整合和開放共享,用智慧化手段為(wei) 中國古代典籍資源爭(zheng) 取“主動權”,讓古籍資源從(cong) “活下來”真正轉變為(wei) “活起來”!

(責編:李文治)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。