數字化為古籍研究帶來怎樣的“蝶變”
數字與(yu) 古籍,以前像兩(liang) 條涇渭分明的河流。
當它們(men) 相遇後,能產(chan) 生怎樣的效能和反應?
循著新近出台的《關(guan) 於(yu) 推進新時代古籍工作的意見》所提出的“推進古籍數字化”“積極開展古籍文本結構化、知識體(ti) 係化、利用智能化的研究和實踐”等要求,記者采訪了國內(nei) 從(cong) 事古籍智能化研究的學者,探一探數字化能給古籍保護與(yu) 研究帶來怎樣的“蝶變”。
沉寂的典籍,動起來了
一幅橫向流動的《千裏江山圖》上,標注了“涑水”“濂溪”“玉山”等若幹個(ge) 古地名。數百個(ge) 衣袂飄飄的儒生,正在圖上緩緩挪動,像是在“趕路”。他們(men) 從(cong) 一個(ge) 地方挪到另一個(ge) 地方的行程,代表著他們(men) 的求學曆程和所屬學派。
這是北京大學人工智能專(zhuan) 業(ye) 學生馬源和她的同學們(men) 向首屆“北京大學數字人文作品展”所提交的展品——用JavaScript完成的H5習(xi) 作,取名為(wei) “宋元學案傳(chuan) 承可視化係統”。
“像《宋元學案》這樣的大部頭古籍,離我們(men) 的時代太遙遠了。如果不是做專(zhuan) 業(ye) 研究的學者,可能根本想不起來要翻閱它。我們(men) 想通過這種像遊戲界麵一樣的形態,吸引年輕人了解古籍。”馬源說。
展覽現場,同樣能帶來“躍動”感的,是北京大學中國古代史研究中心副主任史睿指導桑宇辰等同學製作的“朱子年譜可視化係統”,它利用GIS(地理信息係統)技術,對《朱熹年譜長編》進行了時空的可視化呈現,讀者能自主點擊、了解朱熹求學、遊曆、交友的生平。
數字技術甚至賦予古籍研究人文學科的能力,遠不止讓它們(men) 像遊戲一樣動起來。
“數字人文代表著智能信息環境下,人文社會(hui) 科學研究範式的轉型,從(cong) 傳(chuan) 統的文本驅動向數據驅動轉型。人文研究的材料,如文獻、圖錄、器物等,都可轉化成某種形態的數據,從(cong) 而使得大數據和人工智能技術也能處理它們(men) 。視覺化隻是數字人文帶來的附帶效應,讓人易於(yu) 理解學術成果。而其深層邏輯,是研究範式的變化。”北京大學數字人文研究中心主任王軍(jun) 教授告訴記者。
展覽現場有他指導的博士生王林旭對《宋元學案》《明儒學案》《清儒學案》所做的數據挖掘成果展示——
“學術關(guan) 係網絡圖”,用正則表達式對《宋元學案》和《清儒學案》進行人物關(guan) 係統計,共有“弟子”“家學”“私淑”“同調”“學侶(lv) ”“講友”“交遊”“從(cong) 遊”“其他”9種類型,出現頻次一目了然。
“通過知識圖譜的重構,古籍不再是一座座文字的大山,古文裏的內(nei) 在結構和語義(yi) 關(guan) 係能在短時間內(nei) 被清晰的抽繹和展示出來。”王軍(jun) 說。
除了中國古籍能“數”讀,國外的古籍能“數”讀嗎?
答案是肯定的。
在北京大學外國語學院西葡意語係教師成沫對意大利詩人但丁進行的數字化研究項目中,《神曲》中重複頻率最高的三行詩韻律結構valle(山穀)、spalle(肩膀)、calle(小道)被精準地提煉了出來。
不僅(jin) 是“讀取”,還要能“演繹”
過去的典籍研究,主要靠大師。
大師在大量閱讀文獻的基礎上,靠一己的記憶與(yu) 思辨能力,產(chan) 出具有思想性的研究成果,再訴諸筆端,以文字的形態傳(chuan) 遞給大眾(zhong) 。
機器智能輔助下的典籍研究,則是以數據為(wei) 基礎的。在機器智能的介入下,學者能獲得瞬間處理海量資料的能力,王軍(jun) 分析。
清華大學中文係教授劉石和首都師範大學中國詩歌研究中心專(zhuan) 職研究員尹小林發表的一篇文章,對先秦到清代的百部經典古籍做了大數據分析,發現頗豐(feng) 。如果依賴於(yu) 人工統計,這樣的成果是難以在短時期內(nei) 產(chan) 生的。數字帶給經典典籍研究的變化之一,是效率的提升。
“在詩歌研究領域,前輩學者主要通過例證,來進行分析和總結中國古典詩詞的聲律。後來出現了手工標注統計和基於(yu) 大量詩詞的定量分析統計。然而這些研究結論都來源於(yu) 人工統計,單項研究的耗時長。”北京大學中文係教授杜曉勤回顧道。
有沒有一個(ge) 軟件,能“一鍵”就準確標注所有中國古典詩詞的聲律格式和合律程度呢?
從(cong) 2004年起,杜曉勤等開始建設中國古代音韻數據庫和中國古代詩歌文本數據庫,共錄入1萬(wan) 多個(ge) 漢字的音韻和900多萬(wan) 字的詩歌。在此基礎上,他們(men) 研發了“中國古典詩歌聲律分析係統”。這個(ge) 係統,能快速、大批量標記與(yu) 統計分析中國古典詩歌的聲律。
利用這個(ge) 係統,杜曉勤撰寫(xie) 了《齊梁詩歌向盛唐詩歌的嬗變》《六朝聲律與(yu) 唐詩體(ti) 格》等多部專(zhuan) 著,刊發了多篇論文。
在古籍數字化領域耕耘多年,王軍(jun) 想做的不僅(jin) 僅(jin) 是對古籍進行單向度的知識抽取和信息集成。
他指導唐雪梅、嚴(yan) 承希等博士生研發的古籍自動整理係統,通過對算法的深度學習(xi) 和大規模語料訓練,能對古籍的句讀和人名、地名、職官、書(shu) 名、時間五類實體(ti) 進行自動標記。其中句讀平均準確率達94%,命名實體(ti) 識別在史料上的準確率達98%。
“智能技術支持下的古典文獻研究,是未來古籍研究的重要方向之一。”王軍(jun) 說。
人文學科新氣象的“薪火”,從(cong) 這裏誕生
“昨夜星辰昨夜風,千秋靈會(hui) 此宵同。一枝月桂和煙秀,人在瓊樓玉宇中。”在一次公開演講中,清華大學計算機科學與(yu) 技術係教授孫茂鬆向聽眾(zhong) 展示了一首詩。
“你們(men) 能看出,這是一首從(cong) 4篇古詩裏摘錄句子組成的集句詩嗎?關(guan) 鍵是,能看出這是機器人創作的嗎?”孫茂鬆問。
通過算法和深度學習(xi) ,人工智能已經能媲美人類進行攝影、畫畫、作曲、寫(xie) 詩。
創造性,這一人類所獨有的領域,正逐步被機器介入,由此也產(chan) 生了一些倫(lun) 理問題——例如,機器通過習(xi) 得而非人類在感情充沛時產(chan) 生的創造物,能被稱為(wei) “藝術”嗎?
同樣的問題,也易產(chan) 生在人工智能賦能後的人文學術研究領域。
機器介入各類古籍研究後產(chan) 生的結果,如各類統計數據、可視化“圖譜”或者“頁麵”,能被認定為(wei) 具有思想性的人文研究成果嗎?如果能,怎樣量化它們(men) 的學術價(jia) 值?
“這些應該也算作成果的一種形式。在各個(ge) 學界,對數據集的重視都在日益增強,以古籍研究為(wei) 基礎的史學、文學等人文學科不應輕視,而且要更加重視。而可視化本身,一方麵可以幫助學者獲得更多洞見,另一方麵也能更好地向大眾(zhong) 進行傳(chuan) 播。有一些方式,是傳(chuan) 統手段難以達到的,是人文學科新氣象的‘薪火’,需要保護好。”北京大學智能學院教授袁曉如這樣回答記者的疑問。
“無論是可視化成果本身,還是成果產(chan) 生的傳(chuan) 播效應,都是可以計量的。當然,雖然數據驅動將智能技術引入了人文學科,但是數據的使用和意義(yi) 的闡釋,還是需要人文學者的介入和指導。”王軍(jun) 說。
新近出台的《關(guan) 於(yu) 推進新時代古籍工作的意見》要求,“加強古籍數據流通和協同管理,實現古籍數字化資源匯聚共享”“支持古籍數字化重點單位做強做優(you) ,加強古籍數字化資源管理和開放共享”。
這背後,有著怎樣的原因?
“因為(wei) 古籍智能化及以其為(wei) 基礎的人文學術研究需要大量的資金投入。計算工具平台、數據資源、技術服務團隊等,都需要投入。然而,每個(ge) 研究機構的資金實力是不一致的。傳(chuan) 統依靠一兩(liang) 位學者皓首窮經就能產(chan) 生大量成果的研究方法,在數字化時代可能不適用了。為(wei) 了彌補資金投入差別造成的學術鴻溝,就有必要加強共享。”王軍(jun) 談道。
“北京大學可以肩負起建設國家基礎設施的任務,同時也將這些設施對外分享,幫助偏遠地區或者學術資源不足的地方開展研究。”袁曉如說。
古籍數字化保護與(yu) 利用的新樂(le) 章,已經奏響了。(記者 韓寒)
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。