新利平台 > 即時新聞 > 文化

杜甫影響力高於李白?大數據研究唐詩宋詞結論很顛覆

發布時間:2022-04-18 14:32:00來源: 光明網

  大數據研究唐詩宋詞 結論很顛覆

  用大數據分析:唐代詩人白居易作品量第一 但影響力排十名之外宋詞名篇中收錄詞作最多的不是蘇軾、辛棄疾而是周邦彥

  用大數據分析唐宋詩詞,結論可能超出你的想象——唐代詩人中作品量居第一的白居易,影響力排在十名之外;宋詞名篇中收錄詞作最多的不是蘇軾、辛棄疾而是周邦彥;綜合影響指數表明,杜甫高於(yu) 李白、辛棄疾強於(yu) 蘇軾……

  以上新發現,是國家社科基金重大項目“唐宋文學編年係地信息平台建設”首席專(zhuan) 家、四川大學文學與(yu) 新聞學院講席教授王兆鵬分析所得。

  唐詩是中國詩歌史上第一座高峰。唐代詩歌五萬(wan) 多首,詩人三千餘(yu) 位,詩人和詩作都達到前所未有的量級。宋代詞人近一千五百位,詞作超兩(liang) 萬(wan) 一千闋。

  從(cong) 個(ge) 體(ti) 詩人來看,唐詩宋詞裏誰的作品最多?王兆鵬的大數據顯示,白居易名列唐詩作品量的榜首,詩作近三千;杜甫和李白緊隨其後,都超過千首大關(guan) 。宋詞中辛棄疾的詞作量位居第一,有六百餘(yu) 闋,其次是蘇軾、劉辰翁。宋詩的篇數,則由陸遊稱雄,凡九千多首,其次是劉克莊和楊萬(wan) 裏。

  根據綜合影響指數排名,唐代詩人影響力第一的是杜甫,其次為(wei) 李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇軾和周邦彥分別居第二、第三。高居宋詩影響力榜首的是蘇軾,作品量雄居榜首的陸遊緊隨其後。

  提到唐詩宋詞的名家,人們(men) 習(xi) 稱“李杜”“蘇辛”,似乎李優(you) 於(yu) 杜、蘇勝於(yu) 辛。但綜合影響指數表明,杜甫高於(yu) 李白、辛棄疾強於(yu) 蘇軾。更令人意外的是,最受追捧的詞人不是蘇、辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各占十五首和四十首,占有率遠高於(yu) 蘇、辛。

  用客觀的數據去衡量、分析頗為(wei) 主觀的詩詞鑒賞,是否科學、能否可行?在接受北京青年報記者專(zhuan) 訪時,王兆鵬強調,雖然數據能在一定程度上描述顯示文學史的發展麵貌和進程,但也有明顯的局限性。

  30年前開始研究

  積累了上百萬(wan) 條數據

  問:《大數據裏的唐宋詩詞世界》課題的初衷是什麽(me) ?

  答:我1992年就開始做唐宋詩詞的定量分析了。初衷是每人心目中都有自己的唐宋詩詞名篇。究竟曆史上哪些唐宋詩詞被視為(wei) 名篇,我想用統計數據來分析衡量。

  問:那您是如何利用大數據來衡量唐宋詩詞質量的呢?這些數據是如何統計出來的?

  答:唐宋詩詞作品的質量,目前還沒找到有效數據來評估、衡量。我目前正在努力嚐試構建文學作品質量的評價(jia) 指標體(ti) 係,以便搜集數據。這需要比較長的過程。此外,個(ge) 人建立的評價(jia) 指標體(ti) 係,需要學界的認同和共識。

  問:關(guan) 於(yu) 文學指標體(ti) 係,學界目前的研究現狀怎樣?

  答:大數據時代的文學數據,需要分類分層建立起文學史數據的指標體(ti) 係,以確保數據的信度和效度。但目前用大數據來做唐詩宋詞研究的學者不多,為(wei) 學界共享的唐宋詩詞大數據也相當有限。

  從(cong) 1992年到現在,我雖然積累了一百多萬(wan) 條和唐詩宋詞有關(guan) 的數據,但還不完備、不均衡。有的時段數據多,有的時段數據少;有的這一類數據多,那一類數據少;有的詩人數據多,有的詩人數據少。我們(men) 常感慨“書(shu) 到用時方恨少”,數據更是這樣。全方位分析唐詩宋詞時,常常覺得數據不夠用。

  在我看來,文學評價(jia) 指標體(ti) 係應該以作品為(wei) 中心來建立。作家的影響力是以作品的影響力為(wei) 前提。而作品評價(jia) ,可分兩(liang) 個(ge) 維度,一是相對穩定作品的內(nei) 在文學價(jia) 值,二是動態不居作品的外在影響力。其文學價(jia) 值,可考慮從(cong) 內(nei) 容和形式兩(liang) 個(ge) 層麵來評估。

  作品影響力則從(cong) 創作者、評論者、普通讀者三個(ge) 層麵來衡量。一是對創作者的影響,包括引用、化用、仿效、改編、翻譯等,體(ti) 現出作品的典範性和吸引力;二是對評點者的評論和學者的研究,反映出作品在文學批評、學術研究層麵的美譽度和關(guan) 注度;三是在普通讀者中的傳(chuan) 閱度和知曉率。確定作品的價(jia) 值、影響的基本要素和結構後,再構建計算模型,然後由計算機在相關(guan) 資源庫、語料庫和網絡運行,挖掘提取相關(guan) 數據,最後計算出每篇作品的得分。

  數據無法測度藝術含量

  和審美價(jia) 值高低

  問:您在課題裏提到,據統計,東(dong) 漢到隋末近六百年,詩歌總共才五千餘(yu) 首,而到唐代,詩歌第一次超過萬(wan) 首並直接跨越到五萬(wan) 多首。唐詩比之前的八代詩增加了七倍多,詩人由六百餘(yu) 位增加到三千餘(yu) 位,詩人和詩作都達到前所未有的量級。這個(ge) 數據從(cong) 何而來,有參考哪些重要的文獻資料嗎?

  答:數據來源於(yu) 我的老朋友尚永亮教授的兩(liang) 篇論文:《八代詩歌分布情形與(yu) 發展態勢的定量分析》和《唐知名詩人之層級分布與(yu) 代群發展的定量分析》。

  問:白居易的詩數量最多,影響力卻在前十名開外,這是如何判定的?

  答:用數據衡定的。我們(men) 用了多種數據,對唐代詩人影響力進行排名。白居易的影響力,在現當代大於(yu) 古代。他的綜合影響力,遠不如李白、杜甫。

  問:那您通過大數據判定唐詩宋詞質量的依據是什麽(me) ?

  答:目前隻能用大數據衡量唐詩宋詞影響力的大小——包括對後代詞人創作的吸引力,在後代詞評家中的美譽度,在普通作者中的知名度等等。目前暫時還不能用數據測度唐詩宋詞藝術含量和審美價(jia) 值的高低。

  文學中心在北宋初

  就完全移到南方

  問:用大數據研究唐宋詩詞有無遇到一些學術上的困難,又是如何克服的?

  答:文學研究從(cong) 來沒有數據意識,困難不僅(jin) 在於(yu) 到哪兒(er) 去找數據,更在於(yu) 找什麽(me) 樣的數據。究竟什麽(me) 樣的數據有用有效,既需要理論的支撐,也需要在實踐中檢驗。理論上,我們(men) 不斷探求,從(cong) 統計學、計量信息學和計量曆史學中去尋找理論和方法的啟示;實踐上,反複試驗,失敗了重來。最痛苦的是,數據庫建好了,文章也寫(xie) 完了,忽然發現數據來源不全,隻好從(cong) 頭補齊數據,寫(xie) 好的論文又推倒重來。

  問:您在大數據具體(ti) 研究中還有哪些新發現呢?

  答:數據的意義(yi) ,既能確證傳(chuan) 統的結論,也會(hui) 修正傳(chuan) 統的結論,更能發現新問題,改變傳(chuan) 統的認知。比如,中國文化地理有一個(ge) 著名的結論,中國文化中心,是由北方中原逐步向南方移動,第一次南移是東(dong) 晉永嘉之亂(luan) ,第二次南移是唐代安史之亂(luan) ,第三次南移是宋代靖康之亂(luan) 。三次戰亂(luan) 推動了文化中心的南移,靖康之亂(luan) 後,文化中心就徹底移到南方。我們(men) 的大數據發現,文學中心在北宋初就完全移到南方,南方作者的數量全麵超越北方,無需等到靖康之亂(luan) 後。而且,戰爭(zheng) 不是推動文化中心南移的唯一因素。

  我們(men) 還發現,宋代的文學中心,是逐步向東(dong) 南沿海移動。按今天的地市級行政區劃來統計,宋代福建南平的作者人數最多,名列第一,福州居第二,這很讓人驚訝。與(yu) 此相關(guan) 的是,宋代進士人數福州第一,南平第二。可見當時南平、福州教育發達,進士多,詩詞作者也多。教育與(yu) 文學是高度正相互的。

  此外,我們(men) 還發現蘇東(dong) 坡詞的創作高峰是在黃州,他三分之一的詞是在貶謫黃州期間寫(xie) 的,他的名篇佳作一半是在黃州寫(xie) 的。比如宋詞的第一名篇《念奴嬌·赤壁懷古》就是在黃州寫(xie) 的。黃州成就了蘇軾詞作的輝煌。

  文/本報記者 張恩傑 統籌/劉江華

(責編: 常邦麗)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。