基于自然语言处理的钱塘江诗路唐诗景观要素挖掘与场景呈现
2023-08-26张亚平李佳艳
徐 涛 徐 斌 张亚平 李佳艳
1 研究背景
1.1 传承“诗意栖居”营建智慧
诗是“文学中的文学”,是具有中国古典文化特色的地理认知表达方式[1]。既往研究表明,诗词文本是还原社会生活图景、传达理想景观认知、阐述在地文化内涵的基础资料[2]。对诗词文本语义的挖掘为知悉古人景观审美、洞见古代城乡风貌、传承诗意栖居营建智慧提供支撑。此外,文本信息的空间属性逐渐成为历史文本语义表达的热点。相关研究[3-4]便体现了古诗词系地研究对区域环境风貌优化的重要价值。然而,一些地方的建设实际与诗意栖居的内涵、特征存在差距[5]。尤其在广袤的乡村,营造“望得见山,看得见水,记得住乡愁”的诗画风貌任重道远[6]。这一现状从侧面反映出诗词文化价值的识别意义重大,诗词景观空间的解译与诗意栖居营建智慧的探索亟待深入。
浙江省人民政府在2019年10月发布了《浙江省诗路文化带发展规划》①,决策部署浙东唐诗之路、大运河诗路、钱塘江诗路、瓯江山水诗路四大诗路文化带。其中,钱塘江诗路范围最广、跨度最大,自隋唐运河南北贯通后被往来文人盛赞为“东南财赋地,江浙人文薮”。而唐代是钱塘江诗路奠定雏形的发生发展期,唐诗是探源诗路文化内涵的一手材料。因此,以钱塘江诗路唐诗为研究对象,挖掘诗情画意的景观要素与空间意象,解析如诗如画的自然风貌与人文情境。
1.2 “自然语言处理”进阶文本挖掘能力
“数字人文”(Digital Humanities)是全球人文学者瞩目的新兴跨学科领域。得益于数据库的建设、数字平台的开发与研究范式的创新[7-9],“数字人文”延展了众多学科领域的对象范畴与思维理路。其中,自然语言处理(Natural Language Processing,NLP)作为“数字人文”的关键技术,以统计代替文法规则,完成了人类语言与计算机符号之间的双向转译[10],进而被广泛应用于摘要生成、文本聚类、机器翻译等多种文本挖掘场景[11]。
在技术层面,近年来多数研究都将重点聚焦于新模型的开发与优化组合上。例如在卷积神经网络(CNN)[12]、循环神经网络(RNN)[13]等语言建模模型的基础上,为应对计算能力有限导致信息超载、语料资源缺乏导致数据不足等问题,一系列基于预训练模型(MASS)的改进模型[14]为文本挖掘带来了革命性进步。同时,NLPIRICTCLAS汉语分词系统[15]为中文语料的自然语言处理提供了强大支撑,成为中文世界“数字人文”研究的奠基之作。
在应用层面,国内外研究主要涉及社交媒体、电子商务、医疗健康、专利分析等。例如,Wang等[16]基于深度学习的混合NLP方法,从CLAMP工具中快速构建了性能更优的COVID-19症状系统;Yang等[17]通过关联关键词fear的相关文本数据分析,更好地反映了投资者情绪。可见,NLP作为计算机科学与语言学的融合焦点[10],为不同语言形式的文本挖掘与不同行业领域的知识发现开辟了广阔前景。
1.3 古诗词文本挖掘的关键参数创新
借助对某一景点相关诗文的要素抽取、意境解析与意象探讨,传统的古诗词景观研究对深入探究典型样本的诗意内涵具有重要价值,尤其是对文字背后深藏的个性审美与情思隐喻具有深入理解[2,18]。然而,过于精细化的研读导致其缺乏处理大量样本的能力。在这一方面,更侧重场所空间集体认知与景观审美普遍经验[19]的NLP研究范式恰恰能与其互补。虽然某些单词在个案中的隐喻偏向及语境不同所产生的语义流变难以被精细识别,但NLP技术能够快速挖掘并充分利用海量数据背后的集体潜意识,为古诗词的批量处理创造可能[20]。因此,基于NLP的古诗词文本挖掘与传统的古诗词景观研究在效率与细节、广度与深度上各有侧重、相辅相成。
然而,诗句中同种景观语义的符号往往因修辞、语境的不同而异化为形式多样的词条,这种语言特征成为NLP研究中“强化共性,提取主流”[5]的巨大阻挠。因此,将非结构化、异化的源词条按照“同(近)义词”归并为标准词条成为常见做法[4-5]。但这种方式需要遍览整体古诗词样本,人工逐一判断并登录词条的对照关系,耗费大量人力,且难以在新的研究对象中沿用推广。因此,一种自动化效率更高、复用性更强的异化符号归一化路径亟待探索。
古诗词是高度凝练的语言艺术,古汉语是以“单音节”(单字)为主的语言[21]。同时,符号意指系统认为,在词条中语义源主要来自名词,而色彩、数量、方位等限定词仅充当辅助语[22]。由此,本研究创造性地以“景观名词单字”代替、归并形式多样的景观要素词条,作为古诗词文本挖掘的关键参数。这种“以字代词,归并差异”的思路仅通过对核心参数的调整,便使全过程大部分环节都能凭借机器分词、命名实体识别等自动化处理步骤来实现,进而更快速地构建了古诗词景观语义系统,弥补了既往研究在数据预处理时操作烦琐、人力投入大、复用性不佳的缺憾。
综上,本研究以钱塘江诗路唐诗为对象,创新了一种以景观名词单字为文本挖掘关键参数的思路,充分发挥了NLP技术在批量处理上的强大效能。同时,结合共现语义网络、核密度分析等手段,提炼景观要素与空间意象,呈现诗词文学地图,为区域城乡风貌的差异化建设、诗意栖居营建智慧的在地性传承提供参考。
2 研究方法
2.1 文本数据来源与异化词条归一化处理
以《钱塘江诗词选》②中收录的89位诗人的262首唐诗(总计15 069字)为研究材料。首先,为自动筛除不可切分的专名,借助Jieba模块,完成分词、命名实体识别等步骤,得到钱塘江诗路唐诗历史典故。之后,为批量清洗低频单字及语义辅助单字,调用Collections、Posseg等函数,实现字频统计、词性标注等工作。最后,从获取的名词单字集合中识别景观名词单字,得到钱塘江诗路唐诗景观要素单字。
2.2 景观要素单字与历史典故词汇的分类统计
借鉴章政[23]、李源[4]等的做法,将103个历史人物专名与198个景观要素单字划分为天景、地景、水景、生景、人物、建构与典故7个类别。依托Collections模块,统计比较各类别要素的出现频率,探究钱塘江诗路唐诗的典型自然景源要素与人文景源要素。
2.3 诗词共现语义网络呈现与文本聚类
根据每2个景观要素单字在同首诗中的共现频次,构建198×198的共现矩阵。之后,将其导入Gephi 0.9.3软件,借助社区探测算法③,依据要素间的关联性将诗词景观要素自动聚类。利用平均度统计功能,过滤影响力较弱的单字。在此基础上,将各聚类中的景观要素细分,重组为“天景-地景-水景-生景-建构筑-人物”的景观组合序列。
2.4 空间意象分布特征的核密度分析
结合“唐宋文学编年地图”[24]推导研究材料中160首唐诗的地名线索。借助Requests模块,在百度地图API中爬取诗词写作地点坐标,构建各类别诗词文本空间信息一体化数据集。最后,利用GIS核密度分析工具,分类呈现钱塘江诗路唐诗场景意象的分布结果。
3 钱塘江诗路唐诗景观要素挖掘
钱塘江诗路唐诗所蕴含的景观要素可分为两大类、7个中类、47个小类。大类方面,自然景源要素(2 075次)比人文景源要素(711次)的提及频数更高,一定程度上反映出古人对自然景物的偏爱;中类方面,水景(590次)和建构设施(349次)分别为自然、人文景源中最易被古人感知的类别,这一结论在契合钱塘江地理属性的同时,也彰显了古人的环境审美意趣;小类方面,日月星光、水岸景观、浪潮、鸟类、舟船、行客、隐士逸人等是钱塘江流域唐诗画卷的基本构景要素。
3.1 自然景源要素
由图1 可知:在地景和水景方面,“嶂”“崖”等仅见于上游,“洄”“濑”等仅见于中游,体现出上中游区段“山峻水急”的特质[25];而在下游,“皋”“浦”等特征单字强调了滨水平地的位置属性。在植物景观方面,上游的“荷”“杉”等体现了“荷香坐久著衣巾”的乡土风情;中游的“萝”“枫”等体现了“翠萝深处遍青苔”的山野逸趣;下游的“荻”“苹”等体现了“荻花寒渡思萋萋”的滨水景观。在动物景观方面,“鸡”“蝶”等乡村的代名词集中于上游;啸聚山林的“猿”在中游数量最多;而下游主要为“鲸”“鳌”等海洋生物。可见,山川地貌、花草树木、鸟兽虫鱼是诗人游赏行为的重要诱因与地域特色的鲜明标志。因此,尊重区域山水格局、摸排当地生物资源,做到“显山露水,知花知鸟”,对推进钱塘江流域地方生态名片的个性化打造具有重要意义。
图1 钱塘江诗路唐诗自然景源要素
值得注意的是,通过“坳如开玉穴”等诗句发现,“岫”“穴”等并非现实景物,而是诗人对波涛、浓云等的形象比拟。这类用字虽然出现频率极低,但却对厚植场所人文内涵、抒发空间艺术魅力具有增益效果,需在更精细的景观要素挖掘中得到充分关注。
3.2 人文景源要素
由图2可知:在建构筑方面,从“帆”“津”“桥”等水运设施中能窥见唐代钱塘江流域因水而兴的生活画卷;“寺”的反复出现映射了江南地区“东南佛国”的重要地位;此外,从“府”“阙”“驿”等众多建筑形制中能够推测下游城镇化水平在当时显著高于其他区段[26]186。在人物方面,“客”在全流域的高频出现反映钱塘江自江南运河开凿以来的交通繁忙[26]165;“渔”是当地水乡泽国环境下的经济产业代表;“隐”“僧”“仙”是当时三教并存背景下的文化信仰使者。可见,人造设施、建构筑、人物对认知区域城乡风貌、产业结构、文化信仰具有显著标识作用。因此,对历史遗存建筑的保护、传统建构符号的转译、“画中人”形象的挖掘是诗意栖居营建智慧传承的有效途径。
图2 钱塘江诗路唐诗人文景源要素
历史典故是在地文化挖掘与场所精神塑造的重要支撑。纵观整个流域,上游中陶渊明被高频提及,说明此处的乡村风光不亚于“世外桃源”;中游,严子陵“羊裘垂钓”的高风亮节令后世诗人竞相吊怀;而下游作为吴越争雄的用武之地[27],伍子胥、范蠡等名臣良相成为脍炙人口的地域文学话题。可见,典故作为古诗中历久弥新的“文化偶像”,更应予以活化利用,成为提升钱塘江流域文化归属与精神认同的重要依托。
3.3 景观要素挖掘的可信度检验
研究随机抽取了45个景观名词单字,采用“单字-词条”语义对照的方式展开景观要素挖掘的可信度验证。结果表明,45个景观名词单字在诗句中共构成了1 087个景观要素词条,其中,与单字语义相符的词条占比达85.6%,说明“以字代词,归并差异”的异化词条标准化方法具有较高的准确度。
4 钱塘江诗路唐诗场景画面提取
在由4 335组共现关系组成的图3中,圆点与文字的大小对应景观要素单字的节点度,即该要素在文本中的重要性。而连线的粗细表征源要素与目标要素之间的边权重,即某对要素之间关联的紧密程度[28]。通过比较,发现聚类一的平均节点度与平均边权重最高,说明聚类一在钱塘江诗路唐诗中的认知度最为广泛,其次是聚类二、聚类四和聚类三。
图3 钱塘江诗路唐诗景观要素共现语义网络
4.1 类簇一:缘江行舟——泛江漫游,孤舟怅行
类簇一(图4)的主要要素有“孤舟征帆”“夹岸云山”“鸟飞猿啼”“江流洲滩”等(图5)。同时,“新安江上孤帆远,却令猿鸟向人悲”等诗句也描绘了“沧江一孤舟,猿鸟两岸啼”的画面。而隋唐时期,作诗写赋是开科取士的重要内容,诗人南下漫游、泛舟远行常常是为“干谒”“温卷”提供准备[29]。综上,将类簇一演绎为“缘江行舟——泛江漫游,孤舟怅行”。
图4 钱塘江诗路唐诗各聚类景观要素共现语义网络
图5 钱塘江诗路唐诗各聚类景观要素组合序列
4.2 类簇二:坐城观涛——江楼高坐,八月观涛
类簇二(图4)的主要要素有“风涛浪潮”“江城楼关”“高岸平浦”等(图5)。同时,“楼有章亭号,涛来自古今”等诗句也展现了“江楼对海门,郡亭看潮头”的画面。而学者也考证出钱塘文化段“看潮赏桂”的潮文化定位[30]及“登楼倚轩,凭栏观潮”的行为图景[31]。综上,将类簇二定义为“坐城观涛——江楼高坐,八月观涛”。
4.3 类簇三:林泉渔隐——林泉垂纶,严陵怀古
类簇三(图4)的主要要素有“空林翠岩”“碧潭清泉”“渔夫钓台”“严陵高隐”等(图5)。同时,“客星依钓隐,仙石逐槎回”等诗句也描绘了“垂纶隐居,寄情山水”的场景。而学者也通过探索以严子陵为代表的富春文学传统与东晋王、谢山泽的乐游之风,论证了唐诗继承了隐逸文化为核心的清新风格[32]。综上,将类簇三演绎为“林泉渔隐——林泉垂纶,严陵怀古”。
4.4 类簇四:江村田居——乡野旅居,联唱交游
类簇四(图4)的主要要素有“洲渚涧池”“翠竹垂柳”“江村平田”“行客归舟”等(图5)。同时,“野桥经雨断,涧水向田分”等诗句也描绘了“乡野觅趣,栖身田园”的场景。而相关研究证实,唐人延续了王羲之“兰亭雅集”的交游传统,大历年间便有鲍防、严维等37名诗人在兰亭、镜湖等郊野地区闲居游玩[33]。综上,将类簇四定义为“江村田居——乡野旅居,联唱交游”。
5 钱塘江诗路唐诗空间意象分布特征与成因分析
5.1 缘江行舟:“水运要道”的开辟与“远行南游”的风靡
“缘江行舟”在钱塘江流域分布最为广泛,而中游的严陵钓台(今杭州市桐庐县严子陵钓台景区)是该主题的分布中心(图6)。“南归犹谪宦,独上子陵滩”等诗句表明诗人在行舟途中常会刻意造访。而该场景在上、下游的分布则见证了古人送别酬答的行为图景,例如,“倾手奉觞看故老,拥流争拜见孩提”等诗句便写于下游的西陵古渡(今杭州市滨江区西兴古镇)。究其原因,为密切京畿与江南财赋之联系,隋唐时期形成了以杭州为中心的水路交通网络[34]。同时,诗人自中原坐船南游在魏晋时已属常态。到唐代,“扬子、钱塘二江者,舟船之盛,尽于江西”[35]。由此,在钱塘江上“泛江漫游,孤舟怅行”成为唐代诗人笔下重要的壮游经历,也为后世留下了“棹声帆影”的诗画意境,开辟了吟咏吴山越水的经典游线。
图6 钱塘江诗路唐诗空间意象核密度分布
5.2 坐城观涛:“滨江城郭”的落成与“观潮节俗”的兴起
“坐城观涛”显著聚集在钱塘江下游近海一带(图6)。“潮来一凭槛,宾至一开筵”等诗句表明,“江楼对海门,郡亭看潮头”这种在高处建筑中观潮游宴的活动在当时当地深受追捧。究其原因,隋唐时期钱塘江流域迎来了城市演化的第三个高潮期,此时的杭州城“咽喉吴越,势雄江海,骈樯二十里,开肆三万室”[36],已跃升为东南地区首屈一指的都市。同时,早在东汉《越绝书》中已有对钱江潮涌的记载。至唐一代,八月十八观钱塘潮已固化为一项重大娱乐活动,“数百里士女,共观舟人渔子溯涛触浪”[37]的弄潮节目热闹非凡。由此,“江楼高坐,八月观涛”作为一种地域节俗在诗人的演绎下成为钱塘江流域的文化标志,尤其在南宋时成为该区域诗作的首要题材。
5.3 林泉渔隐:“山林幽居”的开发与“漫游隐逸”的继承
“林泉渔隐”的汇聚中心位于中游的严陵钓台、七里滩一带(图6)。“于今七里濑,遗迹尚依然”等诗句表明人们对旅游目的地的选择倾向,很大程度上受到当地历史名人的吸引[38]。此外,唐代钱塘江中游的幽美生境,是古人催生“垂纶隐居,寄情山水”情愫的重要诱因[39-40]。究其原因,从“客星钓濑”“谢客开山”等早期探玄山水的个人行为,到梁武帝、陈后主等君王大举开发山野修建佛寺的国家工程[41],一座座“山林幽居”在钱塘江流域不断涌现。同时,自晋室南渡为始,漫游、隐逸之风盛行,来此寄身“山川之乐”成为清流雅士追随效仿的文化潮流,或是追求仕途的“终南捷径”[42]。由此,“林泉垂纶,严陵怀古”在钱塘江中游一带的影响力与日俱增,在元代画家黄公望的一卷《富春山居图》中推向巅峰。
5.4 江村田居:“乡村田园”的繁盛与“乡野别业”的发展
“江村田居”的分布特征与“林泉渔隐”相似,不同之处在于下游的密度略有提升(图6)。“鸟向乔枝聚,鱼依浅濑游”等诗句表明中游优越的山水资源本底使其成为乡村聚落选址的上乘之地。而在下游,“南馆西轩两树樱”等诗句表明该意象多与诗人早发、夜宿的差旅节奏有较大关联。究其原因,历史上第三个温暖期的到来、人口的大幅增长、水稻复种制等[43]的推行,使得“蹊田踱牛、渔樵耕读”的生活场景与“屋舍俨然、小桥野驿”的建构环境在唐代钱塘江流域乡村大规模出现[44]。同时,一部分文人掀起了营建乡野别业的潮流[45],“乡野觅趣,栖身田园”在当时已被士人作为排解贬谪、避乱之苦的理想行为选择。
6 结论
相比于现有研究所采用的“同(近)义词归纳,人工搭建词条对照关系”的异化词条归一化办法,本研究创新了以“景观名词单字”作为古诗词文本挖掘参数的思路。其所挖掘的景观要素数量(198个)与共现关系数量(4 335组)分别是既往研究的4倍与8倍。同时,经语义对比抽查,其准确率达85.6%,可信度较高。因此,该方法以更少的人工介入与更强的复用性,将为更大量级的诗词语料处理提供实操可能。
首先,通过Python从钱塘江诗路唐诗中提取出了两大类、7中类、47小类的景观要素。发现日月星光、水岸景观、浪潮、鸟类、舟船、行客、隐士逸人是唐代钱塘江流域诗意栖居画卷的核心构景元素。同时,推导出上、中、下游各区段在人居环境风貌上分别以乡土田园、山林幽居、滨江城郭为侧重。以上结论为识别古人理想景观审美、还原古代社会生活图景提供了重要参考。
其次,借助Gephi共现语义网络实现了钱塘江诗路唐诗四大场景画面的提炼与影响力排名。发现“泛江漫游,孤舟怅行”是唐代钱塘江流域诗画长廊的首要空间意象,其次是“江楼高坐,八月观涛”与“乡野旅居,联唱交游”,最后是“林泉垂纶,严陵怀古”。以上结论为认知诗意自然环境与人文情境的内涵特征、设定区域城乡风貌提升的多层级目标提供了支持。
最后,基于GIS核密度工具分析了钱塘江诗路唐诗空间意象的分布特征。发现水运要道的开辟与远行南游的风靡使得“缘江行舟”成为唐代钱塘江流域分布最广的全域性景观画面;在漫游隐逸、观潮节俗等文化因素的影响下,“林泉渔隐”“坐城观涛”在布局上分别与中游山林幽居、下游滨江城郭的区段环境风貌高度契合;而“江村田居”在中游的分布则与唐代文人营造乡野别业以供宴饮交游有关。以上结论可以为现今浙江省诗路文化带沿线各区段的特色品牌树立、城乡风貌提升、文旅产业发展提供针对性指引。
然而,在更快捷地解读古诗词集体景观认知与整体空间概貌的同时,以“比兴”为代表的艺术化、人文化表达仍有待被精细识别。此外,由于诗词朝代的单一,本研究着力于分析诗词景观意象的空间分异规律,未能开展对诗词景观历史演变轨迹的探讨。因此,开展钱塘江诗路诗词景观特征的纵向比较,解译钱塘江诗路流淌至今的诗意密码,可作为后续研究的深入方向。
注:文中图片均由作者绘制。
致谢:感谢浙江大学生命科学学院杨国福博士对数据分析的指导。
注释:
① 来源:浙江省人民政府关于印发浙江省诗路文化带发展规划的通知(浙政发〔2019〕22号)。
② 《钱塘江诗词选》由浙江省诗联协会与杭州出版社组织选编,筛选了自东晋至20世纪中叶近500位诗人的2 374首作品。该书是我国第一套兼具可供研究与欣赏的历代钱塘江诗词最权威的选本。
③ 社区探测法(Community detection):又称社团发现,是根据网络中节点的自然连接结构进行聚类,揭示网络聚集行为的一种技术,能够更深入地挖掘网络中的隐藏信息。其中,模块化指数(Modularity index)是衡量网络社区划分质量的重要指标,其值越接近1,表示网络划分质量越好。本研究中模块化指数为0.85,证明聚类结果可靠。