新时期丝绸文化演变的大数据解读
2020-12-28陶晨鲁佳亮苏淼周赳
陶晨 鲁佳亮 苏淼 周赳
摘要: 为解决新时代背景下丝绸文化蜕变的数理实证问题,文章针对丝绸文化特点构建其文化特征体系。利用互联网采集的大数据进行丝绸文化特征体系的填充,采用人工归类与类属计算相结合的方法,对特征词的综合上下文性质进行量化,解决模糊特征的归类问题;应用该文化特征体系,结合特征词频率统计方法,考察丝绸文化的特征分布及其新时代内涵;通过在时间轴上跟踪文化特征分布的变化,揭示丝绸文化演进的失衡区间和“三分段”模式,并分析失衡区间中的拐点现象及其成因。通过将大数据采集和计量方法与传统文化特征体系无缝衔接,研究以数理实证方式展示了丝绸文化的内涵升级和结构重组,有助于深入理解“一带一路”影响下传统文化的现实状态和发展方向。
关键词: 丝绸;一带一路;文化计算;文化特征;特征词;词频
中图分类号: TS101.1;G202 文献标志码: A 文章编号: 10017003(2020)12007406
引用页码: 121112 DOI: 10.3969/j.issn.1001-7003.2020.12.012(篇序)
Interpretation of silk culture evolution in the new era through big data
TAO Chen1, LU Jialiang2, SU Miao2, ZHOU Jiu3
(1.College of Textile and Garment, Shaoxing University, Shaoxing 312000, China; 2.International Silk Institute, Zhejiang Sci-Tech University,Hangzhou 310018, China; 3.Silk and Fashion Culture Research Center of Zhejiang Province, Hangzhou 310018, China)
Abstract: To solve the issue of mathematical empiricism on silk culture transmutation in the new era, a culture feature system was built for silk culture features. The silk culture feature system was then filled with big data collected from the Internet. Combined with manual classification and generic calculation, the integrated contextual characters of the feature words were quantified to solve the classification problem of fuzzy features. The feature distribution of silk culture and its connotation in the new era were investigated by applying the culture feature system and combining the statistical method of the frequency of feature words. The unbalanced interval of silk culture evolution and its "three-section" pattern were revealed through tracking the changes in the culture feature distribution on the timer shaft. Meanwhile, the yielding point in the unbalanced interval and the cause of its formation were also analyzed. By seamless connection of the big data collection and measuring techniques with conventional culture feature system, this study manifested the connotation upgrading and structural reorganization of the silk culture in an empirical way, which helps understand the actual state and development direction of traditional culture under the influence t of the Belt and Road initiative.
Key words: silk; the Belt and Road; culture computation; culture feature; feature word; word frequency
丝绸在中华文明史中历尽精雕细琢、数千年而不辍,成为国人文化自信的重要来源。近十年来中国丝绸文化进入崭新的发展时期,期间发生的一些重大社会历史事件,特别是“一带一路”倡议的提出,推动了中国丝绸文化的加速演化,由此带来的文化结构的重组与内涵升级,造成丝绸文化的一次重要蜕变。评估新时期丝绸文化的变迁,是传统文化传承和扬弃的前提条件,也是衡量“一带一路”社会影响力的重要途径。国内已有许多学者探讨“一带一路”背景下传统文化的演变和跨越式发展,如讨论丝绸文化的复兴[1]、新时期文化共同体的形成[2]、新丝路历史文化遗产的保护策略[3]、丝绸文化传播与经济发展的互动关系[4]等。该类研究采取社会调查、资料整理和观点讨论的传统方法,具有如下两个特点:第一,论证多于实证,主要采用思辨、讨论的方式,提出愿景或对策,而少有数据实证或评估;第二,定性而非定量,仅阐述“有什么”而不能回答“有多少”。隨着人工智能和大数据的不断深入,近年来文化研究领域呈现出明显的数据密集特点,在研究目标上又产生了更高的数量化需求,跨学科的“文化计算”应运而生[5]。文化计算起源于哈佛大学的Aiden和Michel对谷歌数字图书数据进行的研究[6],其通过海量文本中单词或人名随时间变化的频率,推导出了一些重要历史文化事件和趋势,证明了利用大数据处理手段提取文化特征并进行量化分析的可行性。邵培仁[7]等对词频方法用于文化基因的提取做了探索,提出了利用文化计算方法进行中华文化基因库建设的构想;龚为纲等[8]讲通过大数据词频分析,结合关系网络与语义情感,考察了海上丝绸之路中丝绸产品的贸易格局和文化影响力;Correia等[9]考察不同语言中各种动物名称的频率分布,通过实时监测物种文化可见度的变化,揭示了公众环保意识的纵深演化;Kozlowski等[10]利用词向量模型研究社会阶级结构,发现了社会阶级的形成与转化随宏观经济波动而周期性改变的规律。毫无疑问,文化计算给文化研究带来了全新的方法和工具,但其构建的指标和模型难以与传统研究接轨,成为其引起学术界争议的主要原因之一[11]。本研究从传统思维出发进行丝绸文化特征体系的构建,利用大数据方法对该体系进行特征填充、量化分析与展示,通过传统研究思路在文化计算方法上的贯彻与落实,以数理实证方式揭示“一带一路”倡议影响下丝绸文化的蜕变与重生。
1 文化数据采集
传统上,针对某一文化对象的语料文本可以通过人工方式从书籍、报纸、电视、网络等媒体上搜集,当积累的语料达到一定的规模,能够基本覆盖人们在这一对象上产生的所有观点及言论,即形成了与该文化对象相关的语料库。但人工方式的数据采集耗时耗力,且在文化对象快速演变的信息时代,难以保证数据的时效性,因而逐渐让位于基于互联网的自动化采集方式。目前,在自动采集技术中主题网络爬虫技术[12]的使用最为广泛,其通过计算目标资源的主题相关度,优先采集相关度高的文本资源,可在短时间内实现高效的数据采集。
本研究将“丝绸”作为主题词,以新浪、网易、搜狐、腾讯四大国内门户网站为起点,利用主题网络爬虫进行多线程大规模文本采集,将网页时间戳赋予相应文本对象的时间属性,共爬取20 943个网站的682 120个有效网页,获取文本89 285兆字节,时间上涵盖2008—2019年共12年形成丝绸文化的大数据,如图1所示。
构成丝绸文化大数据的文本需要进行预处理,以便析出以词语为载体的文化特征[13]。预处理的过程主要包括分词[14]和停用词过滤[15]两个步骤。分词是中文文本处理的特有技术,由于不存在类似英文句子中单词之间的空格,从中文句子中提取词语要借助分词技术,该技术通过统计字与字相邻共现的概率计算成词的可信度,从而进行中文词语的分割。分词完成后,文本转变为词语集合。此时的集合中含有一定数量的弱特征,它们主要表现为一些动词、形容词、量词、连词、介词、语气词等意义不大的非实体词语,称为“停用词”。可借助中文停用词表对该词语集合进行过滤,以去除其中的弱特征、保留强特征。其中的示例文本通过分词和停用词过滤的处理,成为可供进一步统计和分析的特征词序列。
2 特征体系构建
何谓“文化”,国内外尚无精确、一致的看法,但东西方辞典或百科中一个较为共同的认识是:文化涵盖人类创造的所有物质财富和精神财富。中国丝绸在数千年传承与发展中产生了极其多样的品种、技艺、工具,在物质实践的同时也积累了丰富的情感、观念,并深刻地影响了民族个性和民族心理的形成。在物质性和精神性之外,丝绸文化另一个不容忽视的总体特征是它的社会交流性。围绕丝绸展开的社会交流实践,培育了特定的社会群体、社会阶层及相应的社会生活方式、行为模式、习惯等,成为丝绸文化不可或缺的一部分。
根据中国著名学者钱穆先生关于文化阶层的观点[16],本研究将丝绸文化特征划分为“物质”(向物的)、“社会”(向人的)和“精神”(向心的)三大基本门类,对丝绸文化大数据中的特征词逐一进行判断与归类;与此同时,对三大基本门类进一步细分,形成丝绸文化特征的体系,如图2所示。
大多数特征词可经人为判断后归入三大基本门类中的一类,但存在少数模糊特征词其内涵不甚明了,即便有经验的研究人员也不能轻易决定其类属,具体包括“汉服”“耕织”“孝帛”等特征词。例如,在丝绸文化语境中,特征词“汉服”究竟是在阐释一种传统服饰的材质、形制、款式等物质性要素,还是叙述其在社会习俗、礼仪等方面的角色和功能,又或是传达一种儒雅、包容的传统价值观念,必得弄清这一问题方能在归类时决定该特征词的去向。受模糊文本分类思想[17]的启发,本研究将这一思路运用到词语层面上,通过考察模糊特征词的上下文综合性质来确定其类属。
根本上,一个特征词的内涵由它的综合上下文决定。文化大数据中每个特征词序列,构成该特征词的可能出现一个或多个场合;该特征词在所有场合中的上下文,构成它的综合上下文。假定采集到的文化大数据是完备的,即场合是充分的,则一个特征词在特定文化语境中的涵义必然是由其综合上下文规定的。这一观点可具体阐释为三条:1)所有场合中的上下文共同规定一个特征词的涵义;2)在一个给定的场合,目标特征词之外的所有其他特征词,共同规定该目标词在该场合中的涵义;3)在一个给定的场合,各个特征词对目标特征词之规定性的贡献,随着相对距离的增加而减少。
基于上述思路,本研究通过分析其综合上下文来判断一个特征词的类属。在对文本大数据统计句子长度的基础上,本研究采用了长度为8的上下文窗口,如图3所示。图3所示的特征词序列,给出特征词“汉服”出现的一个场合,其上下文由序列中除“汉服”之外的所有其他特征词共同构成。一个序列中可能包含数千特征词,在实际操作中只能考虑一定窗口范围内的特征词的影响,该窗口范围称为上下文窗口,上下文窗口是上下文的实践简化形式。由于词义的影响力主要集中在句子内部,因而句子长度(指平均条件下构成一个句子的有效特征词个数)可作为上下文窗口大小的参考。
图3亦给出了除目标词以外的各个特征词的类属(X代表“物质”、Y代表“社会”、Z代表“精神”),及其与目标词的相对距离。在该窗口中,特征词“汉服”的类属(以C表示)可表示為其上下文类属的合成,如式(1)得出:
上述公式具有一般性,可将某一特征词在一定窗口中的类属表示为一个向量,其中x、y、z分别为“物质”“社会”“精神”三个类属上的分量,n为上下文窗口尺寸,xi、yi、zi分别为第i个特征词的类属三分量,di为第i个特征词与目标特征词的间隔距离。值得注意的是,对于图3所示的情况,序列中的除目标词之外的特征词类属均由人为判断而确定;凡由人为判断直接确定的,其类属三分量可视为其中一个值为1、另两个值为0,如特征词“华夏”类属为[0,1,0]、“思想”类属为[0,0,1]、“自然”类属为[1,0,0]。此外,如式(2)得出:
进一步地,该特征词在综合上下文中的类属(以C表示)为其在各个场合下计算得到的类属向量的均值,如式(3)得出:
式中:Ci代表该特征词在第i个场合下按式(1)计算得到的类属向量,k为该特征词在文化大数据中出现的次数即场合数。
考虑到式(2),不难看出综合类属向量C的模长为1,即:
至此,式(1)(3)将人为判断而确定的特征词类属和通过计算得到的类属统一起来并实现量化描述,所有特征词类属均可由三维空间中的综合类属向量表征,类属向量的模长为1,如图4所示。
对于基本门类之下子类的特征词归类,亦采取与三大基本门类归类相似的方法,即先通过人工分类解决绝大部分特征词的去向,再根据上下文综合性质计算少数模糊特征的类属向量。最终,所有特征词得以填充或量化分配到图2所示的丝绸文化特征体系中,形成该体系的实体框架。在实际应用中,本研究考察该框架中文化特征的分布,跟踪文化演进的过程,得出新时代背景下丝绸文化蜕变的轨迹。
3 特征分布分析
3.1 总体分布
在丝绸文化大数据中,本研究利用文本对象的时间标签过滤出最新的数据,反映丝绸文化的当下状态。对2019年数据中的所有特征词出现的频率进行统计,结合特征词的综合类属性质,依据式(5)计算物质、社会、精神三方面的文化特征比例(分别以RX、RY、RZ表示)。
式中:Ci为第i个特征词的综合类属向量,fi為第i个特征词出现的频率,m为特征词个数,系数λ∑mi=1Ci[1,0,0]Tfi用以确保结果在0~1。
通过计算,结果如图5(a)所示。
从图5(a)可见,丝绸文化中社会性特征所占比例最高为44.0%,其次是物质性特征,再次是精神性特征。“丝绸”的本意表明其物质性,中国古代先民养蚕、剥茧、抽丝、织绸,创造了丰富的物质性文化。丝绸文化的社会性与精神性特征,应是以物质性特征为基础的,从物质性文化中衍生而来。而当下社会性特征比重凸显,暗示了目前丝绸文化主要在政治、经济、科学与文艺等社会领域发挥其功能。
类似地,可计算三大基础门类下各个子类的文化特征比例。图5(b)给出了物质性特征内部的子类分布,主要为“技艺”“题材”和“产品”三类特征所占据,其中“技艺”特征占比最高,达到44.9%。这表明,在其物质性方面丝绸文化主要是一种技艺文化,丝绸文化中的技术和艺术成分是其物质传承的核心。“技艺”特征中排名前五的特征词依次为“提花”“间色”“精练”“色织”“缂丝”。
图5(c)显示社会性特征内部的子类比例结构,可见其中“国政”“经贸”二类比重最大。中国丝绸文化在社会经济与贸易方面的浸润早有传统,典型例子如古代丝绸之路上发生的跨地区贸易交流。然而文化特征在“国政”方向上的侧重,展现了当下丝绸文化引人注目的新风貌。“国政”特征中排名前十的特征词依次为“一带一路”“发展”“和平”“复兴”“对外开放”“多极化”“区域合作”“平等互利”“援助”“海防”,涉及外交、国防、对外经济政策、国际形势与格局等多个方面。这些特征词的出现为丝绸文化注入了新的时代内涵。
图5(d)给出精神性特征中“情感”与“理念”的比例关系,二者基本各占一半。在数千年的劳动实践中,国人对于丝绸积累的深厚情感可被一些特征词昭示,如“自豪”“崇拜”“难忘”“决心”“屈辱”等。更值得注意的是,当前的丝绸文化饱含情感却不流于形色,它也容纳了等量的理性成分,这从“理念”特征中排名前五的特征词“发展观”“与时俱进”“和而不同”“中庸”“妇女解放”上可以看出。“情感”和“理念”特征共同构筑丝绸文化的精神内涵,前者暗示了丝绸文化发展的内在动力,后者则预示了丝绸文化发展的方向和趋势。
3.2 演进过程
为进一步厘清近年来丝绸文化的发展脉络,本研究在丝绸文化特征体系下展开动态过程分析。计算2008—2019年的文化特征比例结构,并在时间轴上进行考察,如图6所示。
3.2.1 “三分段”模式
图6(a)给出了从2008—2019年丝绸文化三大基本特征的演变过程,发现在2012—2016年存在一个明显的失衡区(灰色区域所示)。在进入该区域之前,丝绸文化的物质性、社会性和精神性特征显示为平缓的曲线,基本保持稳定;在该区域内部,三大特征的比重发生了急剧变化;在离开该区域后,三大特征的曲线又趋向平缓,形成了新的平衡结构。存在于该区域两端的两个平衡结构,有着迥异的文化特征构成。旧平衡结构是以物质性特征为主导,代表了传统丝绸文化;新平衡结构以社会性特征为主导,代表“一带一路”背景下的新丝绸文化。这种从旧结构到新结构的演变过程,造成了时间轴上特征分布的“三分段”模式,即“平衡-失衡-新平衡”的演变模式。
物质性特征总体是下降的,然而其内部亦发生了旧结构破灭和新结构形成的演化,如图6(b)所示。“三分段”模式在物质性特征的演化上仍然成立,其失衡区间显示为大约2011—2017年内。在此区间之前基本是“产品”和“技艺”特征共同主导,此区间之后“技艺”特征比重则大幅超越。
社会性特征总体上上升,其内部变化如图6(c)所示,主要表现为“国政”和“经贸”特征的交叠与演动。其失衡区间约为2012—2017年,此前由“经贸”特征主导,此后“国政”特征比重反超,基本上二者共同主导。
图6(d)显示精神性特征的变化较为复杂,经历了“先下降、后上升、总体水平略有提高”的变化过程。在其内部,失衡区间显示约为2011—2017年,此前为“情感”特征主导,此后则基本由“情感”“理念”特征各占一半。
总之,无论三大基本特征或其内部,都存在明显的“三分段”模式,且失衡区时间点相当吻合。这表明丝绸文化在特定时间区间上受到“一带一路”这一重大社会历史事件确定的、持恒的影响,因此完成了文化结构的重组。从失衡区的一端到另一端,丝绸文化演进的总趋势是:其一,物质性特征式微,社会性特征不断凸显;其二,从产品文化向技艺文化过渡;其三,在国家政策与国际格局方面的内涵不断丰富;其四,丝绸文化中的理性成分上升、感性成分下降。
3.2.2 拐点现象
图6显示的失衡区对应2011—2017年的时间范围,进一步考察发现该区域中并非单调的,而是存在拐点。如图6(a)中物质性特征在2012—2013年呈上升,2014—2016年呈下降趋势;图6(b)中“产品”特征在2011—2013年呈上升,2014—2017年呈下降趋势;图6(c)中“经贸”特征在2012—2013年呈上升,2014—2017年呈下降趋势。
总之,存在上升与下降两种演动趋势,将失衡区分割为两部分,前一部分约对应2011—2013年(称为“前失衡区”),后一部分约对应2014—2017年(称为“后失衡区”)。这表明丝绸文化特征结构在相应区间中受到两股不同力量的影响,且后一股力量在一定程度上扭转了前一股力量造成的影响,并将自身效果放大,最终穿过失衡区形成新的稳定结构。
考虑“一带一路”倡议提出的时间点为2013年9月,这与后失衡区的起点吻合,从而也证明前失衡区的特征演动应是由另一种影响因素所造成。通过梳理2011、2012年丝绸文化和产业大事件,可发现导致“产品”“经贸”特征攀升的最大可能,是2011年9月“杭州丝绸”国家地理标志的产生。特征词“杭州”在时间轴上的词频变化可反映这一事件的影响力,如图7所示。
图7表明,特征词“杭州”的词频在2008—2019年持续上升,其中在前失衡区对应的2011—2103年(灰色区域)有一次大幅攀升。在前失衡区内部,“产品”“经贸”特征的比例与特征词“杭州”是正相关的,而在此區间之后二者不再表现出相关性。由此可推断,各类特征在前失衡区的变化是由“杭州丝绸”国家地理标志这一事件推动,而在后失衡区的变化则主要受到“一带一路”倡议的巨大影响力。
4 结 论
本研究通过爬虫技术进行互联网大规模信息采集和处理,形成了较为完整的丝绸文化大数据。利用综合上下文对大数据中的特征词涵义进行量化,通过类属计算解决了模糊特征的归类问题,完成了丝绸文化特征体系的填充,建立了丝绸文化特征的实体框架,从物质性、社会性和精神性三方面较为全面地覆盖了丝绸文化的整体内涵。从丝绸文化特征的实体框架中,本研究在特征词频率统计的基础上,分析了丝绸文化的特征分布及其背后的新时代内涵,并进一步考察了丝绸文化在时间轴上演进的过程,揭示了丝绸文化演进中的失衡现象和“三分段”模式。应用该框架进行数据实证的结果表明,丝绸文化在“一带一路”背景下完成了一次内涵升级和结构重组,并达成了新的平衡状态。
参考文献:
[1]李希光. “一带一路”文化建设与丝绸之路文化复兴[J]. 新闻与传播, 2015(6): 24-26.
LI Xiguang. Cultural construction and cultural revival of the silk road under the Belt and Road Initiative[J]. Journalism & Communication, 2015(6): 24-26.
[2]傅才武, 严星柔. 论建设21世纪中华民族文化共同体[J]. 华中师范大学学报(人文社会科学版), 2016(5): 63-74.
FU Caiwu, YAN Xingrou. On the construction of Chinese national culture community in the 21th century[J]. Journal of Central China Normal University(Humanities and Social Sciences Edition), 2016(5): 63-74.
[3]李丕宇. “一带一路”背景下“丝绸之路”历史文化遗产研究的双向视域[J]. 齐鲁艺苑, 2017(2): 4-8.
LI Piyu. The bi-directional perspective for historical and cultural research on the heritage of the silk road under the background of the Belt and Road Initiative[J]. QiLu Realm of Arts, 2017(2): 4-8.
[4]秦子瑜. 浅析“一带一路”跨界文化传播对经济发展的促进[J]. 新闻传播, 2016(13): 119-120.
QIN Ziyu. A brief analysis on the promotion of the Belt and Road Initiative cross-border cultural communication to economic development[J]. News Dissemination, 2016(13): 119-120.
[5]赵海英, 贾耕云, 潘志庚. 文化计算方法与应用综述[J]. 计算机系统应用, 2016(6): 1-8.
ZHAO Haiying, JIA Gengyun, PAN Zhigeng. Review on the methods and applications in cultural computing[J]. Computer System Application, 2016(6): 1-8.
[6]MICHEL J B, SHEN Y K, AIDEN A P, et al. Quantitative analysis of culture using millions of digitized books[J]. Science, 2011, 331(6014): 176-182.
[7]邵培仁, 林群. 中华文化基因抽取与特征建模探索[J]. 江苏师范大学学报(哲学社会科学版), 2012, 38(2): 107-111.
SHAO Peiren, LIN Qun. Exploration of extracting chinese cultural genes and modeling its characteristics[J]. Journal of Jiangsu Normal University(Philosophy and Social Science Edition), 2012, 38(2): 107-111.
[8]龚为纲, 罗教讲. 大数据视野下的19世纪海上丝绸之路[J]. 学术论坛, 2015, 38(12): 82-91.
GONG Weigang, LUO Jiaojiang. The 19th century "maritime silk road" under the vision of big data[J]. Academic Forum, 2015, 38(12): 82-91.
[9]CORREIA R A, JEPSON P, MALHADO A C M, et al. Internet scientific name frequency as an indicator of cultural salience of biodiversity[J]. Ecological Indicators, 2017, 78: 549-555.
[10]KOZLOWSKI A C, TADDY M, EVANS J A. The geometry of culture: analyzing the meanings of class through word embeddings[J]. American Sociological Review, 2019, 84(5): 905-949.
[11]GOLD M K, KLEIN L F. Debates in the Digital Humanities 2016[M]. Minnesota: University of Minnesota Press, 2016.
[12]于娟, 刘强. 主题网络爬虫研究综述[J]. 计算机工程与科学, 2015, 37(2): 231-237.
YU Juan, LIU Qiang. An overview of thematic web crawler[J]. Computer Engineering and Science, 2015, 37(2): 231-237.
[13]苗夺谦, 卫志华, 张志飞. 中文信息处理原理及应用[M]. 北京: 清华大学出版社, 2015.
MIAO Duoqian, WEI Zhihua, ZHANG Zhifei. The Theory and Applications of Chinese Information Processing[M]. Beijing: Tsinghua University Press, 2015.
[14]黃昌宁, 赵海. 中文分词十年回顾[J]. 中文信息学报, 2007, 21(3): 8-19.
HUANG Changning, ZHAO Hai. Chinese word segmentation: a decade review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19.
[15]化柏林. 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007, 2(8): 48-51.
HUA Bolin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library & Information Service, 2007, 2(8): 48-51.
[16]钱穆. 文化学大义[M]. 北京: 九州出版社, 2011.
QIAN Mu. The Basics of Culture[M]. Beijing: Jiuzhou Press, 2011.
[17]梁艳红, 坎启轩, 苏翌. 基于主题分布优化的模糊文本分类研究[J]. 计算机工程, 2019, 45(10): 221-226.
LIANG Yanhong, KAN Qixuan, SU Yi. Research on fuzzy text classification based on topic distrifution optimization[J]. Computer Engineering, 2019, 45(10): 221-226.
收稿日期: 20200508; 修回日期: 20201105
基金项目: 浙江省软科学研究计划项目(2020C35024)
作者简介: 陶晨(1981),男,副教授,博士,主要从事丝绸文化与设计的研究。通信作者:周赳,教授,zhoujiu34@126.com。