古籍知识组织中的知识计算:理论特性与基础指标*
2022-03-06林伟杰文玉锋周文杰
林伟杰 杨 阳 文玉锋 周文杰
(1.北京交通大学经济管理学院 北京 100081)
(2.西北师范大学商学院 甘肃兰州 730070)
古籍文献中蕴含着丰富的知识元素。 对凝含于史料典籍和文学作品中的文化或知识要素加以挖掘和展示,对于彰显民族精神,提高文化自信具有非常重要的意义。 知识计算通过应用人工智能等先进数据信息处理手段,基于对数据化知识载体的大规模计算,对各种形态的知识元素进行抽取、表达,并产生精准的模型以赋能机器和人,使其具备从海量知识载体中汲取知识要素的能力。在数智化的社会,知识计算是实现高效文化传播和有效知识传承的重要辅助手段。
卷帙浩繁的古籍文献,承载着中华民族源远流长的优秀传统文化。党的二十大号召,要将马克思主义基本原理同中国具体实际、中华民族优秀传统文化结合起来,以回答时代和实践之问[1]。 习近平总书记也指出,坚定中国特色社会主义道路自信、理论自信、制度自信,说到底是要坚持文化自信[2]。 当前,在实现中华民族伟大复兴的重要历史关口,应用知识计算等先进信息技术手段,挖掘中华典藏文献中的宝贵思想财富,是滋养民族精神、提高文化自信的重要途径。 为此,本文旨在立足于古籍文献内容的表征与挖掘,以《史记·本纪》部分为例,对古籍知识组织中知识计算的理论特性和基础指标展开深入的探析。 具体而言,本文研究的主要问题是:古籍文献知识计算有何理论根基?针对古籍文献展开知识计算时,应当包括哪些基础指标?
1 知识计算及其在古籍文献知识组织中的应用
1.1 知识计算概述
知识计算是一种在机器学习、人工智能、知识图谱等新型信息技术支撑下,一站式完成知识获取、知识建模、知识管理、知识应用的智能化信息处理与服务方式。知识计算的初衷,是借助于先进的计算机建模技术,对隐含于记录载体中的知识元素进行抽取、表达、计算,以便把各种形态的知识元素训练为精准的模型。 知识计算的最终目标是自动化解析文本内涵并将其模型化、可视化和外显化,以便使之更加符合人们的认知结构,从而有效支撑多领域、多场景的知识应用。
不同领域的知识计算常常具有不同的功能目标,因此在具体计算方法与程序步骤方面有所差异。虽然如此,通过抽象知识计算的通行逻辑,仍然可以大致概括出知识计算的四个基本环节:
(1)知识获取。 主要指获取知识计算的基本素材,并进行初步的挖掘、分析与结构化处理。知识计算的素材类型多样,形态丰富。 如学术论文、政策文本、行业技术文献、专家经验、测试报告等都是知识计算的潜在对象。对于知识计算而言,知识获取显示了由数据向知识转化的关键步骤,是数据、信息、知识、智慧转化链条上的基础性环节。由于知识的原始载体常常多源异质,因此,在知识获取的阶段,最关键的研究问题是使用合理、快捷的知识识别和知识抽取技术,对多源异构的数据进行结构化处理。在传统的知识获取技术中,研究者大量依赖于人工标注,从而使得知识获取的效率常常受到制约。为此,最新的知识计算技术都致力于发展自动化、细粒度知识元素的抽取工具与模型,从而使基于大数据的超大规模知识获取成为可能。
(2)知识建模。在完成知识元素的抽取与结构化之后,根据既定的算法与模型展开计算,是知识计算的第二个步骤。 具体而言,在完成知识抽取后,根据具体的知识应用情境和实际业务流程,自动化构建知识图谱,以备知识的使用者更直观、更高效率地使用知识要素。近年来,自动化知识图谱的构建技术已获得了日新月异的高速发展,目前,流水线式自动化构建知识图谱的技术已广泛应用于智能制造等相关领域,大规模图谱构建的时间也由过去的数星期缩短到数分钟。更重要的是,现有的知识计算技术已经能够支持知识图谱的自动更新,从而使用户从更加动态的视角获取知识服务与支持。
(3)知识管理。当完成前序两个环节后,多元异质乃至杂乱无章的知识元素不仅得以从其原始载体中提取了出来,而且基于图谱技术实现了结构化、可视化和有序化。经过建模处理,知识元素得以以最符合人类认知的模式展现出来,从而使知识的存储、检索、使用能力获得了质的飞跃。 也就是说,基于知识计算的上述两个环节,人们具备了对超大规模知识总体在宏观上加以把握、分析和操控的能力。由于实现了对知识总体的驾驭,因此,管理行为更加有效,管理效率也得到几何级数的提升。
(4)知识应用。知识计算的最终目标是将知识要素应用于不同的场景,以解决实际问题。 具体而言,在前序知识计算各环节的基础上,通过提供知识搜索、可视化分析、知识推荐等基础能力,以及智能对话、预测分析、知识推理等高级能力,匹配用户的多样化知识应用需求,帮助用户有效解决实际问题,从而实现知识的“致用”价值。
在信息资源管理领域,知识计算及相关方法已广泛应用到了语义组织与语义服务[3]、知识组织系统的 构 建[4]、基 于 知 识 元 概 念 的 主 题 知 识 组 织[5]等 方面。随着知识计算理论的发展,技术的储备及研究的进一步深化,未来,人工智能、机器学习等方法将在信息资源领域具有越来越广阔的应用前景。
1.2 作为知识计算重要应用场景的古籍知识组织
知识计算技术突飞猛进的发展,为古籍知识组织提升了全新的解决方案,也为深入挖掘古籍文献中的知识元素,彰显古籍文献的当代价值提供了关键契机。 如“文史互证”是中国传统知识分子长期秉持和不懈追求的治学传统。然而,由于汗牛充栋的古籍文献远远超出了个体有限的认知能力,应用传统的文献阅读方法,要实现“文史互证”对于个体的研究者来说殊为艰难。为此,古籍文献的整理序化工作者一直孜孜以求,优化文献信息与内容要素的揭示,以期实现自动化、外显化、动态化的证据线索匹配,以达到“文史互证”的目标。由此可见,古籍文献的知识组织为知识计算提升了关键的应用场景。
在古籍文献的知识组织过程中,知识计算至少可以解决如下问题:首先,基于知识计算,古籍文献的阅读者可借助于辅助推理与决策技术,实现数据、知识、经验以及资料进行多模态建模,从而实现对相关知识元素进行可视化呈现等目标。更重要的是,古籍文献的阅读者可以对源自不同古籍或同一古籍不同位置的事件线索加以归并处理,从而获得整体性认识,并通过“互证”达到考据的效果;其次,知识计算帮助古籍文献的阅读者将碎片化知识整合为整体性的知识模块,从而获得关于知识领域全貌的认识。 这种跨越时期、跨越国家、跨越文化空间的知识整合,使研究者效率大为提升, 获得的知识质量也与传统方法完全不可同日而语;第三,知识计算有助于克服研究者个体认知结构的局限而带来的偏差。 由于古籍文献数量巨大,如果通过逐个阅读、消化的方式来汲取其中的知识养分,难免使研究者陷入“身在庐山而不识其真面目”的尴尬。某些情况下,甚至出现“一叶障目,不见森林”的情形。 知识计算使阅读者有机会跳出个体认知局限的窠臼,置身更高的认知层次,消除个体认知偏差,获得更接近于真实的认识。
2 齐普夫定律与古籍文献的词频分析
2.1 齐普夫定律概述
通过词频分析可以看到文本背后的关键信息。作者依据逻辑将自身想法表达在文本中,文本由多个句子构成,句子又由多个字词组合而成,所以词作为意思表达的最小单元,承载着信息,通过对文本中的词进行统计分析可以了解关键信息。
针对英文文本中的词频分布,1948 年,哈佛大学语言学教授齐普夫(George K. Zipf )提出,文本中词频、词序之间存在着如式(1)所示的关系,即为齐普夫定律。
由式(1)可知,C 值由词序、频数和总词序三部分组成。 总词序为分词结果的总词数,正常情况下长文本的总词数会大于短文本的总词数,所以总词序大致可以代表文本的长度。 频数表示对应词序下的词数,如当词序为1 时,词的频数最大,因为词序是根据词频数从大到小排序后依次赋值,即频数最高词的词序为1,频数次之词的词序为2,以此类推。如果文本讨论的主题高度集中,在控制文本长度的情况下,词序所对应的频数越高,即文本的主题词或关键词被反复提及。
2.2 齐普夫定律在古籍知识组织中的应用
古籍文献知识组织的目标,是通过结构化、可视化等方法,对文献内容要素加以揭示和表征,以便最大程度提高读者对古籍文献的理解效率, 降低阅读古籍文献的认知负担。 由于词语是古籍文献的基本成份,因此,对古籍文献加以知识组织,就需要从词频的分析开始。 鉴于齐普夫定律在自然语言处理和文本内容分析中所具备的重要影响,对于古籍文献展开知识组织的一项基础性工作就是,应用齐普夫定律对古籍文献的词频分析特征与规律加以解析,以备进一步展开古籍文献内容的解析、结构化与可视化。
掌握重点内容能够帮助使用者快速了解古籍文献知识的核心,使用计量学来表述是较为客观且广泛的方法[6]。 目前的识别方法复杂且多样,现有研究主要采用共词分析[7]、知识图谱[8]、构建标准[9]等方法,但是这些方法在客观性或识别效度或理论上存在不同程度的缺陷, 且多以学术文献作为研究样本。 因此,本文基于齐普夫定律,引入计量经济学中的回归分析法,寻找高低词频转折点,尝试挖掘古籍文献中的重点内容。
2.3 《史记》中的高低词频转折点识别
(1)研究设计。本文使用python 软件作为数据初始处理工具,进行分词与词频统计等初步处理,最后使用Stata17 进行统计分析。
(2)语料处理。 首先,使用python 软件中的jiayan(甲言)库①甲言取自甲骨文文言文之意,是一款专门用于古汉语处理的自然语言包,能够辅助古汉语信息处理,在古汉语分词的准确度上优于现代汉语分词的jieba 库,详见:https://github.com/arahan99/Jiayan。对《史记》中的本纪部分进行分词,为了使结果更有分析价值,只保留名词并进行词频统计,之后根据词频数从大到小排序,词频数最高词的词序为1,第二高词的词序为2,第三高词的词序为3,依此类推,最后根据齐普夫定律公式计算C 值;其次,只保留一个同频词。在出现相同频数时,词序的赋值依旧进行,虽然相同频数词的频率保持一致,但因词序不同,导致C 值不同。为了解决这一问题,本文把每个文本中相同频数的多余词删除,只保留一个。在实际操作中发现,低频词(如词频为1)会多次出现频数相同的情况,而在高频词(如词频最高)中出现词频相同的情况却较少,因此删除多余的相同频数词并不会对后续研究产生重大影响。
(3)模型构建。齐普夫定律公式中的C 值并非为常数,而是在某一常数附近上下波动,为了探索影响C 值波动的因素,本文使用计量经济学模型,依据齐普夫定律公式,将C 值作为因变量,将词序和词频数作为自变量,构建模型式(2),通过查看模型拟合程度和自变量是否显著,判断模型设计是否合理。
(4)描述性统计。为了解《史记》本纪部分词频统计的基本概况,首先对其进行描述性统计,并得出结果(见表1)。
表1 变量描述性统计
如表1 所示,C 值变量的均值为0.772,标准差为0.187,说明C 值存在一定异质性。ln 词序变量的均值等于中位数,表明分布较为合理。ln 词频数的中位数为3.942,接近均值3.815,也说明该变量的分布合理。
(5)模型估计。使用OLS 对式(2)进行估计。在计量经济学中有许多估计方法, 需要根据具体情况进行选择,在正常情况下OLS 估计最优,因为在高斯马尔科夫假定下,OLS 的估计结果是最优的无偏线性估计。 基于此得出估计结果(见表2)。
表2 式(2)OLS 估计结果
模型的P 值为0,说明自变量的选择合适,能够解释因变量的波动。 模型的拟合程度为93.4%,表明ln 词序和ln 词频数这两个变量能够解释因变量C值93.4%的波动,拟合效果好。 ln 词序变量的系数为0.490,且此效应在1%水平上显著,其意义为词序每增加1%,C 值就增加0.49。 ln 词频数变量的系数为0.476,其意义为词频数每增加1%,C 值就增加0.476,且此效应在1%水平上显著。根据回归结果,模型显著且拟合程度高,自变量也显著,表明模型构建的合理性,ln 词序变量和ln 词频数变量能够解释绝大部分的C 值波动,可使用此模型作为后续高低词频识别的基础。
(6)高低词频划分。使用门限回归对高低词频进行划分。区分高频词是因为高频词对全文有一个较好的概括,能够表达全文的关键信息,所以高频词承载着更多的信息量,而低频词的信息含量不如高频词,C 值的大小也会因高低词频而不同。如果能够区分古籍文献中的高低词频,无疑能够提升古籍知识组织的效率。 为了客观区分高低词频,使用门限回归,以词序作为门限变量,将门限变量的门限值作为高低词频的界限,对式(2)再次进行估计,得出结果(见表3)。
表3 门限回归
根据回归结果,高低词频在对C 值的影响上表现出显著差别。词序是门限变量,且门限值为14,词序小于等于14 的词为高频词,词序大于14 的词为低频词。 在常数项上,高频词的C 值大于低频词的C值,且在1%水平显著,这可能是因为高频词能够更好地代表全文的重点内容,拥有更高的客观信息含量;在ln 词频数变量和ln 词序变量上,高频词的回归系数均显著小于低频词的回归系数,结合常数项的显著差别,表明高低词频在C 值和对C 值的影响上存在系统性差异,验证了对词进行高低词频区分的统计必要性。 如果在古籍知识组织中应用区分高低词频,使工作人员重点关注高频词内容,深挖背后的含义,减少对低频词的关注,从而增加工作效率,可见区分高低词频具有现实必要性。
3 频数-位次统计学与古籍文献的同频词加权
3.1 布鲁克斯的频数- 位次统计学简介
古籍知识研究属于社会科学领域,且拥有大量的个性化信息,需要进行频数-位次分析。 前文的回归分析是基于传统的频数统计,虽然已有成熟的体系,但是忽略了太多的个性信息。如部分词的词频数相等,在回归时将其归为一类进行统计分析,但是不同词的含义不同,这种现象在文字简短的古汉语中更加频繁,所以需要对相同词频数的古汉语词再次进行细分。
3.2 频数- 位次统计学在古籍知识组织中的应用
鉴于古籍文献所处的语言环境,其词的构成通常以单字为主。由此而使同频词现象较之现代汉语更为普遍。如果不能有效地对这些同频词加以处理,则古籍文献知识组织效率就难以保障,知识组织成果与用户认知结构之间也难以建立起有效关联。为此,针对古籍文献的知识组织需要格外重视同频词的处理问题。唯其如此,才能提高古籍文献知识组织的效率,有效促进知识组织成果与用户认知结构之间的对接。
目前没有直接可应用于古籍知识组织中的频数-位次分析方法,将同频词进行细分,但能概括全文的词或与全文含义更接近词的重要性明显更强,所以本文基于词在特定语境下的重要性对同频词进行加权处理。
3.3 《史记》中的同频词加权
在同频词加权处理方面,主要使用python 软件中的synonyms 库①synonyms 库使用word2vec 训练的词向量文件,可以用于处理相似度计算等自然语言理解任务,详见:https://github.com/chatopera/Synonyms。计算词与词之间的相关度,以此为基础进行词频数加权。具体流程如下:首先将词频统计结果按照词频数从大到小排序, 其次计算同频词与高于同频词频数的词的相关度,如假设全文有6 个词,频数依次为5、4、3、2、1、1,对应的词为“天下”“刘邦”“丞相”“宗庙”“法度”“四方”,此时同频词的词频数为1,“法度”和“四方”为同频词,则计算“法度”与“天下”的相关度为0.241961,“法度”与“刘邦”的相关度为0.121253,“法度”与“丞相”的相关度为0.169126,“法度”与“宗庙”的相关度为0.236819,得到“法度”与全文的相关度为0.769159,之后将“四方”一词重复操作,得到“四方”与全文的相关度为0.633816,最后以得到的相关度为基础,对同频词的词频进行加权,“四方”的加权后词频为0.451766(0.633816/(0.633816+0.769159)),“法度”的加权后词频为1(《史记·本纪》中的部分同频词加权结果见表4)。
表4 同频词加权部分结果
如表4 所示,“皇帝”和“赵”为同频词,如果在传统的频数分析中,二者没有任何区别,损失了客观情报含量,不利于高效开展古籍知识分析。为了减少客观情报损失,本文通过计算“皇帝”和“赵”两词与全文中更高频数词的相关度,作为频数加权的基础,对词频数重新进行赋值,既突显出同频词的个性,又考虑到同频词与全文的整体相关性,尽可能地达到频数-位次分析的预期效果,使后续的分析结果包含更多的客观情报信息,提高古籍知识分析的效率。
4 讨论
4.1 词频统计之于古籍文献知识计算的意义
古籍文献知识组织需要借助词频统计实现从底层语义到高级本体的知识演化。 传统的知识组织主要是先验式,即从知识的顶层向下挖掘,这种方式带有一定的主观性且在无序状态下的搜寻会导致低效率[13]。 为了有效促进古籍文献知识的挖掘和传播,需要有序有效地对古籍知识文献进行研究,具体而言,可通过词频统计识别高低词频,以不同工作方式对待高频词与低频词。 因高频词通常含有大量主旨信息,所以要重点关注高频词,集中时间和精力对高频词进行深入挖掘,尝试基于高频词进行古籍文献知识组织,实现大规模古籍文献知识的高效组织与管理。
4.2 同频词处理之于古籍文献知识计算的意义
同频词处理可以帮助古籍文献知识强调个性化信息。频数统计学具有严谨性与科学性,帮助自然科学领域的研究人员发现许多突破性的进展,在人文社科领域也广泛应用, 更有研究人员建议创建文化计量学,对大量的历史文字进行分析,构建精准的人类文化史[14-15]。古籍文献知识也需要使用频数统计学,从而进行古籍知识组织,但是与强调共性的频数统计学不同,古籍文献的最小知识单元(词)具有很强的个性特性,不能因频数统计学的优点而忽视其缺点,相反要在最大程度考虑古籍文献知识个性的基础上进行知识计算,达到“西学中用”的效果。古籍文献词频统计中会存在长尾分布,导致实体与关系事实难以进行有效理解与推理[16],基于频数-位次统计学的同频词处理就是可供参考的解决办法之一,在纳入古籍文献知识个性的前提条件下进行知识计算。
5 结语
中华文化源远流长,海量的古籍文献是前人智慧的结晶,利用知识计算挖掘古籍文献对提升我国的文化自信具有重要的现实意义。 新型的知识计算技术能够自动化解析文本信息,实现知识的外显化,但目前的知识计算尚存在可完善之处。 本文以齐普夫定律作为理论基础,从信息的最小单元(词)入手,使用成熟且客观的计量学方法对以《史记·本纪》部分为例的古籍文献进行统计分析,区分高低词频,并引入频数-位次统计学,既充分使用频数统计学的优势,又结合古籍文献知识个性化的特点,使客观情报信息含量损失最小化,为后续的知识计算提供一定的参考。
本文的贡献在于利用计量学进行知识计算,并探索出一套理论上可行且实际操作较为容易的流程,提高了古籍文献知识组织效率,也为后续古籍文献知识组织以计量学结果为客观标准提供了一个可行的思路。以本文所发展的基础指标为依据,后续研究中可基于对古籍文献的自然语言处理、机器学习和知识图谱等方法,展开进一步的研究。此方面的研究,可望在未来的古籍文献知识组织与知识服务中,发挥越来越大的作用。