APP下载

年鉴中数值知识元的描述类型及规则研究

2018-05-30李林澳

关键词:年鉴

李林澳

摘要:年鉴中有很多关于数值知识元的描述,如何把这些知识元抽取出来是细粒度知识组织的重要研究内容之一。本文通过对中国信息年鉴进行内容分析,把数值知识元分为引用型、比率型、总结型、时间型、排名型、对比型和消息型七种类型。对年鉴中包含数值的句子进行抽取,过滤句子中的其他不相关词后形成句子的线性描述结构,在此基础上经过人工审核与合并归类,形成数值知识元的描述规则,为后续知识元抽取提供支撑。

关键词:数值知识元;年鉴;知识元抽取

一、前言

进入21世纪以来,知识日益成为占支配地位的竞争因素之一,信息量也呈爆炸式增长,全球即将进入信息和数据存储的“泽他时代”。虽然信息触手可及,但随之而来的是更深层次的问题:一方面,获取有效信息的难度大大提升,而另一方面,繁冗复杂的知识与信息也降低了人类利用的效率。我们正处于“被信息所淹没,却又饥饿于知识的客观现状”中[1]。为了从海量信息资源中揭示与描述知识,满足精细化的知识获取需求,需要将知识载体的粒度碎化为知识元。

年鉴作为一种信息密集型工具书,将一年内所发生的重大事件、新闻以及各类数据和统计资料进行编排汇总,对科研进展有着极大的推动作用。年鉴中蕴含有各类型的知识元,其中数值知识元占据了非常重要的比例。随着时间的推移,年鉴数量飞速增长,仅靠人工识别其中所包含的数值知识元已难以胜任。只有依靠知识抽取与挖掘技术来获取有价值的知识才能满足需求,为民所用。而要想实现自动或半自动的数值知识元抽取与挖掘,就需要对数值知识元的描述规则与识别方法进行进一步的分析与研究。因此,关于数值知识元的抽取与挖掘是具有一定的研究价值与实践意义的。

文本挖掘是指抽取散布在文本当中的知识以更好地组织信息的过程,但这些应用更多地是关注文档文献本身的组织效果,没有从文献单元深入到知识单元。在进行分词识别时,主要有基于统计的方法和基于规则的方法。基于统计的方法多适用于以单个词汇为处理单元的文本,而年鉴中多是长难句分析,基于规则的方法更加适用。知识元的类型、描述规则以及常用模式就成为了抽取数值知识元的重难点。

二、基本定义

定义1:知识元。不可再分割的具有完备知识表达的知识单位。可分为描述型知识元和过程型知识元[2]。

定义2:数值知识元。以数值形式存在,且数值有意义、有价值、可供分析的知识单元。

数值知识元有不同的类型。在经济建设领域,依据知识元描述对象的层次可分为宏观数值知识元(如某地区或行业发展的数值知识)和微观数值知识元(如某经济组织市场经营的数值知识)[3]。

三、研究综述

关于知识元已有一部分学者进行了研究,主要是从知识元的理论、技术以及应用方面展开探讨。

(一)知识元的概念及类型研究

弗拉基米尔·斯拉麦卡指出,知识的控制单位将从文献深入到其中的数据、公式、结论等最小的独立的“数据元”,这是有记载的关于知识元概念最早的定义[4]。赵红州学者最先从科学计量领域提出知识元这一概念,即“能够用数学公式表示的科学概念”,并以“知识单元”计量为基础,导出科学指数增长定律[5]。温有奎在《知识元链接理论》中提出,知识元是构造知识机构的基元,是可独立使用的最小单位[6]。柳长华叫冬知识元定义为知识系统中可以表达一个完整概念的不可再分解的最小知识单位;文庭孝等认为知识元应该是在知识管理中可以自由切分、表达、存取、组织、检索和利用知识的基本知识单位[8];刘新提出一个能相对独立并且准确表述知识的内涵以及外延的知识单元就是知识元[9];毕经元认为知识元是对知识进行存储、共享与引用的最小单位[10]。

至于知识元的分类,温有奎将其分为描述型知识元和过程型知识元[2]。原小玲认为,知识元可以分为理论与方法型知识元、事实型知识元和数值型知识元n;。王延章则分成了对象知识元(客观事物实体)、属性知识元(客观事物实体的特征描述)和属性映射关系知识元(对对象知识元内部属性状态相互作用关系的描述)三个类别[12]。

虽然上述文字表示各有不同,但大体大同小异。由于语义的复杂性,不同维度有不同的分类,目前尚无唯一标准。

(二)知识元的抽取技术研究

比较常用的知识元抽取方法主要是基于文本结构的方法和基于规则的方法两种类型。

1.基于文本结构的方法

柳长华分析了中医古籍文献的知识结构、内容特点,在以知识元为核心的中医古籍计算机知识表示方法上进一步制定了标引规范,用古籍整理的方式进行知识元的抽取与标引,取得了良好的效果[5]。姜永常等提出了基于文本物理结构和逻辑结构的抽取方法,先分析文本的物理结构,以此来建立文本的逻辑结构,抽取标题、小标题、段首、段尾、引文等作为向导信息,从而为知识元的抽取指明方向[13]。郑彦宁、化柏林从自然语言处理的角度介绍知识元抽取的流程[14]。

2.基于规则的方法

典型代表是蒋玲提出的。她先对文本进行分句,提取向导信息以构成主题句集合,然后建立各属性知识元的句法模型(即提取规则),将主题词和提取规则相结合进行句法匹配,得到具有该句法的知识元描述候补句后再根据句法模型来确定各知识元属性[15]。

此外,温有奎认为实现数值知识元的抽取是建立知識元库的先导和基石。他开发出了一套数值知识元抽取软件,能从年鉴、网页文本中自动抽取数值知识元并将抽取结果自动存人库中[2,16-17]。肖洪和薛德军则详细描述类从海量年鉴文本中抽取宏观数值知识元的具体流程以及主要算法,得出了在特定领域内将数值知识元抽取提高到可用水平是可行的这一结论[3]。

(三)知识元的应用研究

1.在检索方面的应用

为了解决检索查全率、查准率不高的问题,可以将对文献知识单元的控制深入到知识元层次上来。CNKI就是一个比较成熟的例子。清华大学于1995年创办了《中国学术期刊》,发展成为现在的中国知识基础设施工程,即CNKI工程。目前,CNKI已拥有多个知识元库,可以实现基于知识元的学术定义搜索、数值知识元搜索、图形表格搜索等等[18]。

2.在应急事件处理中的应用

陈雪龙构建了知识元模型,给出了知识元属性间关系的隐性描述方法,为突发事件的应急管理提供了知识支持[19]。仲秋雁等通过抽取情景共性要素及要素关系来形成情景原模型,认为这有利于帮助计算机进行情景模拟,辅助决策行为并提供应对基础[20]。

3.在古籍处理方面的应用

肖怀志提出可以利用基于历史本体而建立的语义关联来聚集相关年份历史知识元[21],游章才在知识元语义分析的基础上,探讨了中药“性一效一证一症一病”知识元间的内在联系[22]。除此之外,还有学者通过抽取、构建知识元来尝试分析古籍中概念不明知识元的含义。

上述研究表明,随着认知理论的不断发展以及自然语言处理能力的提高,对文献正文内容进行抽取与挖掘正得到逐步重视[23]。本文试图对年鉴中数值知识元的类型进行归纳总结,初步构建描述规则,以期为后续自动和半自动知识抽取提供参考借鉴。

四、研究方法

(一)研究的数据与素材

为了对年鉴中数值知识元的类型进行归纳总结,本文试图从图书情报领域关键词表中识别数值术语表并以此为依据对文本进行识别。但由于数值的特殊性,几乎没有文章将数字总结为关键词,因此从关键词表中识别数值术语表是不可行的。本文转而将重点放在了对数字以及量词的识别上,总结了量词表达的125种模式,并辅以《中华人民共和国行政区划简册》对年鉴文本进行抽取识别。以《2015年中国信息年鉴》为例,从全文当中共识别出3413条包含有数值的句子,将这些句子融合清洗以及汇总后,尝试进行规则的识别与构建。

(二)流程与方法

首先读取年鉴全文,将所有包含有数值的句子抽取出来,然后剔除一些虽含有数值,但数值无意义且不可被分析的句子,随后利用中文分词软件和图书情报领域关键词表进行分词,借助量词表以及行政区划简册对句子中的命名实体进行过滤清洗,形成句子的线性结构,例如,“据统计/…数据显示:…”、“预计…比例达到…比例升至…”得到句式结构之后,人工进行校对查重,判定不同数值知识元的类型并归纳总结,以形成数值知识元描述规则。

在上述筛选过滤过程中,有以下两点需要注意。

1.无意义数值的过滤

虽然都是含有数值的句子,但是其中有很多并不具有知识意义,因此需要从数值知识元当中剔除,包括以下几种情况:(l)数字编号。例如“1.电子元件百强企业”、“2.平板显示龙头企业”等,虽然含有数值,但缺少主谓宾结构,不能独立的表达知识的概念;(2)特定名称。例如“2014海峡两岸光通信论坛”、“315晚会”、“《关于加快发展生产性服务业促进产业结构调整升级的指导意见》(国发[20]4]26号)”等,数值只是作为数字进行标记,不具有实际意义;(3)机构名称。例如“人社部门12333民生服务平台”、“12306中国铁路客户服务中心”等等,数值只是用来命名,无法进行进一步的分析;(4)其他类型。例如“3D技术”、“《物流业发展中长期规划(2014-2020)》”、“包头热线电话96200”、“国内首款智能电视SoC芯片Hi3751”、“360°景区全景观赏”等。

2.命名实体的过滤

命名实体一般是指一些具体或抽象的客观实体,例如人、组织、地点等,可以是人名、组织名、机构名、地名等,也可以是时间、数量的表达式等形式,常是数值知识元的描述对象。命名实体识别的实际上就是从文本中发现出命名实体,并确定其类别的过程。命名实体的识别一般要经历下面两个阶段:在进行分词的同时,标注出词表中已经收集的命名实体;在此基础上,调用构建好的命名实体识别模型,对文中的尚未标记出的命实体进行识别。在进行命名实体的识别时,要结合实体自身的构成信息,合理地使用先验知识,根据实体所在的上下文对其的约束作用来进行识别过滤。在年鉴中,基于年鉴的特点,要在机构特征词中增加一些地域名特征词(如“居委会”、“村公所”)并去掉一些行政机关名称(如“委员会”、“统计局”),因为此类机构常常是发布单位,不适合作为数值知识元的主体。

五、研究结果

(一)引用型数值知识元

引用型数值知识元是指在摆出数据时,通過事实说话,所有数值都有可靠来源。可以通过“据…统计…”等描述规则来抽取,也可以通过“…指数为…”来抽取。

(二)比率型数值知识元

比率型数值知识元是指所有的数值都是以比率的形式呈现的,在描述过程中必定会出现百分比。除此之外,还包含各类型的比率,比如覆盖率、普及率、增长率等等。

(三)总结型数值知识元

总结型数值知识元就是指将数据进行汇总后统一发布的知识元,描述规则比较简单,如下所示。

(四)时间型数值知识元

时间型数值知识元是指侧重点在于时间的知识元,通常是在某一特定时间范围内所发生的事情。

(五)排名型数值知识元

排名型数值知识元是指对数值主体进行排名的知识元。在进行排名型数值知识元的识别时,量词形式大多限定在“位”与“名”这两个词之间,因此只要将这两个量词识别出来,就可以把大部分的排名型数值知识元识别出来。

(六)对比型数值知识元

对比型数值知识元是指将同类型或不同类型的数值进行比较,从而得到有效信息。在句式上可以分为一对一和一对多。

(七)消息型数值知识元

消息型数值知识元是最常见的数值知识元,通常为六元组形式,是指将事实用叙述的方式呈现出来的知识元,如“2014年全国制作完成的国产电视动画片为278部、1.17万集、13.86万分钟。”但由于消息数量庞大、内容繁复且具有随意性,很难将其描述规则具体化,所以只能从表达模式上对其进行识别。

依据中文数值的表达习惯,本文将消息型数值知识元的文字表达总结为如下3种模式,重难点在于如何识别指标、谓词和其他文本的区别。而实现这一重难点的关键技术则在于中文自动分词和词性标引。

(1)模式1:指标十谓词十数值+单位

例:“全国高新技术产业增加值比上年增长23.5%”

(2)模式2:谓词+指标+数值+单位

例:”医院共有医生526人”

备注:模式2同时也处理无谓词的“指标+数值”模式。

(3)模式3:谓词+数值+指标+单位

例:“全年全社会建筑业上缴2002亿元税金”

六、讨论与展望

本文通过人工与机器相结合的方法,将数值知识元的表达形式分为引用型、比率型、总结型、时间型、排名型、对比型和消息型七种类型,并给出了详细实例。这些分类以及描述规则希望能对后续数值知识元的抽取技术有所帮助。

研究中发现,虽然都是运用数值来表达知识,但不同句式以及数值的排列组合能表达出的意思千差万别,句子的复杂程度以及描述规则也不尽相同。需要特别注意的是,虽然数值知识元有不同的类别,但一个句子中往往可以同时包含多个类型的数值知识元,比如"2014年,全国两化融合发展总指数达为66.14,比2013年增长4.19,但仍只处于世界中等水平”就同时包含了引用型和对比型数值知识元。

本文研究还存在较多不足之处。一方面,本文选取的文本局限性较强,仅分析了年鉴当中的数值知识元表达形式。年鉴由于自身文本特征的局限性,大多采用了规范化的语言进行描述,而中文博大精深,由于语言的复杂以及各学科论文文体的差异性,总结出的规则覆盖度不高,不适用于所有类型文档。另一方面,没有针对数值知识元抽取的测试集,抽取出来的结果难以评测且无具体评估标准。后续研究可以增加原始语料的规模并构建测试集,发现更具有普适性的数值知识元描述规则。

参考文献:

[1]温有奎,计算机检索中的情报取样与滤波分析[J].情报学报,1993,(1):87.

[2]温有奎,徐国华,赖伯年,等知识元挖掘[M].西安:西安电子科技大学出版社,2005:171,177-183.

[3]肖洪,薛德军.基于大规模真实文本的数值知识元挖掘研究[J].计算机工程与应用,2008,44(30):150-152,222.

[4]高国伟,王亚杰,李永先,我国知识元研究综述[J].情报科学,2016,34(2):161-165.

[5]赵红州,唐敬年,蒋国华,郑文艺.知识单元的静智荷及其在荷空间的表示问题[J].科学学与科学技术管理,1990,11(1):37-41.

[6]温有奎,徐国华.知识元链接理论[J].情报学报,2003,22(6):665-670.

[7]柳长华.基于知识元的中医古籍计算机知识表示方法[C].第三届国际传统医药大会文集,2004:240-241.

[8]文庭孝.知识单元的演变及其评价研究[J].图书情报工作,2007,51(10):72-76.

[9]刘新,王泰森,学习型知识元数据库链接理论研究[J].图书馆学研究,2009,(11):25-28.

[10]毕经元,基于web2.0的知识元链接网络系统ID],杭州:浙江大学,2010:24-25.

[11]原小玲.基于知识元的知识标引[J].图书馆学研究,2007,(6):47-49.

[12]王延章.模型管理的知识及其表示方法[J].系统工程学报,2011,26(6):850-856.

[13]姜永常,基于知识元的知识组织及其系统服务功能研究[J].情報理论与实践,2007,(1):37-40.

[14]郑彦宁,化柏林.句子级知识抽取在情报学中的应用分析[J].情报理论与实践,2011,(12):5-8.

[15]蒋玲.面向学科的知识元标引关键技术研究[D],武汉:华中师范大学,2011:36-37.

[16]温有奎,温浩,徐端颐,等,基于知识元的文本知识标引[J].情报学报,2006,25(3):282-288.

[17]温有奎,文本知识元标引[C]第十九届全国计算机信息管理学术研讨会,宜昌,2005:59-66.

[18]卢城晓,基于知识元检索的知识相关度研究[D]南京:南京大学,2012:16.

[19]陈雪龙,董恩超,王延章非常规突发事件应急管理的知识元模型[J].情报杂志,2011,(12):21-30.

[20]仲秋雁,等,基于知识元的非常规突发事件情景模型研究[J].情报科学,2012,30(1):115-120.

[21]肖怀志,李明.基于本体的历史年代知识元在古籍数字化中国的应用[J].图书情报知识,2005,(3):28-33.

[22]游章才,等.基于中药“性—效—证—症—病”知识元关联探讨“涩味”的内涵[J].四川中医,2010,28(8):54-57.

[23]化柏林.学术论文中方法知识元的类型与描述规则研究[J].中国图书馆学报,2016,42(221):30-40.

猜你喜欢

年鉴
免年鉴
——卯年大事件
中国物流年鉴
特色·可读·扩展《江苏年鉴(2020)》
《中国交通运输年鉴(2019)》征订单
《中国交通运输年鉴(2019)》征订单
《中国交通运输年鉴(2019)》征订单
《中国交通运输年鉴(2019)》征订单
《中国交通运输年鉴(2019)》征订单
2016—2019年全国获得“中国精品年鉴”名录
《中国交通运输年鉴(2019)》征订单