基于模式匹配的技术竞争事件抽取研究*
2020-07-03李锐张丽玮
李锐 张丽玮
摘 要 文章旨在采用事件抽取方式对新闻中的技术威胁事件进行结构化表达,为进一步情报挖掘提供参考,为企业决策提供依据。本文阐述了识别竞争事件元素,对事件的时间、地点、结果、语言表现进行抽取,获取多方面多层次竞争情报等内容。
关键词 模式识别;技术竞争事件;事件抽取
绪论
随着技术水平的不断提高,企业搜集竞争情报的方式也在发生着变化。面对新闻中描述的企业各类事件都可以看作竞争情报的来源,因此,本文对新闻文本进行事件抽取,重点识别对高新技术企业构成技术威胁的事件,从而有效规避企业技术研发过程中的技术风险。
1相关研究理论
1.1 基于模式匹配的事件抽取
事件抽取分为两个核心步骤,事件类别的识别和事件元素的识别,抽取方式分为基于模式匹配的抽取和基于机器学习的抽取。基于模式匹配的抽取方式是指根据规则设计模板,根据触发词识别事件类别,依据模板进行抽取事件元素。姜吉发[1]提出一种基于概念知识库的自动获取模式的方式。鉴于模式匹配抽取方式在特定领域的优异表现,本文定义事件模式,依据模式抽取事件信息,获取技术威胁事件。21.2技术威胁事件
形式上,技术威胁事件可表示为TRE,定义为一个六元组:TRE=
2事件元素的识别
事件元素识别是事件抽取的又一关键任务,由触发词识别竞争事件句,对竞争事件句按定义的模式进行元素识别。事件由基本元素进行描述,在竞争事件句中根据<时间、地点、主体、动作、对象、结果、语言表现>一一匹配各元素。首先对每条新闻进行分句、分词、词性标注、依存句法分析、语义角色标注。一方面,基于语义角色标注的结果进行事件主体、对象、时间、地点的抽取。另一方面,为每个词建立依存句法关系字典。当语义角色标注结果为空时,根据事件触发词和依存句法关系抽取事件主体和对象,事件的时间、地点和语言表现再单独抽取。事件结果的抽取范围扩大到整条新闻。对抽取的时间、地点进一步处理,规范化时间格式为年-月-日,规范化地点格式为省-市-区。总体的技术路线图如图1。
本实验依托哈工大开发的语言技术平台(Language Technology Platform,LTP)有分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注的功能。LTP采用了条件随机场(Conditional Random Field,CRF)进行分词;用支持向量机加入偏旁部首特征进行词性标注;使用高阶特征采用基于图的方法和基于柱状搜索的解码算法,进行两阶段依存句法分析[3],LTP3.3.0版则加入了聚类特征和优化算法[4];使用最大熵分类器和整数线性规划的方法进行语义角色标注[3],LTP3.4.0版则在其中加入了Bi-LSTM模型[4]。pyltp是LTP的Python封装,可以进行分词,词性标注,命名实体识别,依存句法分析,语义角色标注[5]。本文运用pyltp对新闻进行分词,词性标注,依存句法分析,语义角色标注的处理。
在新浪滚动新闻科技板块中手动收集了共303篇2020年3月份的新闻,以此新闻集进行实验。采用前文的方法抽取得到合同类、会议类、政策类、研发类、生产类和经营类6大类38小类事件,共347条记录,详情见表1。
从数据库中可以发现,如合同类事件抽取结果有“拜腾汽车与多家销售及服务合作伙伴签约”,会议类事件抽取结果有“美图公司举行2019全年业绩发布会”,政策类事件抽取结果有“阿里本地生活服务公司宣布组织架构调整”,研发类事件抽取结果有“格力开发测温仪的模具”,生产类事件抽取结果有“苹果供应商生产新的入门级AirPodsPro”,经营类事件抽取结果有“阿里巴巴影業收购天津银河酷娱”。根据各类事件,各类企业可以结合自身战略,业务和经营方面有效识别“拜腾汽车”,“美图公司”,“阿里本地生活服务公司”,“苹果供应商”,“阿里巴巴影业”为竞争对手,并了解竞争事件的时间、地点、结果、语言表现等。企业可以根据具体的竞争对手进一步收集竞争情报满足情报需求。抽取的实证结果,如表2所示。
通过新闻文本的实际内容与抽取的结果相比较,准确率较高,从而验证模型的有效性。
4结束语
企业对竞争情报的需求日益上升,本文提出了一个情报获取的新思路。利用事件抽取技术从新闻中抽取出企业的各类事件,从事件中得到所需的情报。还简单介绍了对收集到的情报数据库,进行数据挖掘。本文提出了新思路但是在实际应用中还有许多要完善的部分,比如收集更多的新闻,提高事件抽取的准确性,同一企业名称的统一化处理实现对单个企业的竞争情报全面挖掘。
参考文献
[1] 姜吉发.自由文本的信息抽取模式获取的研究[D].北京:中国科学院研究生院(计算技术研究所),2004.
[2] 张丽玮.基于专利分析的高新技术企业技术威胁识别研究[M].北京:科学技术文献出版社,2016:59.
[3] Bao S,Yu Y,Cao Y,et al.Competitor Mining with the Web[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(10):1297-1310.
[4] 许鑫,郭金龙,姚占雷.基于Web文本挖掘的行业态势分析——以2011上海车展为例[J].图书情报工作,2012,56(16):25-31.
[5] 刘挺,车万翔,李正华.语言技术平台[J].中文信息学报,2011,25(6): 53-62.
作者简介
李锐(1995-),男,安徽宣城人;学历:硕士;现就职单位:首都经济贸易大学管理工程学院,研究方向:竞争情报、文本挖掘研究。
张丽玮(1981-),女;学历:博士,职称:副教授,硕士生导师;现就职单位:首都经济贸易大学管理工程学院,研究方向:科技管理,文本挖掘研究。