APP下载

面向中文文本的事件时空与属性信息解析方法研究

2015-03-18张春菊合肥工业大学土木与水利工程学院安徽合肥230009

测绘学报 2015年5期
关键词:时空准确率文本

张春菊合肥工业大学土木与水利工程学院,安徽合肥230009

面向中文文本的事件时空与属性信息解析方法研究

张春菊
合肥工业大学土木与水利工程学院,安徽合肥230009

随着网络与信息技术的快速发展,人们作为“传感器”行走在真实社会中制造实时的、实地环境的、大范围的地理信息。互联网逐步发展为地理信息最大的收藏地。地理信息已步入大数据时代,其中80%的数据为非结构化数据(包括自然语言、图像、视频等)。文本是人们空间认知结果的自然语言表现形式,也是最重要的地理信息来源和最有潜力的人机交互手段。事件是人们认识和了解世界的基本单位,包括时间、空间和主题3个基本特征,是地理信息的主要内容,亦是网络文本信息表达的基本粒度和主要形式。事件成为文本数据源中地理信息表达的纽带。论文从GIS和自然语言相结合的角度,较为系统地探讨了以“文本描述-规范化表达-结构化抽取-可视化重构”为主线的中文文本中事件时空与属性信息解析方法,采用机器学习方法解决其中的关键问题,搭建了事件时空信息的定性表达与GIS定量挖掘分析的“桥梁”,为泛在地理信息动态关联更新,事件时空模式挖掘分析等奠定数据源基础和技术支撑。论文主要研究内容如下:

(1)归纳总结了中文文本中事件时空与属性信息的语言描述特点和语义结构,设计了事件时空与属性信息的标注体系和标注模式,形成了较为完善的事件时空与属性信息标注规范。该规范采用了XML schema的标记方式,具有与GML、KML和TRML等较好的兼容转换性能。

(2)通过构建时间词汇词典和描述模式,研究了基于规则模型的时间信息抽取、推理和规范化方法,开放测试中准确率、召回率和F值分别为75.00%、88.24%和40.54%;实现了基于Bootstrapping弱监督学习方法的属性信息抽取,该方法针对属性信息描述的复杂性,可以跳过深层句法分析,降低了抽取难度,特别是对量词性的属性信息,其准确率和召回率达80.80%和85.16%;采用条件随机场模型,研究了融合时间、地名、词性等上下文语言环境的事件名称识别方法,在开放测试中,准确率、召回率和F值分别为82.08%、80.18%和81.12%。

(3)结合事件的时空表达特性和文本中事件时空信息的描述特点,提出了一种融合时间、空间、属性、事件名称、触发词汇等多种上下文语义和语境信息的事件分类方法。按照句子、段落、篇章3个语言单元等级,探讨了事件替代性名称的推理方法。实验结果表明,事件分类准确率在封闭和开放测试中分别达到92.30%和80.60%。与已有研究中事件分类方法相比,准确率提高了3.30%和5.60%。

(4)针对结构化、定性的事件时空与属性信息,以全国地名数据库为数据源,基于时间地理学理论,采用分级式、层层匹配的方式实现了事件时空信息匹配与可视化表达,研究了基于“时间-空间-概念类型”三重一致性约束的主题事件判断方法和时空过程重构方法,实现了事件信息的各组成要素单元有机、直观地可视化表达在空间和时间轴上。

论文研究显示,采用规则模型和统计模型结合的方式可以有效实现中文文本中事件时空与属性信息抽取,但是特征项的设置在统计模型的学习过程中起到举足轻重的作用;不同类型事件的时间、地名、空间关系、事件名称和类型等信息抽取模型具有通用性和可移植性,而属性信息存在较大差异,需要针对具体类型事件构建相应知识库和学习模型;事件类型判断存在灵活、语义模糊、不确定性特点,且属于多标记分类,融合词性、触发词汇、时间、空间、属性和事件名称等多种上下文语义和语境信息,可以有效提高事件分类效果;空间数据的质量和覆盖范围,以及空间关系解析模型,对事件时空信息匹配、时空过程重构性能具有较大的影响。

Interpretation of Event Spatio-temporaI and Attribute Information in Chinese Text

ZHANG Chunju
SchooI of CiviI Engineering,Hefei University of TechnoIogy,Hefei 230009,China

ZHANG Chunju.Interpretation of Event Spatio-temporal and Attribute Information in Chinese Text[J].Acta Geodaetica et Cartographica Sinica,2015,44(5):590.(张春菊.面向中文文本的事件时空与属性信息解析方法研究[J].测绘学报,2015,44(5):590.)

10.11947/j.AGCS.2015.20140657

P208

D

1001-1595(2015)05-0590-01

国家863计划(2012AA12A403-3);国家自然科学基金(40971231;41401451)

2014-12-13

张春菊(1984—),女,讲师,2013年6月获南京师范大学地理科学学院地图学与地理信息系统专业理学博士学位(指导教师:张雪英教授,吉根林教授),研究方向为地理信息智能处理与服务。

Author:ZHANG Chunju(1984—),femaIe,received her doctoraI degree from Nanjing NormaI University on June 2014,majors in inteIIigent processing and service of geographic information.

E-maiI:zcjtwz@sina.com

猜你喜欢

时空准确率文本
跨越时空的相遇
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
镜中的时空穿梭
在808DA上文本显示的改善
玩一次时空大“穿越”
基于doc2vec和TF-IDF的相似文本识别
高速公路车牌识别标识站准确率验证法
时空之门