APP下载

人物关系网络在包装产品精准营销中的应用

2018-09-20彭丽丽奚雪峰

关键词:指代实例语料库

彭丽丽 ,奚雪峰

(1.苏州科技大学 外国语学院,江苏 苏州 215009;2.苏州科技大学 电子与信息工程学院,江苏 苏州 215009;3.苏州市虚拟现实智能交互及应用技术重点实验室,江苏 苏州215009)

互联网中的WEB文本以爆炸式的速度增长,其中蕴含着丰富的人物社会关系。在基于WEB网页的人物关系网络构建研究中,Kautz等[1]根据人名在个人主页和合作论文等文档中的共现频率构建了命名为Referral Web的社会关系网络。Mika等[2]通过人物共现关系开发了Flink网络社区系统。Chang等[3]利用贝叶斯概率模型计算Wikipedia中人物实体之间的关系构成人物关系网络。姚从磊等[4]采用模拟退火算法发掘网络文本中人物关系。王鹏等[5]利用个性化的图书推荐算法构建了基于社会网络的图书推荐系统。在基于纯文本的人物关系网络构建研究中,Jing等[6]通过多种统计自然语言处理技术提取文本中的人物关系和事件,从而构建相应的人物关系网络。Elson等[7]通过识别文学作品的两个对话角色构建人物关系网络。Camp等[8]利用SVM分类器对人物关系进行分类并构建人物关系网络。赵京胜等[9]应用计算语言学技术和复杂网络技术,从文学作品《三国演义》中构建社会网络。彭成等[10]提出了一种以实体关系抽取技术为中心的社会网络构建方法。

精准营销是指在精准定位的前提下通过现代信息技术构建的顾客沟通服务体系[11]。人物关系网络可为企业经营者、市场分析提供有价值的决策信息,服务于包装产品精准营销。同时,自动发现WEB文本中隐含的人物关系网络对于精准营销、好友推荐等应用也十分重要。在包装产品领域WEB文本中,研究一种基于自然语言处理技术自动构建人物关系网络的方法非常有意义。所以,笔者利用基于树核函数的人物关系抽取技术训练得到SVM分类模型,再将该模型应用在包装产品领域人物关系网络挖掘中,为包装产品的精准营销提供决策依据。

1 人物关系网络构建技术

1.1 基于ACE语料库的人物关系网络组成

自2000年开始,美国国家标准技术研究院组织了自动内容抽取(Automatic Content Extraction,ACE)评测,目的是在机器学习技术基础上解决用户在进行海量信息检索、比较和判断时面临的困难。在ACE中文语料库的633篇新闻文档中,标注的人物关系类型有静态的人物社会关系(PER-SOC)和动态的社会交互事件(CONTACT)转化的社会交互关系,每种大类关系又被细分成具体的小类。它涵盖了家庭成员关系、商业伙伴关系、社会交互关系、书信电话交互关系等多种静态和动态人物关系。基于ACE语料库的人物关系网络构建需经过图1所示的人名实体识别、关系抽取、共指消解等步骤。

图1 基于ACE语料库的人物关系网络构建流程

1.2 构建人物关系网络相关处理技术

在自然语言处理技术中,人名实体识别的准确率很高,已接近商用化。其任务就是自动标注待处理文本中的人名、地名等命名实体。可采用成熟工具Stanford Named Entity Recognizer来实现中文人名实体识别任务。除此之外,仍需经过以下关键技术处理。

1.2.1 实体间关系抽取 对于人物实体关系抽取是人物关系网络中的核心步骤,其目标是通过一个句子中与两个人名实体相关的信息,判断这两个人名实体是否存在关系以及存在何种关系。采用的方法是基于树核函数的人物关系抽取技术确定句子中的两个实体之间的关系。其关键技术是准确刻画实体相互关系的结构化信息,即保留句法树中的哪些部分作为结构化信息表达形式。Zhang等[12]实验证明最短路径包含树形式的结构化信息取得了最好的性能。文中在最短路径包含树的基础上,根据新闻人物关系实例的长语句文本特点,通过删除冗余信息和引入动词语言学特征,在人名实体的父节点加入同义词词林等语义信息来提高人物关系抽取的性能,同时使用重采样技术[13]解决语料库正负例样本不平衡的问题。为了充分利用实验语料,按照五倍交叉验证原则,将关系实例按照5∶1的比例分为训练集和测试集,最终获得基于ACE语料库的人物关系模型文件。

1.2.2 单文本指代消解 在自然语言描述中,指代是一种常见的语言表达现象,单文本指代消解是将篇章内的指代现象进行消解形成指代链的过程,例如指代链“他、总统、奥巴马”等实体词,指的都是同一个名词性实体“奥巴马”。为了更准确地构建人物关系网络,指向同一个人名实体必须合并为同一个结点,从而提高人物关系网络的表现力和实用性。文中将人物实体关系抽取得到相应的关系模式泛化,使用新的关系模式重新检索语料库文本的方式来解决单文本指代消解问题。

1.2.3 跨文本指代消解 跨文本指代消解是判断不同文章中的实体引用是否为同一个实体的过程,它的任务是将多个篇章中指向同一实体的所有指代词形成同一指代链。其中“多名”现象指的是同一实体在不同文本中有不同的指代词,“重名”现象指的是不同文档中的相同指代词指向不同的实体。针对跨文本指代消解问题,首先将两对同样的人名实体(实体名称及实体关系均相同)存在于不同的文档中的关系实例合并,然后将指代消解问题转化为分类问题,采用成熟的SVM分类模型解决跨文本指代消解中的重名消歧和多名聚合问题。经过以上步骤,将抽取到的人名实体间的关系作为网络的边,相应的人名实体作为网络结点,归并掉冗余的边和结点后即形成人物关系网络。

2 包装产品营销中的人物关系网络

2.1 基于包装产品营销中的人物关系网络组成

从包装领域文本中挖掘人物关系进而构建人物关系网络包括WEB网页提取、分句、分词和词性标注、句法分析及关系实例生成、人物实体关系抽取、指代信息处理等关键步骤,具体过程如图2所示。对于人物实体关系抽取部分,首先将基于ACE语料库的训练文件和手动标注的少量包装产品领域文本的训练实例归并为新的训练实例,通过SVM分类器训练得到基于包装产品领域文本的人物关系模型文件,再对手动标注的大量测试实例进行预测,得到人物关系抽取的实验性能指标。

图2 基于包装产品营销中的人物关系网络构建流程

2.2 包装产品营销中的人物关系网络处理方式

在包装产品的精准营销中,运用人物关系网络表达的包装领域人物关系,帮助用户筛出所需要的信息,达到精准营销的目的。在人物关系网络处理中需要进行如下的处理方式。

2.2.1 WEB网页提取 以“全国先进包装企业名单”中200家企业门户网站作为实验数据来源,通过搜索引擎获取大量包装领域相关网页。根据网络爬虫抓取到的网页布局特点,编写脚本程序提取网页文章的标题和正文,按照网页为单位保存至对应的文档中;紧接着采用正则表达式过滤文档中的噪声信息。

2.2.2 文本预处理 首先,将文档中的“句号、感叹号、问号、省略号”作为句子终结符进行分句;然后,采用中科院计算所的词性标注工具ICTCLAS进行分词,分词工具还提供人名实体信息的词性标注;最后,根据上述词性标注的结果,凡是含有两个及两个以上人名实体的句子即为候选句。

2.2.3 句法分析及关系实例生成 首先,采用句法分析工具Charniak parser[14]对候选句进行句法分析,获得完整的句法树信息;然后,将候选句中人名实体按照不同组合生成相应的关系实例,并在关系实例的当前两个人名实体的词性结点的相应位置加入标记结点;最后,依据结构化信息生成算法对完整句法树进行定向裁剪后生成关系实例。

2.2.4 人物实体关系抽取 根据ACE标准语料库中训练实例和少量新标注的包装产品领域文本的训练实例,充分训练SVM分类器,得到新的分类模型文件对包装产品领域的大量测试实例进行关系抽取与分类,最终得到包装领域WEB文本中蕴含的人物关系。

2.2.5 指代信息处理 指代信息处理有助于提高人物关系网络的真实性及表现力。根据分类模型抽取的人物关系实例,自动提取两个实体,并标注实体间相互关系。由于包装领域文本的绝大多数人名实体即为其人名全称,不需要进行指代消解。对于极少部分的指代现象采取人工归并的方式处理,例如“西南地区销售经理、王强、他”为同一指代链,则使用名词性实体“王强”替代。根据人物关系抽取获取到的结点和边,构成了基于包装领域文本的人物关系网络。

3 实验与结果分析

文中采用常用的准确率(Precision)、召回率(Recall)和对应的加权几何平均值(F1-Measure)作为人物关系抽取性能评价标准。它们的定义如下

其中,C为被正确分为某类的实例数,N为测试样本中某类的实例总数,T为系统识别出某类实例的总数,P为准确率,R为召回率,β是召回率和准确率的相对权重(文中)的β值取1)。

表1中的“ACE和WEB”两列展示了基于ACE语料库和包装领域WEB文本两种文本来源所蕴含的人物社会关系数量,表格的最后三列展示了在包装领域WEB文本中进行人物关系抽取的实验性能,TOTAL是PER-SOC和CONTACT两类实例综合在一起计算时的性能平均值。准确率和召回率均取得了较好结果,这表明包装领域WEB文本的语言结构类似于ACE语料,同时也证明基于自然语言处理技术的人物关系网络挖掘方法具有较好的领域可移植性。在ACE语料库训练实例的基础上,加入少量包装领域文本的训练实例后生成的分类模型文件可以用于挖掘包装领域的人物关系网络。

表1 人物关系网络构建实验结果

从实验结果还可以看出,ACE语料库中文本以人物-社会关系中的家庭和商业伙伴关系为主,而包装领域文本以社会交互事件中产生的社会交互关系为主。

4 结语

由于文中提出的人物关系网络挖掘方法具有较好的领域适应性,因此在海量的包装信息数据文本中,可以自动抽取人名实体间有潜在价值的商业伙伴关系和社会交互关系,构建包装领域人物关系网络,从而为包装领域挖掘出最有营销价值的客户群体,为用户提供有针对性的服务,以实现高效营销。值得注意的是,文中介绍的包装产品精准营销依赖于大规模的数据文本,现阶段原始数据有限,实验效果会受到制约,随着对包装领域网络文本的深入挖掘,基于人物关系网络的营销模式将发挥其优势,成为企业高效的营销选择,具有较强的实用价值。

猜你喜欢

指代实例语料库
奥卡姆和布列丹对指代划分的比较
平行语料库在翻译教学中的应用研究
The Ways of Leading a Healthy Life
《语料库翻译文体学》评介
基于深度学习的维吾尔语名词短语指代消解
语篇元功能的语料库支撑范式介入
完形填空Ⅱ
完形填空Ⅰ
“指代”难点剖析