APP下载

成本约束下自适应众包标注的用户观点抽取

2019-08-01赵威林煜明黄涛贻李优

计算机应用 2019年5期
关键词:数据整合

赵威 林煜明 黄涛贻 李优

摘 要:用户评论包含了丰富的用户观点信息,对潜在的顾客和商家具有重要的参考价值。观点目标和观点词作为用户评论中的核心对象,它们的自动抽取是用户评论智能化应用的一项核心工作。目前主要采用有监督的抽取方法解决该问题,这些方法依赖于利用高质量的标注样本进行模型训练,而传统人工标注样本的方法不仅耗时费力,且标注成本高。众包计算为构建高质量训练样本集提供了一种有效途径,然而,众包工作者由于知识背景等因素使得标注结果的质量参差不齐。为了在有限的成本下获取高质量的标注样本,提出一种基于工作者专业水平评估的自适应众包标注方法,构建可靠的观点目标观点词数据集。首先,通过小成本挖掘出高专业水平的工作者;然后,设计一种基于工作者可靠性的任务分发机制;最后,利用觀点目标和观点词间的依赖关系设计了一种有效的标注结果融合算法,通过整合不同工作者的标注结果生成最终可靠的结果。在真实数据集上进行了一系列实验表明,与GLAD模型和多数投票(MV)算法方法相比,所提方法能够在成本预算较小的情况下将构建出的高质量观点目标观点词数据集的可靠性提高10%左右。

关键词:观点挖掘;众包计算;成本约束; 工作者检测;数据整合

中图分类号:TP391

文献标志码:A

Abstract: User reviews contain a wealth of user opinion information which has great reference value to potential customers and merchants. Opinion targets and opinion words are core objects of user reviews, so the automatic extraction of them is a key work for user review intelligent applications. At present, the problem is solved mainly by supervised extraction method, which depends on high quality labeled samples to train the model. And traditional manual labeling method is timeconsuming, laborious and costly. Crowdsourcing calculation provides an effective way to build a highquality training sample set. However, the quality of the labeling results is uneven due to some factors such as knowledge background of the workers. To obtain highquality labeling samples at a limited cost, an adaptive crowdsourcing labeling method based on professional level evaluation of workers was proposed to construct a reliable dataset of opinion targetopinion words. Firstly, high professional level workers were digged out with small cost. And then, a task distribution mechanism based on worker reliability was designed. Finally, an effective fusion algorithm for labeling results was designed by using the dependency relationship between opinion targets and opinion words, and the final reliable results were generated by integrating the labeling results of different workers. A series of experiments on real datasets show that the reliability of high quality opinion targetopinion word dataset built by the proposed method can be improved by about 10%, compared with GLAD (Generative model of Labels, Abilities, and Difficulties) model and MV (Majority Vote) method when the cost budget is low.

英文关键词Key words: opinion mining; crowdsourcing calculation; cost constraint; worker measurement; data integration

0 引言

在线评论由于包含了丰富的用户观点信息,因此对于潜在的用户、生产厂商和服务商具有重要的参考价值; 然而,随着评论的数据量急剧增长,人工分析评论已经变得不现实。观点挖掘(Opinion Mining),又称为情感分析,其目标是自动分析用户在各种媒介中表达的观点。相对于粗粒度的观点挖掘(如文档级别的),细粒度的观点挖掘技术能够更深入和细致地识别用户的观点,在近几年受到越来越多的关注。

观点目标和观点词是用户观点表达的核心对象。图1中给出了一个关于手机的评论句子,实线框描述了观点目标,虚线框为观点词,箭头观点的依赖关系。由此可见,观点目标和观点词承载了这句话中绝大部分用户的观点信息,因此,观点词对的自动识别是细粒度观点挖掘的关键任务之一。本文将观点目标和观点词简称为观点词对,并用二元组(观点目标,观点词)表示。图1的例子包含了两个观点词对:(运行速度, 棒)和(音质,差)。

在已有的工作中,有监督的观点词对抽取方法展现出了较好的效果[1-3],然而,这些方法需要大量高质量标注的样本训练抽取模型。人工标注样本是一个费力、易错和耗时的过程。众包利用在线集体智慧解决计算机不能胜任的任务,它为机器学习技术构建训练集提供了一种有效的途径[4-7]。之前利用众包计算构建训练集的工作大部分采用一次性標注的方式收集不同工作者的标注结果,然后通过一些复杂的模型生成最后的结果,例如EM(ExpectationMaximization)算法模型[8]、贝叶斯方法模型[9]、马尔可夫决策过程[10]等。这类方法主要是考虑到在公共开放的过程中每个工作者的机会均等,本文认为这种采用冗余标注来提高最终标注结果质量的方式会增加额外的标注成本。

目前,一些众包平台提供了指定工作者的任务发布机制,如Crowdsprint(http://crowdspring.com/)、CrowdFlower(http://make.crowdower.com/)和mircoWorkers(http://microworkers.com/)。在这种情况下,如果能够预先评估工作者的标注质量,将有效地降低标注成本,为此本文提出了一种自适应的众包标注方法来构建观点词对标注样本集。首先,评估工作者的专业水平;然后,将剩余的标注任务少量重复分发给高专业水平的工作者;最后,基于工作者的专业水平程度和观点目标和观点词间的依赖关系融合不同的标注结果产生最终的标注结果。总体而言,本文的主要贡献如下:

1)提出了一种基于工作者专业水平评估的众包任务分配策略,通过小成本挖掘出高质量的众包工作者;

2)提出了一种面向用户评论观点词对标注的众包任务分发机制,并设计了一种基于观点目标和观点词依赖关系的标注结果融合算法,生成可靠的标注结果;

3)在真实数据集上通过一系列的实验验证了文中提出方法的有效性。与传统众包标记方法相比,本文方法能够在有限成本下收集到更高质量的标注结果。

1 相关工作

对于众包的研究工作主要集中在两个方面,分别是任务的设计与发放和任务数据整合。任务的设计与发放的主要内容是形成众包任务的框架,便于对之后的任务数据整合和成本进行控制,并在一定程度上提高工作者的工作质量。众包模式更适合于解决微观任务,因此为了利用众包解决复杂任务,需要将复杂的任务分解成微观任务,这是由于众包工作者更喜欢完成一些粒度较小的任务,因为这种任务可以在很短时间内完成,同时单个微观任务的成本也是比较低的[11]。

相对于传统的实时众包模式,Chang等[6]对其进行了一些改进,不再将雇佣者放入到单一的共享工作环境当中,而是将众包任务分成不同的阶段,动态地将这些工作者分配到合适的任务阶段当中,不同阶段中工作者的结果相互影响,以便更好地对工作进行调控。毛莺池等[12]在任务分配过程中,结合空间众包中多类型任务和用户的特点,对贪婪分配算法改进后,将任务分配给附近的用户,以提高任务完成质量。施战等[13]设计了一种基于历史信息的用户可靠性更新机制,用户可靠性的更新由用户历史可靠性和当前完成任务的质量两部分决定,并将支付给用户的最终报酬与用户的可靠性挂钩,以激励用户持续高质量地完成任务。

众包任务数据整合面临的最大挑战是如何处理工作者提供的质量参差不齐的众包结果,最直接的方法是先把一个任务分配给多个工作者,工作者完成之后利用多数投票的原则来获取到最终结果,但这种方式没有考虑到工作者工作质量的多样性特点。针对这一问题,一些研究作了相关改进,将工作者的专业性加入到结果的估计之中,使得最终的结果质量得到了很大的提升[11]。

Liu等 [14]通过增加测试题目得到工作者的专业性,并利用贝叶斯理论将工作者的专业水平和工作者给出的任务答案结合起来得到最终的结果;Chang等[6]在得到工作者的反馈结果后,利用TFIDF(Term FrequencyInverse Document Frequency)的思想对反馈结果进行向量化,每个维度代表了对于工作结果具有相同解释内容的数量,并利用余弦相似度将向量化后的反馈结果进行聚类,最终得到几组不同类别的工作结果;Omar等[15]将众包应用到了翻译领域,将一些翻译领域的基础知识、特定句子翻译特点和一些常用于判断句子翻译的计算特征相结合进行向量化,并使用一些机器学习的评估手段来评估工作者的翻译结果,最终找出与原句子最佳的翻译结果;Jacob等[16]在数据整合方面考虑了工作者的专业水平和任务复杂度对任务结果的影响,并利用EM算法对评估模型进行训练直到找到一组能够达到最大似然估计的任务结果;Raykar等[8]设计了一种最大似然分类评估器,该分类器的基本分类器由逻辑回归分类器组成,通过结合真实的标注结果来提高标注的精度,该方法可以找出该领域工作质量最高的工作者并分配给他们更高的权重值,最后通过EM算法不停地迭代形成一个用来评估工作者专业水平的最佳边界值。

上述工作都是将任务发放的过程和数据整合分开进行,还有一些典型的研究工作将这两部分的过程整合在一起交叉进行。Snow等[17]将任务数据的整合过程结合到了任务的设计与发放当中,即在任务设计时就考虑到利用测试集来对工作者的专业水平进行评估,然后利用众包平台过滤掉低专业水平工作者的工作结果;Xi等[10]提出可以根据MDP(Markov Decision Process)模型与动态规划的思想,将KG(KnowledgeGradient)相似策略和条件风险价值度量相结合,在避免了低专业水平工作者带来影响的同时寻找出最佳的众包任务设计与结果筛选策略。在多分类任务上,大量的任务可能会产生海量的任务结果,Sarma等[18]为解决这种模式下产生的指数爆炸式的影响,提出了一种对任务结果进行类别化映射的方法,将相同的任务结果映射为同一类别,并对同一类别中的一些影响因子进行分析;Feng等[19]提出了一种新的工作者模型,利用工作者每次返回的新答案,结合工作者专业水平设计了两种增量式的策略来推断最终的任务结果,进而高效准确地得到任务结果。由于不同任务有着不同的影响因子,Demartini等[20]提出了一种概率模型,该模型基于因子图,通过综合考虑工作者所有任务结果特点,再结合工作者专业水平等因素来对高质量的任务结果进行提取。

6 结语

从在线用户评论中获取观点目标和观点词词对对于用户观点挖掘来说是一项很重要的任务,本文的工作不同于以往采用构建模型的方式对特征和观点词词对进行提取,而是采用众包通过人工的方式直接在评论句子中标注出来,这种方式较于以往的方法省略了复杂模型的构建过程,更加高效和便捷。但是这种方式存在的一个很重要问题是如何在有限成本的情况下对众包任务进行分配并从工作者的工作结果中精确提取出高质量的工作结果。本文采用了两段式的任务分配和结果评估方法,第一步就是通过测试集来筛选出高专业水平的工作者,然后将任务只分发给高专业水平工作者,这种方法在降低成本的同时也提高了最终任务的质量;第二步是对第一步得到的任务结果进行数据整合,最终会在较低成本的情況下得到一组高质量的标注结果。

参考文献 (References)

[1] WANG H, WANG H, YIN H Z, et al. A unified framework for finegrained opinion mining from online reviews[C]// Proceedings of the 2016 49th Hawaii International Conference on System Sciences. Piscataway, NJ: IEEE, 2016:1134-1143.

[2] TANG D Y, QIN B, FENG X C, et al. Effective LSTMs for targetdependent sentiment classification[J/OL]. arXiv Preprint, 2015, 2015: arXiv:1512.01100 (2015-12-03) [2016-09-26]. https://arxiv.org/abs/1512.01100.

[3] LIN Y M, JIANG X X, LI Y, et al. Collective extraction for opinion targets and opinion words from online reviews[C]// Proceedings of the 2016 7th International Conference on Cloud Computing and Big Data. Washington, DC: IEEE Computer Society, 2017: 3949-3958.

[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2012:1097-1105.

[5] LEASE M, ALONSO O. Crowdsourcing for search evaluation and socialalgorithmic search[C]// Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2012:1180.

[6] CHANG J C, AMERSHI S, KAMAR E. Revolt: collaborative crowdsourcing for labeling machine learning datasets[C]// Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2017:2334-2346.

[7] MITRA T, HUTTO C J, GILBERT E. Comparing personand processcentric strategies for obtaining quality data on Amazon mechanical turk[C]// Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. New York: ACM, 2015:1345-1354.

[8] RAYKAR V C, VIKAS C. Supervised learning from multiple experts: whom to trust when everyone lies a bit[C]// Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009:889-896.

[9] DONMEZ, PINAR, CARBONELL J G, et al. Efficiently learning the accuracy of labeling sources for selective sampling[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2009:259-268.

[10] XI C, LIN Q H, ZHOU D Y. Optimistic knowledge gradient policy for optimal budget allocation in crowdsourcing[C]// Proceedings of the 2013 International Conference on Machine Learning. Cambridge: MIT Press, 2013:64-72.

[11] 馮剑红, 李国良, 冯建华. 众包技术研究综述[J]. 计算机学报, 2015, 38(9):1713-1726.(FENG J H, LI G L, FENG J H. A survey on crowdsourcing[J]. Chinese Journal of Computers, 2015, 38(9):1713-1726.)

[12] 毛莺池, 穆超, 包威. 空间众包中多类型任务的分配与调度方法[J]. 计算机应用, 2018,38(1):6-12.(MAO Y C,MU C,BAO W. Multitype task assignment and scheduling oriented to spatial crowdsourcing[J]. Journal of Computer Applications,2018, 38(1):6-12.)

[13] 施战, 辛煜, 孙玉娥. 基于用户可靠性的众包系统任务分配机制[J]. 计算机应用, 2017, 37(9):2449-2453.(SHI Z, XIN Y, SUN Y E. Task allocation mechanism for crowdsourcing system based on reliability of users[J]. Journal of Computer Applications, 2017, 37(9):2449-2453.)

[14] LIU X, LU M Y, OOI B C, et al. CDAS: a crowdsourcing data analytics system[J]. Proceedings of the VLDB Endowment, 2012, 5(10):1040-1051.

[15] OMAR F Z, CHRIS C B. Crowdsourcing translation: professional quality from nonprofessionals[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:1220-1229.

[16] JACOB W, PAUL R, WU T F, et al. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise[C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. New York: Curran Associates, 2009: 2035-2043.

[17] SNOW R, CONNOR B O, JURAFSKY D, et al. Cheap and fast — but is it good? evaluating nonexpert annotations for natural language tasks[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 254-263.

[18] SARMA A D, PARAMESWARAN A, WIDOM J. Towards globally optimal crowdsourcing quality management: the uniform worker setting[C]// Proceedings of the 2016 International Conference on Management of Data. New York: ACM, 2016:47-62.

[19] FENG J, LI G, WANG H, et al. Incremental quality inference in crowdsourcing[C]// DASFAA 2014: International Conference on Database Systems for Advanced Applications. Berlin: Springer, 2014:453-467.

[20] DEMARTINI G, DIFALLAH D E, MAUROUX P C. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for largescale entity linking[C]// Proceedings of the 21st International Conference on World Wide Web. New York: ACM, 2012: 469-478.

[21] McCALLUM D R, PETERSON J L. Computerbased readability indexes[C]// Proceedings of the ACM82 Conference. New York: ACM, 1982: 44-48.

[22] HU M, LIU B. Mining opinion features in customer reviews[C]// Proceedings of the 19th National Conference on Artifical Intelligence. Menlo Park: AAAI Press, 2004:755-760.

猜你喜欢

数据整合
人口与发展数据整合研究
智慧旅游信息系统的旅游数据整合
高等院校实验中心共享教学资源库建设研究与设计
基于数据挖掘的网络营销系统研究
利用商业智能技术对多系统的数据整合研究分析
数据质量分析与整合在高校信息系统的应用
无线传感器网络在农业中的应用
无线传感器网络在农业中的应用