基于群体智慧的语料标注方法研究

2017-10-11柯永红俞士汶穗志方宋继华

中文信息学报 2017年4期

关键词：语料语料库群体

柯永红，俞士汶，穗志方，宋继华

(1. 北京大学计算语言学教育部重点实验室，北京100871;2. 北京师范大学信息科学与技术学院，北京100875)

基于群体智慧的语料标注方法研究

柯永红1，俞士汶1，穗志方1，宋继华2

(1. 北京大学计算语言学教育部重点实验室，北京100871;2. 北京师范大学信息科学与技术学院，北京100875)

自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求，该文提出了基于群体智慧的语料标注方法，设计了标注模型，并就用户能力评测、语料筛选、任务管理、协作标注、行为分析、质量控制、决策加总、考核激励等具体环节进行分析，提出了解决方案。项目实践表明：基于群体智慧的语料标注方法在应对创新性很强的自然语言处理研究项目时具有明显的优势。

群体智慧；语料标注；自然语言处理

Abstract: The performance and robustness of the natural language processing system depend strongly on annotated corpus.To meet the requirement of large scale and high quality corpus annotation, this paper describes an annotation method based on collective intelligence, including the system structure, user capacity evaluation, data selection, task management, collaborative tagging, behavior analysis, quality control, judgement and optimaztion. Project practice shows the annotation method based on collective intelligence has significant advantages for natural language processing research projects.

Key words: collective intelligence; corpus annotation; natural language processing

收稿日期： 2016-03-08 定稿日期： 2016-04-13

基金项目：中国博士后科学基金(2015M570877)；国家重点基础研究发展计划(2014CB340504)

1 引言

语料库是自然语言处理研究和应用的基础性资源，经过科学选材和标注、具有适当规模的语料库能够记录和反映语言的实际使用情况。自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料，近年来基于深度学习的深度神经网络(deep neutral network，DNN)模型大行其道，而DNN模型更加凸显了对大规模深度标注语料的强烈需求。

大规模、高质量的人工标注语料十分难以获得，其原因在于：传统的语料库人工标注需要具备专业知识的人员进行，标注人员遴选、文本筛选、任务组织、进度协调、质量检查、成果汇总、工作量计算等都需要人工完成，难以保证各个环节的效率和科学性。因此，大规模、高质量的语料库人工标注需要投入大量的资金、时间和人力。本研究的目标是：基于群体智慧的思路，探讨面向大规模、高质量的语料库人工标注方法。本文的思考来源于解决973项目(国家重点基础研究发展计划2014CB340504：面向三元空间的互联网中文信息处理理论与方法)语料标注过程中诸多问题的实践。本文不讨论标注系统的数学模型、开发技术等技术细节，而是讨论整体构建策略和关键环节的实施办法。

2 人工语料标注的研究现状

英国语言学家Leech在1997年的Introducingcorpusannotation一文中将语料库标注(corpus annotation)定义为“为电子口笔语语料库文本添加解释性信息和语言学信息的活动”。标注的具体实施即是对文本某些元素或特征添加预订的标签，通常分为计算机自动标注、机助人工标注和人工标注。人工标注即由人对各种语言现象进行分析判断并用特定的一套标签对语料进行加工处理。传统人工标注的问题是：标注往往由一个或几个人分散进行，费时费力，而且受到标注者的专业知识、工作态度、精神状态的制约，标注的一致性较差，标注进度和标注质量难以保证，无法应对大规模、高质量的语料库标注需求。

社会标注(social amnotation)作为高效的信息资源标引、组织和检索模式，是解决传统人工标注诸多问题的有效手段。文献[1-2]介绍了社会标注的理念和优缺点，文献[3-4]论述了社会标注的统计特点，文献[5-6]介绍了社会标注在信息检索领域的应用。自2005年以来，社会标注方法得到广泛应用，如网络书签网站Delicious、图片共享网站Flickr、学术论文标注和检索系统CiteULike、音频文件标注和推荐系统LastFM[7]等。在国内，将社会标注应用到语料标注仍处于探索阶段。李宏言[8]等将社会标注应用于大数据语音语料库标注，并通过工程实践和应用，验证了社会标注在标注效率、质量和成本等方面的优势。

基于群体智慧(collective intelligence)语料标注方法，属于社会标注的范畴。Collective intelligence 可翻译为群体智慧、集体智慧、集体智能、合作情报等。George Pór将群体智慧定义为：通过分化与整合、竞争与协作的创新机制，人类社区朝更高的秩序复杂性及和谐方向演化的能力[9]。维基百科将群体智慧定义为：群体智慧是一种共享的或者群体的智能，它是从许多个体的合作与竞争中涌现出来的[10]。群体智慧的应用场景主要有：群体协作完成复杂任务、群体决策、群体预测等。Singh[11]等人探讨了网络社会中不同文化和专业背景的人群利用群体智慧创造知识及解决复杂问题的方式。Lykourentzou[12]等人基于前馈神经网络的专家匹配算法(EPM)，开发了CorpWiki 系统，该系统将机器学习智慧与员工智慧结合起来，实现了对员工个人知识的有效利用，促进了群体智慧的发展。Chen X[13]等开发了一个网络平台，该平台可以收集大众的几何知识，生成即时更新的动态教科书。我们认为，基于群体智慧的语料标注是由多个标注人员通过群体协作、互动交流、智慧发掘和信息共享，贡献出自己的知识、技能、经验，并通过有效提炼、加总，产生出优于任何个人标注的结果。群体智慧与众包(Crowdsourcing)是两个不同的概念，杰夫·豪(Jeff Howe)[14]将众包定义为：将传统上交由指定的机构或个人(通常为雇员或承包商)所做的工作以公开征集的方式外包给一个开放的、非特定的大众群体来完成。群体智慧和众包这两个概念有部分是重叠的，但仍有明显的区别：众包强调任务的分发，简单的任务不需要群体智慧的深度参与，如将一本书的不同章节分给多人录入到语料库，虽然最终的成果蕴含多个任务参与者的智慧，但这只是简单的聚合。基于群体智慧的语料标注方法不仅仅是简单的将标注任务分工，更需要对标注参与者的智慧进行发掘，其结果必须是经过有效归纳和加总得到的、优于任何个人的集体性成果。基于群体智慧的成熟标注系统非常少见，而在大数据和机器学习大行其道的时代背景下，基于群体智慧进行语料标注，既有强烈的现实需求，也有广阔的研究和应用前景。

3 基于群体智慧的语料标注方法

图1描画了基于群体智慧的标注模型。该模型的输入项有三个：标注者、待标注语料和标注规范。模型的处理部分包含：能力评测、语料筛选、任务组织、协作标注、行为分析、质量控制、决策加总、考核激励等，输出为标注语料库。

3.1 能力评测

如何评估语料标注人员具有的“智慧”，是首先需要解决的问题。为此，我们引入用户能力评测模型。用户能力评测模型的参数有四个：专业背景评分、标注测试评分、标注正确率评分、任务完成情况评分。专业背景评分是由人工对用户在注册时填写的基本资料，包括教育背景、专业特长、工作经历等进行打分，分值越高，表明用户潜在标注能力越强。用户通过专业背景打分后，还要进行标注能力测试。标注测试评分是通过挑选典型的标注语料，交由用户进行标注，由系统对标注结果自动评分，得分即为用户的标注能力测试成绩。标注正确率评分是用户已完成的标注任务的正确率得分。任务完成情况评分用来评估用户按照规定时间完成标注任务的能力。通过用户能力评测模型，我们可以为用户建立基本的评价，为后续的任务分配提供可靠的依据。

3.2 语料筛选

就语料库标注来说，一个重要的指标是尽可能保证语料的平衡。通常采用语料平滑算法来解决数据稀疏问题。但是，语言中高频词只占少数，大部分词都属于低频词，因此在自然语言处理领域，数据稀疏问题不可避免。除了词频之外，语料平衡往往需要考虑多个因素(如语义角色标注中，谓词、句式、意义组合模式等都可以作为参考)，仅仅依靠语料平滑算法，通常难以取得理想的效果。人工语料标注通常是一个渐进、动态的过程，在语料平滑算法的效果不够理想时，标注者的专业知识和经验对于平衡语料十分重要。在基于群体智慧的语料标注过程中，可以为专家级标注者提供语料特征分析、语料检索、语料统计、词典对比、语料抽取等工具，由专家级标注者通过工具的组合使用，挑选代表性语料进入候选标注语料。这种方法虽然不如机器挑选效率高，但是专家用户挑选的语料往往能够较好地覆盖语言现象，在一定程度上解决数据稀疏问题。

3.3 任务组织

社会化的语料标注方法，一个难点是给合适的人分配适合的任务。通过用户能力评测模型，可以将任务优先分配给能力评测得分较高的用户。任务管理模块主要管理三类任务：标注任务、质检任务、裁判任务。标注任务是根据设定的任务目标，利用语料筛选模块自动或人工挑选语料，生成一个任务，挑选合适的任务执行者，并给出建议完成时间。建议完成时间根据待标注语料的规模和已完成任务的平均标注速度计算生成。质检任务通常由管理员设定抽检比例，随机抽取已标注的语料，由其他用户对标注结果进行确认。确认有三种标记：通过、修改、存疑，并可附上个人意见。质检任务完成后，系统提取标记为“修改”和“有疑”的标注，生成裁判任务。裁判任务由专家用户承担，专家用户自行决定或协商裁定最终标注结果。

3.4 协作标注

协作标注模块是基于群体智慧的标注系统的核心。协作标注通常有两种方式：隔离标注和参考标注。隔离标注是指多个用户标注同样的语料，这些用户彼此之间无法看到对方标注结果。隔离标注的目的有两个：其一，避免用户互相看到数据，受到他人标注结果的影响；其二，可以收集差异数据，进行典型差错分析，进而改进标注规范和标注工具。参考标注是指用户在标注时能看到已经完成的标注，参考的对象既可以是人工标注数据，也可以是机器自动标注的结果。参考标注的好处在于用户能参考其他用户的标注结果，能够提高标注的效率和质量，但也可能会受到其他用户的影响。在实际标注过程中，应根据语料标注的不同阶段和目的选择对应的标注方法。

3.5 行为分析

Alag[15]、Doan A[16]和Di Maio[17]等研究认为，群体智慧可以分为两种类型：直接智慧(或显性智慧)和间接智慧(或隐性智慧)。直接智慧是用户直接提供给应用程序的，如加在语料上的标注、用户对标注的评论等。间接智慧是通过对用户在应用程序内或应用程序外提供的信息，进行收集、聚合和分析之后获得的智慧。标注系统中，用户的行为数据属于间接智慧，对间接智慧的发掘和分析往往能得到有价值的深度信息。如用户登录系统的次数越多、标注时间越长，这类用户的标注结果往往更为稳定、可靠；用户在某一类语料上的修改次数越多，或是标注时间越长，说明该类语料的标注难度越大，这类语料的标注结果需要重点关注；用户的标注正确率、召回率可以反映用户的标注能力。通过用户行为分析，可以为标注提供很多非常有价值的数据，而这类数据往往是改进标注系统、推动标注进展的关键。

3.6 质量控制

质量控制大致可以分为三个阶段：标注阶段、质量检查阶段、裁判阶段。标注阶段质量控制的重点在于操作规范的制定和落实。标注规范应清晰明了、可操作性强。同时，应提供对应的标注工具，将标注规范整合到标注工具，能在很大程度上避免不规范的标注。通过与现有标注结果的对比和分析，可以就一些常见错误自动提示给用户。标注阶段质量控制得好，可以避免错误传播，大大减少后期的工作量。标注完成后，即进入质量检查阶段。在这一阶段，可以采取的方法主要有人工抽检和自动抽检。人工抽检是由项目管理者发起，随机或者指定一批标注语料，交由其他标注者进行交叉标注和检查。自动质检是由系统自动抽取部分语料进行特征分析，并在系统中找出相同或者类似的已标注语料，将标注结果不一致的地方标记出来，等待裁判。此外，为了评估标注者的标注质量，可以引入“陷阱标注”：根据以往的标注结果，从语料库中抽取一定比例容易标错的语料，加入到用户的标注任务中，检查用户是否标注正确。如果 “陷阱语料”的标注正确率较高，说明用户标注结果可信度较高，否则需要对用户的标注进行重点检查。

3.7 决策加总

人工语料标注，最终的目标是生成科学、一致的集体性标注成果。设计有效的决策机制，对群体的个人智慧进行有效加总，是实现这一目标的关键。为此，我们设计了如图2所示的决策加总机制。

图2 决策加总机制

该机制分为八个步骤： (1)采集分析：通过交叉标注、行为分析、质量控制等环节，采集需要加总的差异性标注数据； (2)目标生成：根据采集分析得到的数据，确定决策目标； (3)群体决策：基于标注数据和决策目标，进行群体决策。(4)方案生成：将群体决策的结果转化为方案； (5)方案评估：由群体用户对方案进行分析评分，如果评分过低，应继续修改方案； (6)方案裁判：由专家级用户组成的评判小组进行投票，确定方案是否通过； (7)方案输出：将裁判通过的方案输出到已标注语料库； (8)优化加总：对方案进行关联分析，评估其影响范围，优化整体方案。

具体操作上，决策加总机制可以实现为一个信息聚合模块，该模块内部包含三个单元，分别是生成方案单元、优化方案单元及评估方案单元[18]。在生成、优化及评估方案中，有三种手段可以获取群体智慧，去弥补决策过程中的偏差：外扩、加权平均和自组织[19]。外扩是指在收集和评估决策方案的时候，去寻找外界的帮助，扩大参与决策的个体数量。我们发现在上述三种手段中，外扩实施起来难度较大，但最为有效。语料标注是一个复杂的系统工程，但在实际操作过程中，往往只有计算机工作者的参与，我们应该寻求语言学、心理学等多领域专家学者的融合和合作，这样的跨学科互涉更有利于方案的生成和优化。通过生成方案单元、优化方案单元及评估方案单元这三个单元的协作，在充分发挥群体中的个人智慧的前提下，可以保证最终成果一致，得到深度的群体智慧结晶。

3.8 考核激励

人工语料标注是一项专业性较强且枯燥的任务。如果没有合适的考核激励机制，标注质量没有保障，标注进度无法控制，也不能持续吸引新的参与者。就语料标注系统而言，考核方法主要是计算用户经确认的语料标注数量、正确率、完成时间。激励是保持和提升用户积极性的重要手段，在我们的项目实践中，最有效、最直接的激励是物质奖励，可以将标注正确的语料量和任务完成时间作为参数计算标注费用。科研领域的语料标注者多为学术专业人员，科研的荣誉感对他们而言是重要的影响因素，可以考虑在项目成果中为贡献较大的标注者署名，同时让标注者获得标注语料库的部分使用权，这也能在很大程度上促进标注者提升标注质量。

4 基于群体智慧的语料标注平台实现与分析

为满足973项目大规模语料标注的需要，我们开发了基于群体智慧的语料标注平台，其结构如图3所示。

图3 基于群体智慧的语料标注平台系统结构

图3中平台的结构分为四层：系统层提供认证、日志、权限、访问过滤、系统设置等基本功能；基础模块层则实现了规范校验、流程控制、质量控制、版本控制、结果加总、链接集成等功能；管理工具层包括目录版本、语料管理、任务管理、方案管理、资源库管理等功能；用户功能层提供了账号服务、培训评估、集成标注环境、资源支持等功能。

为评估基于群体智慧的语料标注方法在实际应用中的效果，我们选择了一万句《人民日报》语料和微博语料作为标注样本，进行汉语语义角色标注。将标注人员分为两组(均为研究生以上学历，计算语言学专业背景)，分别采用传统手工语料标注方法和基于群体智慧的标注方法，并记录标注过程，标注结果对比如表1所示。

从表1可以看出：

(1) 单人平均标注速度。由于基于群体智慧的标注平台提供了图形化的操作界面，且能在标注过程中由程序提供辅助标注功能，其单人平均标注速度优于传统的标注方法。

表1 两种标注方法的对比

(2) 完成任务所需时间。基于群体智慧的标注平台提供了多人协作标注功能，且能够在线完成质量检查、争议裁判。在完成一定规模的语料标注任务时，其完成任务所需时间较传统方法大大缩短。

(3) 标注质量评价。就个体首轮标注质量而言，标注质量取决于语料难度和标注者个人能力，传统方式和基于群体智慧的方式没有明显差异；就总体任务完成质量而言，由于加入了质量检查、争议裁判，基于群体智慧标注方法的一致性好于单人标注结果。

随着标注任务的进行，平台中标注时间、思考时长、修订记录、标注正确率等数据不断丰富，我们将对这类用户行为数据进行挖掘和分析，进而优化任务分配、质量检查和偏误分析。我们也在逐步加入标注语料的相似度分析、难度计算、标注可信度评分、错误驱动学习等模型和功能。可以预期，基于群体智慧的方式在标注效率和质量上的优势会更加显著。

5 总结与展望

在我们的项目实践中，基于群体智慧的标注方法在面对一定规模的语料标注任务时，标注效率比传统的手工标注有明显的提高，标注质量也有所提升，极大地推动了研究的进展。创新性很强的自然语言处理项目实施过程中，探索的特点非常明显，就语料标注来说，项目早期很可能没有易用的标注系统，标注规范是随着语料标注的进展逐步提炼、修改、完善，这个过程不但需要充分发挥每个标注者的智慧，而且需要有效的群体协作、信息发掘、智慧归总，唯此方能最终形成科学的项目成果。这种情况下，基于群体智慧的标注方法相比传统方法有明显的优势。当然，基于群体智慧的标注方法也面临诸多的挑战，如：需要建立复杂的模型才能有效挖掘深层的群体智慧；需要设计有效的机制，并实现为易用的系统，使之既能让群体成员充分发挥个人智慧，又能发现和归总群体智慧，形成权威、一致、深度的集体性成果；多人标注所形成的深度标注语料库的知识产权归属不够清晰等。整体来看，基于群体智慧的语料标注方法，仍处于探索阶段，具有广阔的研究前景和巨大的工程价值。

[1] Mathes A.Folksonomies-cooperative classification and communication through shared metadata [OL]. http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html,2004.

[2] Lambiotte R,Ausloos M. Collaborative taggingas a tripartite network[C]//Proceedings of the International Conference on Computational Science. Springer-Verlag, 2006: 1114-1117.

[3] Cattuto C, Schmitz C., Baldassarri A, et al. Network properties of folksonomies [J]. AI Communications Journal, Special Issue on Network Analysis in Natural Sciences and Engineering, 2007, 20(4): 245-262.

[4] Cattuto C, Loreto V, Pietronero L. Semiotic dynamics and collaborative tagging [C]//Proceedings of the National Academy of Sciences, 2007(104): 1461-1464.

[5] Sheng hua B, Xian W. Optimizing web search using social annotations[C]//Proceedings of the 16th World Wide Web 2007. New York: ACM, 2007: 501-510.

[6] 靳延安，李瑞轩，文坤梅,等. 社会标注及其在信息检索中的应用研究综述[J]. 中文信息学报，2010，42(4): 52-62.

[7] 李志云.协同标注研究及其在数字博物馆中的应用[J]. 计算机工程，2008，34(6): 221-223.

[8] 李宏言，范利春，高鹏，等. 大数据语音语料库的社会标注技术[J]. 清华大学学报(自然科学版)，2014，53(6): 909-912.

[9] 百度百科. 群体智慧. [EB/OL]. http: / /baike.baidu.com/view /911476.Htm.2010-01-10.

[10] 维基百科. 群体智慧. [EB/OL]. http: / /zh.wikipedia.org/zh-cn/.Html,2010-01-10.

[11] Singh V K, Jalan R, Chaturvedi S K, et al A.K. Collective intelligence based computational approach to web intelligence [C]//Proceedings of 2009 International Conference on Web Information Systems and Mining, Shanghai, China, Nov 7-8, 2009.

[12] Lykourentzou I, Papadaki K, Vergados D J, et al. A self-regulating wiki to promote corporate collective intelligence through expert peermatching [J]. Information Science, 2010(180): 18-38.

[13] Chen X, Li W, Luo J, et al. Open geometry textbook: a case study of knowledge acquisition via collective intelligence [M]. Intelligent Computer Mathematics. Berlin Heidelberg.Springer, 2012: 432-437.

[14] Howe J. The rise of crowdsourcing[J]. Wired, 2006, 14(6): 176-183.

[15] Alag S. Collective intelligence in action [M]. New York: Manning, 2009.

[16] Doan A, Ramakrishnan R, Halevy A Y. Crowdsourcing systems on the world-wide web [J]. Communications of the ACM, 2011, 54(4): 86-96.

[17] Di Maio P. Making sense of collective intelligence [J]. Feedback, 2013(4): 6-22.

[18] 苏寒，胡笑旋. 基于群体智慧的复杂问题决策模式[J]. 中国管理科学，2012(20): 783-789.

[19] E. Decisions 2.0: the power of collective intelligence [J]. MIT Sloan Management Review Winner， 2009, 50(2): 45-52.

柯永红(1981—)，博士，讲师，主要研究领域为词汇语义学、计算语言学。

E-mail： kyh@pku.edu.cn

俞士汶(1938—)，教授，博士生导师，主要研究领域为计算语言学。

E-mail： yusw@pku.edu.cn

穗志方(1970—)，教授，博士生导师，主要研究领域为计算语言学。

E-mail： szf@pku.edu.cn

Research on Corpus Annotation Method Based on Collective Intelligence

KE Yonghong1, YU Shiwen1, SUI Zhifang1, SONG Jihua2

(1. MOE Key Laboratory of Computational Linguistics, Peking University, Beijing 100871, China;2. College of Information Science and Technology, Beijing Normal University, Beijing 100875, China)

1003-0077(2017)04-0108-06

TP391