基于众包的数据优化
——以数字方志特藏资源建设为例*
2019-01-17于亚秀
李 欣,于亚秀,程 静
0 引言
众包是基于互联网的新型社会化协作机制,直接将问题发布到互联网上,利用网络大众的群体智慧来产生超越个体智慧的成果,在许多领域中得到应用[1]。很多计算机不擅长的、难以有效解决的问题,如复杂的图片标注、文字识别、软件开发、语言翻译、工业设计等都可以通过众包得以解决。这些任务都是简单且相对独立的小型任务,甚至是决策任务,通常可以独立完成。
随着Web2.0参与、互动与分享理念深入人心,很多图书馆OPAC系统嵌入为馆藏添加标签和评论的功能,这是典型的利用网络大众群体智慧来提升资源发现能力的例子。用户所添加的标签和评论通常由图书馆员来确定是否采用,带有主观色彩。有学者[2-4]在图书馆特藏资源建设、参考咨询问答服务以及资源采购与读者荐购等方面探讨了应用众包的可行性;也有学者探讨了建立众包激励机制以提高用户参与意愿的方法[5-6]。近年图书馆对众包的关注度越来越高。本文在分析方志数据特点的基础上,从众包功能实现方式、特点及如何通过整合众包结果得到问题最优答案的方面,探讨众包技术在图书馆的应用。
1 众包概述
1.1 概念与模型
众包概念由美国《连线》杂志记者杰夫·豪(Jeff Howe)2006年6月提出[7]。杰夫·豪对众包的定义是:一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法[8]。众包的基础模型由任务发布方、任务完成方、众包任务和众包平台组成,如图1所示。众包的核心思想为充分利用公众的力量,收集群众的智慧来解决大问题。众包的优势在于,它能聚集众多不同背景的人,能聚集众多的算法,这些人或者算法在巨大的空间里相对均匀地从不同的点开始搜索、开始研究,这样的话效率会变得很高[9]。之所以称为基础模型,是因为只针对提供众包任务解决方案的“任务完成方”而言。对于“任务发布方”,收到众多解决方案,并不意味着任务完成,采纳解决方案的过程相当复杂,它直接决定众包的效果。
图1 众包基础模型
1.2 典型应用
众包应用主要集中在创作和服务领域。卡内基梅隆大学LuisVonAhn教授研发的reCAPTCHA系统[10]是一个成功的众包案例。reCAPTCHA主要针对年代久远、字迹模糊、褪色、污损且OCR无法识别的文献内容,这些内容由人工辨认。reCAPTCHA系统中,验证码由两个单词组成,一是系统设定并有明确答案的“control word”(对照词),二是来源于 OCR无法识别的“unknow word”(未知词)。前一个用于验证用户是否有能力识别这些文字,如果答案正确,就认为用户对“unknown word”部分的回答也是可信的。为增强可信度,同一个“unknown word”会被分配给多个用户,然后综合这些用户的回答来判定这个疑难字符是否被正确识别。reCAPTCHA系统以免费服务的形式提供给各网站,以加快文献数字化进度[11]。该系统巧妙地采用网络验证码的形式汇聚亿万网民的智慧,对计算机无法识别的文字进行辨识,在不知不觉中完成了1300万份《纽约时报》档案资料的数字化[12]。
1.3 实现方式
1.3.1 平台/系统
(1)公共众包平台。AmazonMechanicalTurks(AMT)、CrowdFlower、猪八戒网、大学士等公共众包平台利用成熟的商业众包形式发布众包任务。公共众包平台适合发布可分解成微任务的复杂任务。该类平台的优点是用户不用开发平台,只要组织好任务即可通过公共众包平台进行发布,实现速度快;缺点是针对性弱,专业性差。公共众包平台一般都是商业化的,需要收取费用。
(2)专业众包平台。由发布众包任务的主体开发专门的众包平台。例如,上海图书馆历史文献众包平台,专门针对上海图书馆收藏的大量手写资料中的人、地、时、事等内容特征进行深度标引,同时对无法采用OCR处理的全文进行抄录。该平台只发布上海图书馆的特定众包任务,并不向普通大众开放。专业众包平台专业性强、管理简单,随着时间的推移能逐渐聚集相对专业的任务完成方群体,但需要开发系统,人员和资金投入较大。
(3)社交网络平台。部分社交网络平台也提供众包功能,如Facebook、Twitter、微博、微信。任务请求方在社交平台上嵌入自己的应用来实现众包任务的发布,并利用社交网络平台用户关注度高的特点来完成众包任务。此方式优点在于能利用社交网络用户随时随地在线的特点以及碎片化时间来取得众包任务的及时反馈;缺点是持久性差,发布的任务很快会淹没在海量的信息中。
(4)嵌入应用系统。比如,图书馆及亚马逊书店的图书评分。这种方式能聚集专业/使用人员在系统使用的过程中完成数据优化。由于应用面窄,一般选取与众包任务性质相近的系统进行任务嵌入。此方式优点在于针对性强,因为系统访问者也就是众包工人,可以很好地聚类工人;缺点是需要在应用系统开发以及运行过程中考虑众包任务接口嵌入,同时应用系统需具有一定的开放性以满足接口嵌入。
1.3.2 活动方式
活动方式指依赖组织活动实现众包。上海图书馆2016年首次主办面向家谱开放数据的数据应用开发竞赛,激发数据创新活力和潜在价值。2017年围绕名人手稿和档案开放数据,上海图书馆通过移动应用及服务创意进一步释放开放数据的价值,挖掘数据背后的应用潜力。2017年北京大学举办基于开放研究数据平台的“首届全国高校数据驱动创新研究大赛”,基于给定的数据集和数据空间,挖掘创新应用案例。活动通常包括报名、特定应用场景培训、提交作品、组织评审、结果发布及颁奖等环节,基于特定场景,以数据众包居多。此类活动优点在于参赛者范围广、多样化,有不同的技巧和视野[9],通过较少投入获得较大的收益。
1.4 功能特点
1.4.1 数据库管理功能
在数据库应用领域,众包工人管理功能并非指简单的人员注册管理。该功能不仅通过注册信息划分地区、专业与领域,更通过众包行为的历史记录,包括登录次数、物理位置、完成任务数量、任务类别、任务被采纳情况等,自动实现聚类与交叉智能管理,为众包任务的合理分配与任务智能推送提供科学的量化分析数据。
1.4.2 人机交互功能
(1)任务列表功能。这是最简单、最常用的任务发布方式,一般以时间顺序显示任务,特别适合在任务量较少或任务发布周期较长的系统中应用。工人只能通过浏览任务页面来获取感兴趣的信息。当任务量逐渐增多或发布周期较短时,随着任务列表的快速更新,旧任务很快被新任务覆盖。工人往往只关注前几页任务列表,使得早期的众包任务不能被发现。
(2)任务搜索功能。一般系统的搜索功能基本建立在任务描述的主要元数据基础上。但要精准定位任务,仅仅依靠任务的元数据检索功能是不够的,需要从发布时间、地域特征、类别以及任务摘要关键词提取等方面综合考虑,设计任务搜索功能,帮助工人便捷地查找感兴趣的任务。任务搜索功能需要丰富的众包任务描述元数据以及摘要的文本关键词拆分处理配合实现。
(3)任务推送功能。根据兴趣爱好把相关任务发送给相关工人,不需要工人主动搜索。任务推送要与众包工人管理相结合,根据管理平台上的工人历史信息构建工人偏好模型,进行任务推荐。针对方志数据,从地理位置特征考虑,任务推送目标群体的地理位置是需要考虑的因素。
图形化界面设计是众包平台人机交互功能的重要方面。比如,标签云检索功能在形象化聚类众包任务的同时,可以在有限界面内承载更多的任务类别,让工人在众多任务中方便地找到自己感兴趣的任务。特别是那些往往不能第一时间被认领的小众任务,在按时间排列的普通众包任务列表中会排在后面,关键词/类别标签云功能可以较好地解决任务列表功能的不足。
1.5 众包工作流程及关键技术
从时间顺序来描述,众包工作流程主要包括任务准备、任务执行、结果整合三部分,并通过平台来管理任务的全过程(见图2)。
1.5.1 任务准备
将复杂任务分解成较小的子任务,每个子任务要具有相对独立性且适应特殊需求或具备某种特点,以方便将其分配给合适的工人群体。对工人群体需要进行适当的激励、选择和组织,从而使任务分配更具针对性,包括确定任务的合理价格,设计任务发布界面等。
图2 众包工作流程[13]
1.5.2 任务执行
众包任务通常以达到某种优化为目的。因此,任务的自然认领与有效结合工人因素的针对性任务推送需要关联起来,平衡任务自然选择与针对性推送的数量。选择什么样的工人来承担任务对结果非常重要,任务在执行过程中需要不断调整,如得到正确结果后及时终止任务以节省费用,在有效时间内收不到正确结果则需要重新组织与发布任务。
1.5.3 结果整合
任务结果整合是众包工作流程的重要步骤,大部分众包应用都要通过整合来获取任务的最终结果。因此,任务答案整合是众包质量控制的核心内容。对于众包任务,由于任务量小,而工人文化层次多样、能力参差不齐,一般以冗余的方式发放。当所有的任务均收到答案,再进行结果的比较分析、推理整合,剔除众多结果中的无用信息和错误信息,汇聚出最合适的答案[14-15]。众包结果整合主要采用投票、数学模型推断和二次众包结果协同等方式进行[14]。
(1)投票方式。在工人提交答案后,可通过各种算法来保证结果的质量。最简单的办法是把一个任务分配给多个(奇数)工人来完成,然后通过多数投票原则(少数服从多数)来获取最终结果[16-19]。多数投票原则假定每个工人的答案准确率是一致的,没有考虑工人的多样性。但是,不同工人的答案准确率通常差异较大,因此采用这种方法得到的最终结果往往不够准确[8]。投票方式的变种——加权投票方式的核心思想是,给每个工人标注一定的投票权重。以方志数据众包为例,鉴于方志数据的时间、空间特性,众包结果汇聚时,空间服务范围对汇聚结果的影响是需要重点考虑的,应提高其权重。比如,来自任务发布地的工人结果,其可信度权重应高于其他地理位置的工人结果。
(2)基于数学模型的方式。构建数学模型来推断众包结果是常用的整合方式。有学者[20-24]将工人答题质量、结果推理过程构建成数学模型来实现众包结果推断,其中经常使用基于概率模型的推断方法[20-22]。假设众包任务是判断“ibm”与“big blue”是否等价,如果三个工人w1、w2、w3的答案分别为yes、yes和no,且三个工人回答的准确率分别为0.2、0.6和0.9(该准确率根据工人答题的历史数据给出);那么通过贝叶斯公式[25]来计算答案(ans)yes的概率为:P(ans=yes|w1=yes,w2=yes,w3=no)∝(正 比于)P(w1=yes|ans=yes)*P(w2=yes|ans=yes)*P(w3=no|ans=yes)*P(ans=yes)。其中,P(w1=yes|ans=yes)表示正确结果是yes,而w1给出回答为yes的概率,即为工人w1的准确率,等于0.2。假定在没有任何回答的前提下,答案为yes或no的先验概率相同,即P(ans=yes)=P(ans=no)=0.5;那么结果P(ans=yes|w1=yes,w2=yes,w3=no)∝0.2*0.6*(1-0.9)=0.012。类似地,结果为no的概率P(ans=no|w1=yes,w2=yes,w3=no)∝(1-0.2)*(1-0.6)*0.9=0.288。归一化后得到答案为yes或者no是真实结果的概率分布为=(4%,96%),也就是说no是真实结果的概率较高,因此根据概率推断将返回no作为结果。Ipeirotis,Dawid,Venanzi[22-23]等将工人质量及推断过程表征为更复杂的数学模型,通过将结果融入到某一优化目标,再最优化这一目标公式来推断求解结果。构建数学模型来进行结果整合,其应用一般建立在工人数据精准管理的基础上。比如,根据工人过往完成任务情况,得出工人完成某类任务的正确性概率。
(3)基于二次众包的结果协同。大部分众包结果可通过算法和数据模型进行推断,但有时因任务的主观性强,结果的判断相对复杂,如手写体识别、创意设计。当结果的优劣很难通过算法加以判断时,可通过第二次众包来判断先前得到的众包结果的优劣,即通过众包过程去验证众包结果的判断,以此完成众包结果的协同。
2 数字方志特藏资源建设众包设计
数字方志特藏资源建设引入众包模式,主要从稀缺资源收集和数据优化两方面开展。方志资源作为相对专业的资源类型,在众包设计时需考虑其与常规众包不同的特征。笔者认为在众包设计流程上依然要遵循众包基本流程,但在技术特征上对众包结果整合环节要求更高,实现方式应以专业平台为主。
2.1 数据新特征
方志特藏资源作为人文研究的重要数据来源,具有资料性、真实性、区域性、时限性和传承性的特征[26]。面对形式复杂多样的图像、语音、视频和文本等非结构化数据,方志特藏资源数字化从简单的纸质文献全文扫描与描述性元数据加工,向纸质文献的OCR识别、多媒体资源的文本数据抽取与描述、全文标注以及相应的元数据加工、拆分、关联、存储等方向转变。这种资源的深度挖掘主要用以产生量化和关联关系等辅助研究结果,是随着人文研究方式的不断拓展和深入而产生的新需求。
2.1.1 非结构化内容数据
(1)音视频数据处理。音视频数据可以拆分成视频和音频数据,然后通过自动语音识别系统“提取”语音中所包含的文字信息,将音频数据转换成文本数据,从而使大量音频以文本数据方式存储,这样通过文本数据最终实现音视频的检索。在音频数据转换成文本数据方面,科大讯飞开放平台、百度语音识别、云知声、IBM WATSON等系统有广泛应用。近年音频识别技术发展迅速,应用场景走向大型会议。讲演者的音频数据通过转换软件系统处理,可在大屏幕上同步显示所转换的文本。新技术为多媒体资源的文本化提供了可行性。
(2)文本数据处理。文本数据的细粒度化主要通过全文、题名、自然语言关键词、摘要等描述性元数据的分词以及规范主题词处理,形成标签数据,用于文本深度分析和可视化,进而结合特定属性(时间、地点、人物等)的全文标注来实现知识关联。实现上述文本数据的细粒度化,涉及自动分词/自然语言处理(Natural Language Processing,NLP)技术、标注技术。自动分词和属性标注应用于专有名词和特有需求甚多的垂直领域时,要提升文本数据细粒度化处理的精准度,往往需要大型语料库的支撑。然而,在中文垂直领域语料库很少,很难将比较通用的(如在Wikipedia上训练的)模型直接拿过来使用[19]。
(3)图像/图形化数据处理。一方面,通过OCR识别图像中的文字,实现对图像的描述。另一方面,从特藏资源的数据形式角度,本文的图像/图形化数据通常指文献资源的一种存在形式,处理方式依赖于对其进行不同角度的标注,以更精细化地描述图像/图形化数据的内容。比如,对一本书的数据化,其中的图片不仅单独以图形化数据方式存储,还要对其进行多角度、全方位描述,通过时间、地点、人物、事件等元数据实现图形化数据的精准描述。
依据上述非结构化方志数据的特点及其转换的实现技术分析可知,信息技术只能进行有规律性的数据处理,如多媒体资源数据提取、文本细粒度加工、OCR图像识别以及相关的行业语料库建设等。随着人工智能和机器学习技术的不断发展,相关的技术方法会不断成熟,数据处理精度会越来越高。但是,依然有无法处理部分,众包成为数据优化必不可少的手段。
2.1.2 领域规范数据
非结构化数据经细粒度加工、结构化处理后,还要通过融合来解决数据孤岛问题,以激活数据的关联价值。一方面,方志数据的历史、地理特征决定,在数字方志建设过程中,方志历史、地理信息与当今年代与地名的对照、人名规范等数据处理,都需要相关规范数据库的支撑;另一方面,文本数据细粒度加工所需的相关行业语料库等,也为数字方志特藏资源建设的可视化应用奠定基础。图书馆拥有的丰富资源,为规范数据库和行业语料库建设提供了得天独厚的条件,有很多成功案例,如上海图书馆的人名规范库建设等。但规范数据库和行业语料库建设是一个长期、不断积累和多方佐证的过程,依靠单个图书馆或少数人很难完成。
2.1.3 数据保存民间特性
从方志资源传承性特点考虑,很多资源散落在民间,这些资源往往具有极强的地域特征,包含地域生态、地域经济、地域文化等内容。这部分资源的收集能够更准确地体现方志资源建设的特色,但仅依靠图书馆采购和馆员的力量,很难实现全面收集。
2.2 众包特点
2.2.1 专业性
从方志数据特点考虑,数据众包应建立在专业平台基础上。方志资源数据以及方志语料库数据均不属于大众化范畴,若将其在公共众包平台发布,针对性较差。依托图书馆、方志馆构建众包平台,一方面可以有效提升方志数据众包的准确性;另一方面能够更有效地聚集专业人员。而组织开展基于专业方志数据集的活动或竞赛,更可让数据在应用层面发挥更大作用。从上海图书馆和北京大学组织的基于数据集的竞赛活动效果可知,这种方式在提升数据可用性和拓展基于数据的系统功能方面,收到超乎想象的效果。
2.2.2 结果整合
方志数据众包与目前图书馆书目系统的关键词众包有很大区别。关键词用于描述资源,起到丰富资源元数据的作用,主要用于资源的多角度发现,其准确性要求并不特别高。而方志数据的众包不仅用于收集奇缺资源,更重要的是,通过众包解决数据中的不确定性问题,如图片识别、文本数据深度挖掘、多媒体文本处理等,因此对众包结果整合要求较高。众包结果整合虽然有多种方式,但笔者认为基于数学模型的结果整合方法更科学。这种结果整合方法对众包工人的管理有更高要求。为此,方志数据的众包系统建设,无论在资金投入还是技术性能方面,都会有更高的要求。
2.2.3 资源收集与整理
与通常意义上的众包任务不同,这一功能设计主要针对方志数据的民间保存特性。因此,系统应具有提交完整方志数字资源以及接受印刷型资源的功能,并通过数字化与实体资源构成相互制约的矫正机制。大英图书馆、牛津大学等机构参与建设的“欧洲1914-1918”数字馆藏建设项目,就是一个典型代表。该项目的特点在于允许公众自行进行数字化处理并提交结果,也提供提交非数字化版本的通道[27]。
3 结语
数字方志资源建设引入众包模式是图书馆资源建设的新尝试,目前在图书馆界还不多见,上海图书馆的“历史文献众包平台”也才刚刚上线。与成熟的商业众包平台相比,方志资源众包在功能、管理以及发布内容等方面都有待优化。众包这种成熟的基于互联网的新型社会化协作机制,在图书馆行业内还没有成为一种新的资源建设模式。随着图书馆特藏资源建设的深入,众包需求随之会增多。本文只从技术层面对众包在数据优化方面进行了一些尝试性探讨,希望对众包的应用有所借鉴。图书馆转型发展不仅需要在服务模式上以用户为中心,在资源建设上也要引入互联网的开放、共享和用户参与机制。因此,如何在图书馆引入众包,使众包成为资源建设的辅助和拓展模式,还有很多因素需要考虑。
(1)数据安全与隐私保护。众包多应用于一个复杂任务被分解成多个相对独立、较小的子任务的情况之上,其数据安全和隐私保护并没有引起业界重视。以信息识别众包任务为例,分解后的子任务虽然仅为完整任务的一部分,但依然存在信息泄露的数据安全风险。众包任务内容以及个人信息的数据安全问题都会制约着众包的可用性。出于数据安全的考虑,相关机构有可能会拒绝使用众包来完成任务[8]。
(2)用户激励和利益分配。众包不意味着免费,观念必须转变。科学的用户激励和利益分配是保证众包任务顺利完成的关键。如何实现用户参与最大化与利益分配合理化之间的平衡关系到众包能否持久开展。
(3)正确利用社交网络。利用社交网络平台的广泛关注度和人气,充分发挥社交网络发布、交流、传播信息的特性,是众包聚集工人的有效手段。但通过社交网络发布众包信息时,如何减少对用户使用社交网络基本功能的影响,特别是如何避免让用户产生被广告的效应,仍有待深入研究。