Wikidata中数据来源分析
2020-07-23寇蕾蕾
寇蕾蕾
(中国科学院西北生态环境资源研究院)
维基数据(Wikidata)是维基媒体基金会于2012年10月成立的项目,其作为辅助数据库,为280多个语言版本的维基百科提供支持,以提高维基百科的内容质量和一致性。概括而言,Wikidata提取了不同语言版本维基百科中具有共同认知的条目,抽取了该页面中的结构化数据,是一个基于语义的超大知识数据库,支持用户、机器读取和编辑。Wikidata具有自由开放、协作编辑、多语言、结构化等特点,受到许多机构的重视。
数据来源是一种元数据,用于记录描述数据产品生命周期的各种状态信息。[1]目前,网络数据数量庞大,质量难以保证,而数据来源是评价网络数据质量的一种有效手段,近年来得到了许多研究者的重视,应用于食品、医学、工作流系统、信息科学等众多领域。Wikidata对结构化数据附加来源信息,为用户提供各个记录项的出处,以供用户进行选择和查证,但由于数据项的来源收集过程通常是机器自动抓取,Wikidata本身不对数据的准确性进行评判,故难免存在不同数据来源之间的数据值相互矛盾的现象。因此,本文从数据来源角度出发,选取人名名称为研究对象,统计其在Wikidata声明中的来源参引状况,明确Wikidata结构化数据的基本来源情况,并基于数据质量维度分析Wikidata附加来源信息的质量,目标是通过对Wikidata中人物来源信息的分析,进一步完善Wikidata结构化信息来源,满足用户对高质量数据的需求。
1 Wikidata数据实体表示及来源声明
1.1 Wikidata数据实体
Wikidata以结构化形式存储维基百科网页描述的事物的数据,其数据结构主要涉及条目、属性、声明、断言、参引等基本概念。条目(Items)为描述维基百科页面主题的实体,是单个事物或一类事物,Wikidata给每个条目分配一个ID作为标识符,标识为“Q+数字”;属性(Proverty)是描述条目与属性值之间关系的实体,标识为“P+数字”;声明(Statement)是描述结构化数据的方法;断言(Claim)指事实及为这种事实提供依据的参引,常见形式是属性和值;限定词(Qualifiers)用于进一步描述或限定属性值;参引(Reference)用于指向声明中数据的特定来源,通过参引记录(Reference Record)来给定,包含至少一个属性值对。
Wikidata对条目的描述见图1。页面的上部分是条目的一些基本信息,包括标识符、标签、别名、简要描述及到其他语种维基百科的链接。基本信息之下是条目的声明列表,声明由断言和参引列表构成。断言包含属性、属性值、限定词;参引列表是提供参引记录的列表,可以为空。
图1 Wikidata数据描述结构
1.2 Wikidata来源声明
Wikidata是一个来源数据的集合,大部分的声明附加来源信息,其定义了两个提供来源的属性:Stated in(P248) 和 Reference URL(P854)。前者主要描述Wikidata内部来源条目,指向出版物和媒体;后者主要描述Wikidata外的其他来源,指向网址和在线数据库。不考虑来源类型,在声明中添加来源时需要遵循四个步骤:① 使用条目标题检查Wikidata中是否存在该条目;② 若Wikidata中不存在且其不是一个网页,则将它添加为一个条目;③ 为声明中属性值添加参引,并指向条目来源;④ 添加所有来源信息及必要的限定符。[2]并非所有的Wikidata声明都需要添加来源,以下三种情况不需要添加来源信息:① 属性值为没有争议的常识;② 条目的属性直接指向外部来源,如数据库或规范控制文档,通过此外部来源可以确认条目的其他属性;③ 条目本身是一个来源。[2]
2 Wikidata中数据来源分析
2.1 数据选取
Wikidata包含人物、类目、结构、管理实体、事件等内容。[3]其中,人物信息在Wikidata中所占比例较大。因此,为了使研究具有代表性,本文以人物为研究对象,基于世界名人网[4]选取研究对象,世界名人网包含不同领域的名人共5,789位,并对其做了归类。本文从积极分子、作家、领导者、商人、画家、时尚人士、发明家、历史名人、科学家、音乐家、学者、医生及其他共13类领域中,随机选取260人(每类20人)为研究对象,且选取的人物在Wikidata的声明中至少包含10个以上属性。
2.2 人物属性分析
2.2.1 属性整体分布
基于本文统计数据,发现共有148个条目描述人物的属性,且每个属性至少附有一条来源。依据属性对人物的描述深度,可将其细分为基本属性、扩展属性及规范文档标识符。基本属性包括性别、出生日期、死亡日期、出生地、死亡地、职业、实例、国籍、姓名、照片、配偶及子女,占比8%;扩展属性包括受教育院校、所获奖项、成员、作品、宗教、工作地、工作领域、职务等,占比46%;标识符包括虚拟国际规范文档(VIAF)ID、国际标准名称标识符(ISNI)、网络知识库(Freebase)ID、德国规范文档(GND)ID等,占比46%。可见,除了基本属性,Wikidata也使用多个扩展属性对人物进行描述,并提供了不同规范文档的标识符,进一步完善了人物属性的描述能力。
2.2.2 高频属性分布
假定在所有属性中,出现10次以上的为高频属性,则共有67个高频属性。在高频属性中,出现最多的为性别,达993次,出现最少的为死亡原因,仅10次。出现次数在100-1,000之间的属性共有21个,主要包括性别、出生日期、实例、死亡日期等基本属性及VIAFID、Freebase ID、GNDID等标识符;出现次数在100以下的属性涉及所获奖项、受教育院校、职务等扩展属性及艺术家标识符(Discogsartist)ID、欧洲研究图书馆联盟(CERL)ID等标识符。与扩展属性相比,基本属性出现次数普遍较高,而标识符的出现次数要视具体规范文档而定,如VIAF ID出现次数达531次,而数学家标识符(MacTutor)ID仅出现11次。
2.2.3 高频属性来源数
平均来源数是指同一属性来源项的出现总次数与其出现的条目个数之比,体现了每个条目属性附加的来源比例,平均来源数通常反映Wikidata人物条目的整体来源情况。由于属性的出现次数大于等于条目数,因此平均来源数大于等于1。在图2中,平均来源数在4以上的有3个,分别是4.6、11和14:最高的属性为“成员”(P463),共出现101次,而仅有7个人物条目提供该属性,平均而言,每个条目中该属性附有14个来源,这是因为“成员”属性通常包括多个属性值,不同属性值又附加了多个来源;“姓名”(P735)属性共出现164次,有15个条目具有该属性,平均每个条目有11个来源,原因可能为姓名作为人物的特定标识符在不同名称规范文档中会被提及;“性别”(P21)属性出现次数和条目数都较高,出现次数达993次,条目数为215个,平均每个条目中该属性附有4.6个来源。其余属性的来源比例在1-4之间,表明大部分属性提供1-4个来源。与平均来源数相对,最高来源数指某属性附加的最高来源个数,统计发现,“Q187199”条目中的“成员”属性共包含11个属性值,附加了19个来源信息,是所有条目属性中出现最高的来源数;最低来源数指某属性附加的最少来源个数,在本文统计数据中,最低来源数为1,而在Wikidata中,最低来源数为0,即属性值没有附加来源信息。
图2 高频属性的平均来源数
2.2.4 属性与属性值
在Wikidata人物描述中,项目与属性之间是一对多的关系,而属性与属性值之间既存在一对一关系,也存在一对多的关系,即同一属性具有多个属性值。其中,一对多关系可细分为两种情况:一是该属性被重复定义,对应多个属性值,如职业、受教育院校等,表示该人物具有多个同样属性;二是该属性仅有一个属性值,但由于来源的差异导致其多个属性值,如多个来源对出生日期的取值可能不一样。由于Wikidata更追求数据的可验证性而不是准确性,故会提供多个属性值,且为属性值附加来源,此时,属性值有可能是不准确或矛盾的,需要基于属性值附加的来源做进一步查证。在统计的260个人物条目中,有234个条目包含有多个属性值的属性,占比90%。通常,职业、受教育院校、获奖情况、成员、作品、兄弟、子女等人物属性包含多个属性值。在第二种情况下,仅有17个条目包含该类型属性,占比6%,且主要集中在历史人物的生卒年月等属性上,可见Wikidata中有多义性的属性值并不多。
2.2.5 限定词
限定词主要用于进一步限定或修饰属性值,类似于注释,其作用可以概括为以下两个方面:表明条目含义,如“法国,面积213,010平方英里”;可以约束值的有效性,如“截至2011年,德国人口为8,000万”。[5]260个人物条目用到的限定词(见下表),主要基于书目属性、时间属性、标识符及位置属性来限定人物“作品”属性的属性值。通过使用限定词,可以限定属性值的范围,完善来源描述,减少歧义。
表 统计数据中的限定词
2.3 来源分析
2.3.1 内外部来源分布
如前所述,Wikidata使用两个表示来源的属性:“Stated in(P248)”和“Reference URL(P854)”。同时,Wikidata也经常使用“Imported from(P143)”属性表示属性值的来源,其主要标识参引自维基百科或其他维基网站的来源,但仅因在维基百科页面上提到过,并不意味着维基百科页面本身可作为Wikidata数据的来源,需使用实际的引证。因此,Wikidata规定,“Imported from”属性支持的声明不用于来源声明,[2]用户在使用时,若遇到Imported from属性标识的来源,应将其剔除,并添加一个更可靠的来源。在260个人物条目中,“Importedfrom(P143)”属性出现次数最多,达4,550次,表明Wikidata数据的来源大部分参引自维基百科页面或其他维基网站,数据来源并不可靠,需要用户进一步查证数据的准确来源。不考虑“Imported from”来源属性,“Stated in(P248)”属性出现次数达1,603次,高于“Reference URL(P854)”的967次,表明参引自Wikidata内部来源条目要多于Wikidata外的网上来源。
2.3.2 来源出版类型分布
Wikidata依据出版类型将来源划分为图书、学术期刊/报纸/杂志文章、报告/政策/法律/技术文档、网页、数据库、媒体娱乐6类。[2]若基于人物条目,则共包含图书、网页、数据库、媒体娱乐等4种来源类型。其中,数据库类仅指在Wikidata中定义为特定条目并具有相应属性的数据库,媒体娱乐类来源包括电视、电台。在来源统计中,数据库类出现次数最多,达2,173次,主要包括法国国家图书馆开放数据(Data.bnf.fr)、VIAF、Freebase数据转储等20个开放性的来源数据库;网页类出现次数较多,达1,053次,主要为不同的网址来源;图书类出现次数相对较少,共出现97次,主要包括《苏联环球百科全书》(第3版)、《数学史档案》等18本图书;出现次数最少的为媒体娱乐类(5次),仅包含在线BBC及阿拉伯卫星电视台。总体而言,大部分人物属性值来源于数据库及网页,仅有少部分来源于图书及媒体娱乐类。
2.3.3 来源机构开放及关联情况分析
语义网环境下,数据的开放程度是影响其发展的一个重要因素。机构内部及机构之间数据的开放共享及相互关联,有助于知识发现及聚合。各来源机构间的关联情况见图3。Wikidata主要从维基百科页面抽取结构化的数据,而维基百科的一个重要特点是免费开放,由全世界不同用户协作编辑,其中“维基共享资源”为用户提供了可共享的媒体文件。同时,为了更好地利用维基百科内容,DBpedia从维基百科中抽取了结构化的信息,并以关联数据的形式将其发布在网上,允许用户基于维基百科实施复杂查询,与许多数据集建立了链接关系,成为关联数据云图(LOD)中最核心的数据集。除维基来源外,统计条目中也存在其他数据库来源,其中大部分的数据库与其他数据库建立了关联链接关系。Data.bnf.fr是基于语义网的开放数据项目,与LibraryofCongress、DNB、 VIAF、 IdRef、 Geonames、 Agrovoc、 Thesaurus W、CCFr、Europeana、SUDOC、Worldcat及维基百科建立了外部链接,与BnF目录、BnF存档建立了内部链接;[6]GND是个人名称、主题词和团体名称的规范文档,与DBpedia、维基百科、geonames、sw、VIAF建立了链接;[7]VIAF是由OCLC主办,20个国家图书馆共同实施的联合项目,与LCSH、DNB、BNF、DBpedia等数据集建立了外部链接;[8]Freebase作为Google下的关联数据集,与bbc-music、DBpedia、Geospecies及nytimes等建立了链接;[9]在线音乐元数据数据库(MusicBrainz) 与 IMDb、Allmusic、Rateyourmusic、VIAF等数据集建立了链接关系;[10]CERL与机构内的工作组、专家组及安全组建立了内部链接,与Europena及LIBFER建立了外部链接;[11]挪威国家图书馆规范数据(BIBSYS)是个人名称的规范文档,与DBpedia、DNB、VIAF建立了链接;[12]数学家的学术谱系与10个数学网站相连接。[13]其余数据库虽较少与其他数据库建立链接,但作为开放性的数据库,用户可以免费获取所需知识。ISNI作为全球人物标识符被许多描述人物的数据集采用,有助于准确标识及定位资源;网络电影数据库(IMDb)目前也发布为关联数据集,用户基于众多的数据库内容可以查找与电影相关的信息;国际植物名称索引(IPNI)是植物名称及相关信息的数据库,是英国皇家植物园、哈佛大学标本馆和澳大利亚国立植物标本馆之间的联合项目;[14]在线书目数据库(Open Library)已发布为关联数据,用户可以贡献或修改数据。整体而言,Wikidata描述人物条目的数据库来源开放性普遍较高,且连接了图书馆内部的书目数据、规范数据,有60%数据库已发布为关联数据集。数据的开放共享进一步提高了数据参引能力,使用户面对同一“实体”时可以基于不同的检索点进行查找。
图3 统计数据中数据库来源互联情况
3 Wikidata中数据质量分析
数据质量指数据满足用户需求的程度,[15]为了评估数据质量,需要定义不同的质量维度,如及时性、可靠性、完整性、可获取性、安全性、可用性等。数据来源是描述数据项生命周期的元数据,来源质量是指元数据满足数据描述的程度。基于数据质量维度,本文选取时间性、准确性、完整性及可靠性作为来源质量维度,评估Wikidata人物信息的来源质量。
(1)时间性:包含数据条目产生过程中限定词对某些属性的限定时间及用户获取数据项的时间。Wikidata对于每一个条目页面会给出最近的修订时间,对于条目的某些属性会给出引用时间。以作家茅盾(Q358494)为例,该页面的最近修订时间为2017年3月31日16:39;属性“职位”的属性值为“中国文化部长”,其来源参引包含任职开始和结束时间,若用户下载引用“茅盾”页面则会产生一个用户获取数据时间。
(2)准确性:指数据项的来源是否正确、有无矛盾性。影响准确性的因素包括:机器统计错误、Wikidata基于可验证性为仅有一个值的属性添加多个属性值。对于机器统计错误,260个人物条目中共包含830条不重复的来源。可用来源只有70条,仅占8%。统计发现,Wikidata为仅有一个值的属性添加多个属性值的情况相对较少,仅占6%。总体而言,影响Wikidata来源信息中准确性的因素主要为机器统计错误。
(3)完整性:指是否从多个属性角度描述数据项,且每个属性的属性值是否附加多个来源。Wikidata多数人物的属性在10个以上,且通常会为每个属性的属性值附加来源,如前文所述,描述人物条目的基本属性出现次数普遍较高,大部分属性值附有1-4个来源信息,可见Wikidata的数据描述具有完整性。
(4)可靠性:指数据项的出处为全球通用且具有较大影响的来源机构。Wikidata规定,“Importedfrom”属性支持的声明不用于来源声明,在可靠性分析时,该属性参引的来源视为不可靠来源,同时,图书、数据库、媒体和娱乐、网页的可靠性依次递减。由上文可知,来源属性中“Imported from”属性出现次数最多,来源类型中网页类出现次数较高,可见人物类Wikidata来源的可靠性并不高。
4 讨论
Wikidata作为一个辅助性数据库,其主要目的是为其他维基媒体基金会项目提供合理保存的高质量数据。当前,Wikidata仍处于完善阶段,通过对Wikidata结构化数据来源信息的分析,发现Wikidata提供的来源信息仍存在诸多问题。同时,如何在不同粒度层级上追溯Wikidata的数据来源值需要研究者继续进行深入探讨。