APP下载

用户协同构建的知识社区分类体系质量评价*
——以知乎话题分类为例

2021-10-15武秀枝薛春香

图书馆论坛 2021年9期
关键词:类目协同分类

武秀枝,薛春香,朱 蕾

0 引言

Web 2.0发展带来了知识社区的繁荣,社区中知识创造和知识传播的速度在加快,为用户提供了丰富的知识供给,但海量用户生成内容(User-Generated Content,UGC)也导致信息爆炸和信息过载,真正有价值的知识淹没在庞杂的信息中。因此,在信息爆炸的客观环境和用户高品质知识需求增长的主观条件影响下,社区信息组织是用户和知识社区双方的共同需求[1]。分类是最基本且有效的信息组织手段,良好的分类体系具有展示和导航的功能,能提高知识社区中信息资源的利用率,推动知识社区的发展。当前知识社区的分类多依赖于用户参与生成,典型的如豆瓣网的标签、科学网博客的“个人分类”、知乎的话题分类体系等。相较于传统分类法,这些知识社区分类体系的构建融入了用户参与行为,在一定程度上也反映了用户的关注热点和信息需求,是群体意识和群体智慧的体现。

1 相关研究

1.1 用户协同构建的分类体系

协同构建分类体系是用户协同信息行为的一种[2],是用户基于一定规则和协作行为共同构建分类体系以实现对平台中信息资源管理的信息行为。这种基于用户协同构建的分类体系与基于专家知识自顶向下构建的传统分类法不同,近年来受到学者关注,相关研究主要集中在以下几个方面:一是针对用户协同构建分类体系的方法、模式和机制的研究,如Qassimi等[3]提出了一种将大众分类标签与本体语义相结合的信息资源分类方法;Besseny[4]研究用户利用大众分类法对音乐流媒体网站的音乐进行组织和呈现的行为;李雅静[5]对网络信息组织中的用户参与机制进行了研究。二是对协同构建分类体系过程中的用户行为研究,如Qin C等[6]研究了知识社区中用户采用混合标签的标注行为;张鹏翼等[7]研究了用户协同构建知乎话题分类体系过程中的冲突和协作行为;庄倩等[8]研究了社会标注系统质量对用户标注意愿的影响。三是对用户协同构建分类体系的质量研究,如冯兰萍等[9]对用户协同构建知识本体的可信度问题进行了探索;张鹏翼等[10]对用户构建的社会化等级标签进行了评价。

此外,业界也有一些典型的应用和实践。例如,豆瓣网和美味书签(Delicious)提供用户资源标注功能,由用户群体自发对各种资源添加标签(Tag),从而自底向上构建平面、非结构化大众分类(Folksonomy);知乎话题分类、维基百科等是由用户基于一定知识背景和规则来协同构建等级式分类目录;学术社交平台Mendeley则利用用户阅读行为,基于用户学科背景和共读行为(Coread)实现对文献资源的分类组织[11]。总之,用户协同构建分类体系实现了资源分类组织,是Web2.0 环境下信息组织的一种方法,在拥有海量UGC资源的知识社区信息组织中发挥重要作用。

1.2 分类体系质量评价

类目是分类体系的基本单元,一切对分类体系的质量评价均需要建立在一定数量的类目集合基础上[12]。传统分类法的评价体系包含清晰度、参照度、完备性和交替度等测量指标[13],对类目的数量和质量进行综合评价。

网络环境中,网络分类体系的编制者和使用者都发生了变化,传统分类法评价指标的适用性有待商榷。学者在对网络信息分类体系质量评价过程中借鉴网络信息质量评价的思路和方法。Wang 等[14]提出的信息质量评价指标被广泛借鉴,该指标体系包括完备性、简明性、声誉度、无错性、客观性、可信性、适量性、易理解、及时性、一致性、可解释、相关性、增值性、可访问性、访问安全等15个指标。他在后续研究中补充了一个指标:易操作[15],并将“无错性”和“易理解”改为“正确性”和“可理解”[16-17]。吴胜等[18]在该信息质量评价框架基础上提出网站信息分类体系质量评价体系,从有用性、易用性和可比性3个维度对林业政务网站的信息分类体系进行质量评估。李华[12]等基于适量性、可理解性、相关性、易操作性、及时性5个指标对生活服务类网站商户信息分类体系进行测评。

调研发现,国内外已有研究对于用户协同构建的分类体系的方法、模式、机制、用户行为、质量等方面都有涉及,但多维度、系统性地构建指标体系对用户协同构建的知识社区分类体系质量进行评价的研究相对缺乏。因此,本研究从类目体系、类目、类目与资源的关系3 个维度出发,设计了用户协同构建的知识社区分类体系质量评价指标体系,并以知乎为对象进行了实证研究,旨在为知识社区的资源组织提供参考。

2 研究设计

2.1 分类体系质量评价模型构建

分类体系作为一种特殊的信息,其质量也是一种具体的信息质量[19]。因此,本文在传统分类法评价指标的基础上,借鉴网络信息质量评价指标,结合用户协同构建的特点,设计了用户协同构建的知识社区分类体系质量评价体系。该体系从类目体系、类目、类目与资源3个评价维度出发,包含8个指标(见表1)。其中,类目体系从类目的数量、结构、类间关系等方面出发,从宏观的角度对分类体系进行测度;类目本身则立足于类目命名、类目更新等微观的角度对类目的规范性和及时性进行评价;类目与资源的关系侧重考察类目对资源的管理效果。下面以知乎话题分类为例,对这一指标体系进行实际应用。

表1 用户协同构建的分类体系质量评价指标

2.2 数据采集

张鹏翼等[10]提出作为一种社会化问答知识社区,知乎的话题结构等级与传统的文献分类法具有一定相似之处,都用于组织知识资源。为便于分析,本研究以知乎的话题分类体系作为研究对象,采集了知乎的“物理学”“历史学”“文学”3个学科的完整话题类目(数据采集于2018年9月13日),共计15,716条类目数据。伴随着搜索引擎技术的发展,用户检索的习惯逐渐养成,周红雁[28]指出,在类目体系中,三四级以下的更深层次的类目,几乎形同虚设。考虑到知乎的话题结构树较深,类目数量庞大,本文在对知乎话题分类体系质量进行评价的过程中,将1~3级类目作为研究重点,综合开展定量和定性评估。

3 数据分析

3.1 适量性

适量性反映了分类体系中类目数量的适合程度[12]。在一个分类体系中,划分粒度过细、类目划分过多会导致类目层级偏深,用户在使用过程中通过多次点击才能找到目标类;反之,如果划分粒度过粗、类目过少则可能导致大量信息集中分布在同一类目下,无法实现类目导航功能。表2 展示了知乎3 个学科的话题等级和数量分布情况。

表2 知乎3个学科的话题类目数量统计

3.2 均衡性

均衡性体现了分类体系中子类目的分布情况。类目的均衡性是分类体系设置合理与否,能否有效管理资源的重要体现[20]。传统分类法对均衡性有一定的要求,类目分布不均衡容易导致某些类目过于概括而某些类目展开过细,造成有的资源无类可归,或是有的类目过于匮乏的现象,不利于分类体系对新出现资源实现有效管。参照用户的使用习惯,以及知乎话题树首页最先展示的类目,本文对所选3个学科二级类目的子类目分布数量进行了统计。由图1可看出,3个学科分类体系的子类目数量分布差别较大,话题分类体系的类目分布不均衡。这一结果并不表明知识社区分类体系质量更差,而是该分类体系本身要兼顾科学性以及用户的关注热点和信息需求,某些用户关注较多的细分类目会跨越层级限制直接出现在大类下面,便于用户查找。

图1 二级类目的子类目分布情况

3.3 易操作性

易操作性是指类目层级设置合理,方便用户找到自己所需信息,主要测度用户使用该类目的方便程度,这既是分类体系导航功能效率的体现,也是提高用户满意度的关键[14]。为了对3个学科的易操作性进行研究,本文采用易操作效率计算公式[19],即公式(1),对3个所选学科的易操作性进行度量。其中,OE代表易操作效率,O代表理想条件下的操作步数;S代表实际查找信息的步数。

根据Zeldman[29]书中提到的3 次点击法则,理想条件下的操作步数O可定为3,把实际查找信息步数S定为所求得的平均类目路径长度,用公式(2)计算。

其中,L表示每一条类目路径的长度,N表示总的类目条数,S即为求得的平均类目长度。由此,可以得到3个学科的易操作效率,如表3所示。由表3可知,3个学科分类体系的实际查找信息步数均大于5,其中,以文学分类体系的平均获取步数最高,将近8,易操作率最低。相对而言,历史学分类体系的易操作率较高,但也是理想状态下信息查找步数的两倍。由此可见,3个学科分类体系的易操作性总体较低。针对这种信息查找步数过大的情况,需通过调整类目结构、建立横向联系、探索用户分类认知路径等措施来降低用户查找负担[30]。

表3 知乎3个学科的易操作效率统计

3.4 可理解性

可理解性指类目反映主题概念的清晰度,以及层级结构划分的标准程度[12]。通常,类目体系中不会直接显示类目注释信息,类名的文字描述就成为用户理解其涵义的重要途径。因此,涵义明确的类名可使用户更快地找到目标信息;相反,存在歧义的类名可能因与用户的理解不同而误导用户。在类目结构划分方面,知乎的分类体系以突出显示热门话题、实现多元划分为目的,通常不拘泥于传统分类法“同位排斥”及“层次逐级隶属”的原则,但总体上应做到等级关系清晰准确。

一个理解性好的类目应满足以下条件[12]:一是符合大众理解方式,字面表述可准确体现其内涵;二是同位类目之间有明显界限,最大限度减少用户判断难度;三是类名代表的概念范围应与其下位类所代表概念的合集相当。为了对3个学科的类目可理解性进行评估,本研究邀请了有对应学科背景的研究者进行合作,对3个学科的二级类目中存在问题的类目进行了讨论。由表4可知,3个学科类名的可理解性存在问题。二级类目的主要问题在于同位类之间的层次关系不清、类名与涵义不符、类名有歧义等。在用户协同构建的分类体系中,对于类目命名可理解性的提升不应仅仅依赖于用户本身的知识水平,而应在协同构建过程中通过平台的引导以及提供的命名规范对用户进行指导。

表4 类目可理解性分析举例

3.5 类列相关性

类列相关性反映了同位类之间存在逻辑相关,具体表现在进行类目排序时,关系紧密的类目位置相邻。同位类之间的逻辑性,方便用户快速找到所需信息。根据李华[12]的研究,当前广泛使用的网络分类体系的同位类排序方式有两种:一是按热门程度和点击率排序;二是按字顺排序。点击率排序的优点在于可突出热门主题;缺陷在于点击率的统计具有滞后性;而按照字顺排序多见于西方分类体系,该方式符合西方人使用习惯。

不同于以上同位类排列方式,知乎话题的同位类排序以加入同一父话题的时间先后排列,突出新加入的话题。话题下面的资源则可按照更新时间或热度进行排序。为进一步探寻知乎话题分类的相关性,本文对3个学科类目的划分标准、横向关系,以及同位类关系进行了比较,见表5。物理学分类体系局部有明确的划分标准,如话题“核反应”下设置两个子话题“核裂变”和“核聚变”。可见局部有划分标准的话题仍是用户所熟知、出现率比较高的划分,并不能体现用户有明确、系统的分类意识。特别是历史学和文学的分类目录,基本没有明确的划分标准。此外,其横向关系通过类目的交替出现来体现;同位类则根据加入同一父话题的时间排序。

表5 知乎3个学科的类列相关性对比

3.6 一致性

一致性衡量类目命名特征一致性、用词的标准化[18]。类目命名的一致性是类目规范化的体现。从知乎话题的添加规范看出[31],为了保证类目命名的一致性,从“字符规范”“信息完整”“避免歧义”“保持中立”4个方面对用户添加话题提出规范和要求。其中,针对类名使用自然语言存在歧义问题,往往采用限定词的方法,如“我的前半生(电视剧)”“我的前半生(爱新觉罗·溥仪著)(书籍)”“我的前半生(亦舒著)(书籍)”,通过加注作者、类型等方式来区分。为评估知乎话题类目命名的一致性,本研究从词长和高频类目两方面对3个类别的类目命名特征进行统计分析。

(1)词长统计。采用Python编码完成对类名词长的统计,将类名的字数作为词长,含有英文字符或数字字符的类目,以空格作为分隔标记。例如,类目“核物理”,词长为3;类目“2008金融危机”,词长为5。统计结果所制成的类名词长分布图如图2所示,历史学和物理学类目名称字数多集中在2~6之间,而文学类目名称字数在2~5、5~13、13~15的字数区间中均出现不同程度的峰值。经考察,发现历史学和物理学类目名称多取自该学科领域的术语,符合汉语短语2~6字词的特征;而文学领域类名,尤其是最细类目的名称多来自具体的文学作品名称、中外作家名等,所以类名词长呈现多波段特征。

图2 知乎3个学科的类名词长分布

(2)高频类目展示。通过高频类目可以探究出分类体系中反复出现的主题,发现用户关注的话题和用户在描述类目时的用词习惯。为此,本研究利用Python工具包“wordcloud”对3个学科的类目名称进行统计和可视化展示,最终显示3 个学科出现频次最高的前100个类目。从图3可知,物理学中最热门的是与“气候”“环境”“核能”等相关的话题,这类话题在类目树中反复出现;历史学中“抗日战争”阶段的相关历史、人物、事件以及影视作品等受到关注较多;而文学中关注度较高的是当前比较受欢迎的书籍,以及针对其改编的影视作品,如“三生三世十里桃花”“诛仙”“斗破苍穹”,还包括小说中主要人物的名字等。从类名词云图中看出,物理学命名用词相对专业化,基本采用学科内的专有名词;而历史学和文学则主要采用书名、事件名、作品名、人名等具体的实体名称。

图3 知乎3个学科的类名词云图

由类名词长统计结果和热门类名可知,不同于传统分类法以学科分类为主,知乎这类社群知识的分类以主题为中心,往往采用贴近社会、贴近时代、贴近网民、可随时增补的自然语言来表达类名。但自然语言缺乏控制,其内涵和外延有时难以判断和界定,容易产生同义和多义现象的类名。

3.7 及时性

及时性指类目体系更新的及时程度以及类目命名的时代性[19]。网络信息分类体系相较于传统分类体系的优势之一,即具有动态性和及时性。一个好的分类体系能够及时反映时代热点变化,这种及时性可从两方面衡量:一是类目数量动态变化;二是类目命名的时代性。为了对知乎话题分类体系的及时性进行评价,本研究在时隔两个月之后对所选3个学科的三级类目的数量进行了统计,得出了其三级类目在两个月时间内的增长率。同时,也进一步观察了3个学科的命名,列举出类目中出现的热门词汇。

(1)类目数量动态变化。类目数量的更新是类目动态性和及时性的重要体现。本研究在2020年9月13日先期完成了对物理学、历史学和文学类目的初步统计,在时隔两个月之后的11月13日,再对3个学科的三级类目数量进行统计,利用公式(3)计算出类目更新率。

其中,U表示更新率,G1表示初次统计值,G2表示再次统计值,经过计算得到如下结果,如表6所示。由此可知,两个月内3个学科的类目都有不同程度的更新,更新率与用户参与度密切相关,也与学科资源具有密切相关性。

表6 知乎3个学科的类目更新率统计

(2)类目命名的时代性。类目命名体现时代性,及时吸收新生事物,是类目及时性的重要反映。本研究对3个学科能够体现时代性的类目进行列举。如表7所示,物理学的类目涵盖21世纪物理学的新动态和新成果,历史学和文学则包含当下热度较高的历史学和文学作品,反映了用户的关注热点。由此可知,知乎话题分类体系的及时性较好,能快速吸收学科中的新概念,反映用户的关注点和当下热点。分类体系的动态性和及时性是用户协同构建分类体系的一大优势。

表7 知乎3个学科的类目命名列举

3.8 匹配性

匹配性反映了类目与资源的匹配程度[27],是类目能够有效管理资源的体现。资源与类目的匹配程度是衡量分类体系质量的重要指标。由于知乎的问答资源数量庞大,实现精准的类目与资源的匹配效果的判断难度较大。因此,本研究采用多轮随机无放回抽样的方法,抽取相关话题,邀请3个学科对应的两位专家交叉验证资源与类目的匹配性,并利用公式(4)和(5)计算出3个类目相应话题下类目与资源的匹配程度。

其中,Mi表示第i个话题的匹配率,Ri表示第i个话题与类目相匹配的资源数,Ni表示第i个话题下的资源总数。Q为随机抽取的X个话题的匹配率的平均值。经计算得出了表8的结果,物理学和历史学话题下资源与类目的匹配度较高,文学的匹配率也达到60%。表明知乎的资源与类目的匹配情况基本良好,但有提升空间。

4 结论与建议

通过上述指标对知乎话题分类体系的测评,可以发现:用户协同构建的知识社区分类体系具有明显的网络信息组织特征,类目具有动态性和灵活性,能够展现用户的关注点和需求点;类目命名以自然语言为主,以主题为中心,能够较清晰地揭示类目下资源的主题;类列排序逻辑性不强,存在多重列类、交叉列类现象;类目层级较深、横向联系较多,但易操作性不高。究其原因,虽然知识社区提供了用户参与话题分类的规范指南,但因为站点缺乏对于社区用户参与话题分类活动的规范控制机制,导致类目偏多、层级较深、子类目分布不均衡。本文针对用户协同构建的知识社区分类体系质量的优化与提升,建议应从参与者、协同机制、构建平台、协同过程4个角度做好工作。

(1)从参与构建的用户角度出发,要重视核心用户的参与行为,扩大核心用户的编辑权限,对不同用户的参与行为进行权限分级;进一步完善激励机制,激发用户持续参与分类体系构建的兴趣。

(2)从协同机制的角度出发,要建立良好的协同机制,可从类目命名词长、命名字符规范等角度对用户进行合理的引导和限制,提高类目命名的准确性和可理解性。

(3)从协同构建平台的角度出发,要提升用户参与过程的良好体验,做好平台优化,如提升界面设计的可理解性,改善系统易用性;丰富用户构建过程中的系统功能,提高可用性等。

(4)从协同过程的角度出发,要优化交互,鼓励用户在产生分歧的时候进行沟通协商,更好地解决分类体系构建过程中的冲突,充分发挥用户协作的自组织性。

随着知识社区用户生成内容的激增、用户对高质量资源和信息精准获取要求的变化,知识社区信息组织面临挑战。无论是知识资源、管理平台还是用户群体,用户参与生成的知识社区都不同于传统的文献机构,知识社区的资源组织具有自发性、协作性、草根化特征,因此,提高用户参与的信息组织的质量以实现对知识社区资源的有效管理是一个需要持续关注的研究。

猜你喜欢

类目协同分类
输入受限下多无人机三维协同路径跟踪控制
家校社协同育人 共赢美好未来
分类算一算
蜀道难:车与路的协同进化
本期练习题类目参考答案及提示
“四化”协同才有出路
教你一招:数的分类
说说分类那些事
《中图法》(5版)“K历史、地理”大类的修订
给塑料分分类吧