APP下载

基于知识单元视角的健康领域知识需求分析与组织优化研究

2021-11-03王文韬滕文倩李建礼张震

现代情报 2021年11期

王文韬 滕文倩 李建礼 张震

关键词:知识单元;健康领域;糖尿病话题;知识需求;知识链接;解构重构;知识组织

随着互联网飞速发展和人们对健康愈加重视,健康类网站、论坛、APP、公众号等应用急剧增多。据第47次《中国互联网络发展状况统计报告》,截至2020年12月,我国在线医疗用户规模达2??15亿,占网民整体的21??7%[1],可见在线健康信息搜寻成为人们获取健康知识的重要途径。同时,专业化健康网站因其可以使用自然语言提问,有专业医生提供针对性解答,形成了相对自由的专业化健康社交论坛,备受广大用户青睐。以39健康网为例,该平台拥有医院级企业会员3600多家,注册医生人数20000多人,据CNNIC统计,2001年5月39健康网日均下载量已达到400万,此后以平均每年2倍的速度递增[2]。在健康知识需求者对知识的渴求以及健康知识贡献者积极奉献的循环下,网络健康知识数量呈爆炸式增长,这也导致网络健康领域知识良莠不齐且存在冗、多、杂的现象。用户无法从海量健康知识中快速筛选以供自己所需,稀有的高质量回答也埋藏于海量问答贴中。现有的网络知识组织以Web作为知识展示的窗口,通过HTML网页提供基本的浏览和查询功能,这是目前网络知识组织表现的主要方式。但其缺乏可引导用户挖掘知识的知识链接跳转及从用户需求出发的检索方式,现有的健康领域知识组织体系已不能满足用户高效精准的需求。

知识单元作为知识的最小单位,可以描述问题驱动的知识组织方法及其特征[3],问题驱动的知识组织方法有效避免传统先组式知识组织解决问题的局限性,增强问题解决的针对性与高效性[4]。为更加高效进行健康领域知识组织,本文以用户健康领域知识需求为切入点,搜集39健康网上以“糖尿病”为话题的问答贴,对健康领域知识进行以知识单元为基准的解构与知识链接的重构,寻求现有健康领域知识组织体系与用户需求的矛盾点,为构建更具针对性、高效性的健康领域知识组织体系提供参考。

1相关概念

1.1知识单元

随着知识管理和知识经济的兴起,作为直接控制和管理知识本身的知识单元逐渐进入研究学者的视角。1981年印度情报学家斯·科·森在“思想基因”的基础上提出了“情报基因”概念[5],其建议从基本概念、情报基因图谱开始重建知识组织体系。我国学者刘植惠也在思想基因、情报基因的启发下提出了“知识基因”理论,他认为知识基因理论主要由知识基因、公式法则、知识细胞、理论体系、遗传方式、变异方式6个方面组成[6]。国外对知识单元的概念、类型等特征的研究主要集中在文献知识单元领域。例如,AlaniH等对文献知识单元的细粒度抽取进行研究,通过引入词汇语义数据从而提高从文本中抽取知识的有效性,比较知识单元的不同技术算法,分析从不同的细粒度层面出发抽取知识单元存在的质量上的差别[7]。国内对知识单元的研究主要建立在概念及与之对应的关键词或主题词上。化柏林综述了知识单元研究现状,对知识单元的概念、特征、类型等进行了总结[8]。刘植惠认为知识单元包含了量化概念和非量化概念,是知识管理中不可分的最基本单位[9]。王知津等认为知识单元是任何知识组织的构建因素,知识单元是不可分割的概念[10]。广义上的知识单元泛指知识的任何一种相对独立的单元内容和形式,如1篇文献、1本图书等。狭义上的知识单元指知识在内容上不能再分解的基本单位,是构成系统知识的最小、最基本的组成因素[8]。

通过对国内外文献的梳理发现,多数学者认为知识单元是知识管理和知识组织的单位,都是以知识单元作为知识组织的起点,但以用户知识需求为源点将知识单元进行解构溯源从而指导现有知识组织体系的研究还很少。从以人为本的信息系统服务理念来看,一个不了解用户需求的健康知识系统平台如何能够为用户提供更具针对性、更有效的服务呢?因此,本文立足用户需求,用关键词法将健康领域用户知识需求解构成对应知识单元,并以此为健康领域的知识组织优化提供建议。

1.2知识解构与重构

知识的解构和重构的研究主要集中在数字资源的知识解构与重构上。有学者认为数字资源的知识解构与重构,是指按照一定方法,将数字资源解构成知识单元以及知识单元之间的关联关系,通过受控标引重新组织知识单元,然后以聚类组织实现知识重构的过程[11]。目前关于知识解构的研究还比较少,主要集中在教育学领域。为了提高教学效率,教育学领域的学者提出了知识解构法,指通过解构知识点从而高效有序地获取学习材料中知识的方法[12]。知识解构在图情领域已有相关研究,例如,周颖为了清楚地说明以知识单元为单位的知识检索过程,设立基于文献数字资源的知识解构和重构系统,并指出数字资源解构的目的是化整为零,被解构成知识单元及知识单元之间的关联关系[11]。张成昱从理论的角度出发,将解构定义为把存储在文献中静止的知识解析成具有足够颗粒度的知识要素,还指出知识单元关联关系是知识解构过程中必须保留的各种相关关联关系,这是知识单元在检索中相互之间的位置、因果关系的依据[13]。

综上可见,研究学者们大多认为知识解构是文献数字资源的细粒度解析,包括将其解构成知识单元或者其他要素及其之间的关联关系,同时知识解构还应当包括解构的逆过程,即知识的重构。但目前图情领域关于知识解构的研究重点集中在文献数字资源领域,针对某一具体领域的知识解构研究较少。因此,本文以用户需求为源点,在“健康中国”政策背景下,聚焦健康领域,将健康领域知识需求以知识单元及其关系为基准进行解构。

1.3知识组织与健康领域知识搜寻

知识组织于1929年由美国图书馆学家布利斯提出,被认作是一种行为或过程,主要包括知识单元(包括隐性和显性)的序化以及知识关联的挖掘。图情领域的知识组织以网络化知识组织系统(NetworkedKnowledgeOrganizationSystem,NKOS)为重点研究方向[14]。BudinG认为知识组织主要功能为组织和保存大量文献、信息系统的组成等[15]。ZengML认为知识组织可以建造领域内知识模型,并可提供语义、导航和关联,可以帮助用户检索和发现知识[16]。SmithT等研究者在传统的知识组织基础上,构建了特殊领域的针对性知识组织模型,并用可视化工具将其表示[17]。国内关于知识组织的研究主要集中在服務方面,王曰芬等研究了个性化的知识组织,提出了知识源、知识获取、知识重组等个性化知识组织过程[18]。夏立新等为加强信息服务平台服务质量,从政府角度出发,提出了构建用户层、服务层、系统层、数据层4层结构挖掘知识,进行知识组织,实现知识共享[19]。王兰成等提出了由知识定义、元数据管理、知识挖掘和知识存储组成的知识组织框架,为文献型异构数字信息群以及个性化服务提供了理论基础[20]。

医学与信息学的发展及融合促进了当代医疗环境和医疗模式的转变,非医学人士成为医疗信息的主要消费者[21]。根据医学图书馆协会(MedicalLibraryAssociation,MLA)消費者和病人健康信息部门(ConsumerandPatientHealthInformationSec?tion)的定义,消费者健康信息(ConsumerandPa?tientHealthInformation,CHI)是与大众、病患及其家属有关的健康和医学信息,它还指出消费者健康信息不仅包括描述疾病的症状、确诊和治疗的信息,还包括促进健康、预防性医药、影响健康的关键因素和访问健康医疗系统等多方面的信息。在美国,“皮尤网络与美国生活项目”的“健康搜寻者”(HealthSeekers)系列研究是关于在线健康信息的用户研究中较为著名的研究之一,他们在2000年首次提出“健康搜寻者”的概念,调查发现有5000多万美国“健康搜寻者”认为他们在因特网上所查到的健康信息对自己的医疗保健决策有直接影响,甚至改变了他们与医生的沟通方式[22]。在国内,对健康信息搜寻行为的研究较为丰富,主要集中在大学生[23]和中老年人群体[24]。

通过以上研究发现,国内外学者从知识组织的概念、机制等理论对知识组织个性化服务、知识挖掘与知识可视化等进行了研究,并形成了较为通用的知识组织系统与方法。但在大数据时代,为了追求兼具高效性、人性化与实用性的服务,对特定领域,如健康领域的知识组织的研究还很少,因此,本文从现有健康知识组织体系入手,在知识单元视阈下,以用户需求为源点,从基层设计健康领域知识组织过程,以期提高健康领域知识组织优化的针对性和有效性。

2研究设计

本文的目的是构建需求驱动下的健康领域知识需求的知识链接,据此对健康领域知识的解构与组织优化提出建议。基于知识单元解构的可操作性和严谨性,研究界定的知识单元为广义的知识单元,即泛指知识的任何一种相对独立的单元内容和形式。根据文庭孝提出的知识链接构建方法[5],本研究主要分为3步:①知识单元及其属性的抽取;②找寻各个知识单元间的相关关系;③链接具有相关关系的知识单元,形成知识单元链接图,完成从知识单元到知识资源的链接转换。

2.1数据收集

研究首先要在大量数据中抽取知识单元与特征词。39健康网作为国内最专业、最大的健康门户网站,其具有用户多、医生多、病症全面、问答贴多且以用户需求为导向等特点,为了保证构建的知识单元和知识链接具有代表性和专业性,本文以39健康网作为研究的数据获取来源;在疾病选择方面,由于糖尿病的患者群庞大、年龄跨度较大。该病分为Ⅰ型和Ⅱ型、可预防和不可预防两种,具有病因病理复杂、术后护理时间较长等特点,且自2019年起,全球糖尿病患病人数不断上升,平均增长率为51%,目前仅中国大陆糖尿病患者数就有约1??298亿[25],因此,本文选择糖尿病为研究切入点。虽然39健康网具有相对专业性、交互性强、数据繁多且丰富等特点,但是它是以医生与患者间、患者与患者间借创建问答贴进行互动,存在数据分散的问题。

综上,为确保数据检索的查全率与查准率,本研究分两步进行数据采集:①在39健康网的“糖尿病”子版块导航下搜寻,找到糖尿病专栏17期内容,共85个专栏推送,糖尿病专题中共103个专题贴;②采用站内检索方式,以“糖尿病”为关键词进行检索,排除两种搜寻方式下交叉的重复问答数据,共检索到100个问答贴数据文本,两种搜寻方式均采用Python作为爬虫工具。

截至2020年11月,共抓取3657个问答贴数据,根据问答贴标题、内容、回答评论是否与糖尿病相关,手动筛查出数据中存在的类似“抱歉,我也不知道”“沙发”“盖楼”等无效数据1104条,最后得到有效研究样本2553条。

2.2特征词和知识单元抽取

2.2.1健康领域知识需求的特征词抽取

特征词抽取是基于收集的网页信息,根据一定要求和规则提取一定量的特征词,形成所需的特征词集[26]。特征词抽取有诸多要点,包括可区分文本内容、特征词在类目中频繁出现、具有可与其他数据区分的能力、数目适中等。本文是从用户问答贴中筛选文本数据,基于用户提问的问题,本文采用关键词法抽取特征词。TFIDF是一种特征抽取的加权技术,它常用于信息检索和信息挖掘中的关键词提取,该技术有两层含义,一是词频(TermFrequency,TF);二是逆文档频率(InverseDocu?mentFrequency,IDF)[27]。词频(TermFrequency,TF)指某一给定词语在该文件中出现的频率,TFx=词条x出现的次数/该类中所有的词条数目,词频越高,表示该词权重越大且越重要。如症状类目提取的特征词共100个,其中口渴出现3次,多尿出现15次,那么TF口渴=3/100=0??03,TF多尿=15/100=0??15,则TF多尿>TF口渴;逆向文件频率(In?verseDocumentFrequency,IDF)是词语普遍重要性度量,如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。

IKAnalyzer是轻量级中文分词工具包,包括细粒度和智能分词两种方法。考虑到研究是基于粒度原理对健康领域知识需求解构,所以本文使用IKAnalyzer并加以人工干预对所收集的文本数据进行中文分词。结合Sogou词库的结构,首先将搜集的数据进行编码,方便文本词性提取,生成{词项,TF,IDF}的词项集合,完成词性标注过程,包括名词(N)、动词(V)、形容词(ADJ)、副词(ADV)等,然后用特征词计算器计算词项TFIDF值,确定词项的权重,把结果按照权重排序。本研究对2553个问答贴进行特征词提取,共提取特征词204个,筛查删除数据文本中“严重”“特殊”“吗”“一些”等缺乏实际意义的词,共取前124个具有较高代表性的特征词,如饮食、胰岛素等,占总提取词的60??78%,具体如表1所示。

2.2.2健康领域知识需求的知识单元抽取

知识单元具有相互独立、代表性强、数量较少等特点,本文是将收集的文本数据分类归入不同类目下,生成健康领域知识需求的知识单元。在前文编码过程中,使用划分式聚类方法结合用户需求,将2553个数据文本归类,根据《医学词典》中的名词划分界定,将数据分为“病因病理”“预防知识”等12个大类。分类标准是首先将数据去中心化,根据聚类的可伸缩性、领域最小化、高维性等特性按用户健康知识需求进行分类。如谈及如何预防则归类到“预防知识”类,涉及患病后如何生活、工作则归为“生活工作影响”类,上述类目即解构用户健康领域知识需求的知识单元,如表1所示。需要指出的是,同一特征词可在不同类目下同时出现,例如“胰岛素”一词,它在“病因病理”类目里代表的是胰岛素分泌受损,在“治疗”类目里表示治疗糖尿病的胰岛素药物,二者并不矛盾。

2.3需求驱动下健康领域知识单元之间共现关系分析

2.3.1知识单元频次分析

在知识单元的可视化即构建知识链接中,知识单元出现的频次决定知识单元的大小,知识单元之间是否存在关联关系决定知识单元之间是否有线条链接[5]。分析知识单元的频次与知识单元之间的共现关系是为了知识链接的构建。在编码过程中,将健康主题类目抽取出来,确定知识单元频次数量及所占总类目的比例,结果如表2所示。

2.3.2知识单元共现关系分析

知识单元间的关系叫作知识关联,在建立知识链接的时候通过确定知识单元间是否有联系来确定链接[5]。不同知识单元间存在着或强或弱的关系,它们通过特征词的共现联系起来。

知识单元的关联是知识链接构建的前提,因此,本文在对所收集文本数据编码的基础上,计算特征词共现频次,统计完成后将特征词间共现关系分属到健康领域知识需求类目下。如用户提问了“胰岛素注射频次”和“注射完胰岛素之后应当注意的饮食”,这就是“治疗”知识单元和“日常护理”知识单元的共现。对于12个类目分别进行共现频次统计,共占总共现词对的85??93%,将其按照从大到小的方式排序。考虑到共现词对的可视化效果,选取了前12组知识单元对进行研究,如表3所示。

2.4健康领域知识需求的知识链接构建

随着信息导向向知识导向的转变,以文献单元为基础的信息链接方式和以超文本为基础的参考链接方式已不能满足高效进行知识管理、知识组织的需要。在图情领域,传统信息组织方式、信息管理正逐步向知识组织、知识管理、知识可视化方向发展。知识链接能更为高效、灵活地抽取知识单元并对其进行可视化、规范化处理,揭示知识单元间的本质联系,帮助用户从一个知识单元精准地链接到与其相关的其他单元。因此,知识链接成为知识组织与知识管理的新趋势。

知识链接是基于知识单元的逻辑性及相关性关系,通过知识关联将具有相关关系的知识单元有序地组到一起,将知识单元及其关系有序可视化的行为[5]。Neo4j软件是基于数学和计算机的“图论”,其建立的图模型可更加准确灵活地进行可视化展示,并可提供近似与数据规模无关的查询可能,输入特定查询语言可快速精准地查询到各知识单元的属性及各知识单元间的链接关系。

本文在前文对知识单元频次以及知识单元共现关系探究的基础上,采用Neo4j软件绘制健康领域知识需求的知识链接,并对其进行分析。具体绘制过程如下:首先,将不同的知识单元的编码导入到??CSV文件中,构建知识单元内的特征词和各知识单元之间的共现关系,构建节点的代码命令为Cre?ate(:知识单元名称{name:″特征词″});构建知识单元之间共现关系的代码命令为Match(p1:′知识单元′),(p2:′特征词′)create(p1)-[r:特征词]->(p2)。以“并发症”知识单元和“预防”知识单元下“饮食”特征词的创建过程为例,分别如图1和图2所示:

共构建节点136个,关系链接138个,结果如图5所示。图3是在Neo4j数据库中通过match语句查询“诊断”知识单元所得到的关系示例;图4是查询“病因病理”知识单元所得到的关系示例,其中,不同节点代表不同类别的实体,如以诊断为中心的代表“诊断知识单元”,其指向的节点代表“诊断特征词”;同样地,以病因病理为中心的代表“病因病理知识单元”,其指向的代表“病因病理特征词”。

在图5中,“检查”知识单元与“治疗”知识单元存在着强性共现关系,表示用户在搜寻信息时检查类信息与治疗类信息之间存在着较多的跳转,即多数用户在搜寻“检查”类信息时存在着“治疗”类信息搜寻的需要。所以在用Neo4j软件构建知识链接时,将“检查”知识单元与“治疗”知识单元用线条链接起来,通过知识链接的可视化,可清晰简明地看到实体之间的联系。

3研究总结与建议

本文研究的是健康领域知识需求的知识单元解构与知识链接重构,因此,研究总结将从知识单元与特征词的抽取、知识单元共现关系分析、知识链接构建3个步骤中提炼,并对健康领域知识需求的知识单元抽取和知识链接构建过程中的同一性与特异性进行分析。

3.1健康领域知识需求的知识单元抽取要以用户需求为导向

在知识单元的探讨中,大多数学者从知识单元本体出发,提出知识单元具有多维性、分合性、重组性、再生性的特点[28]。本研究也正是基于这些特点抽取健康领域知识需求的知识单元,在文本数据编码分析、特征词以及知识单元的抽取过程中,发现健康领域知识需求的知识单元具有领域的特异性。

健康知识领域不同于其他领域,在该领域中,大多数用户都是从自身需求出发,对健康知识进行搜寻、存储、利用,以此来解决他们的健康问题,提高健康素养。在收集的文本数据中,可以发现健康用户存在以下问题:第一,39健康网是医患共存、相对自由的健康知识交流平台,多数用户无论是发起问答贴还是回复问答贴都是以需求满足为目的导向,比如“β细胞是否可以再生?”或者“Ⅰ型糖尿病如何预防”等。第二,用户的健康素养普遍不高,从表2中可以看出,预防知识单元占2.98%,治疗知识单元却占到22.44%。从糖尿病的病因病理来看,Ⅱ型糖尿病是可以預防的,但是从用户的问答贴来看,对于糖尿病还是属于“治疗大于预防”的态度。

因此,为了方便用户可以更加精准地找到自己所需要的信息,结合用户现有的健康素养水平,在抽取健康领域知识单元的时候应当从满足用户健康知识需求的角度出发,抽取的知识单元应具有需求导向性,以提高知识服务针对性与效率。

3.2基于知识单元间关联关系来构建健康领域知识需求的知识服务系统

知识链接是通过知识关联将知识单元整合,是对知识单元的重组与优化。在知识单元构成的知识库中,将知识单元有序地连接起来,构成知识网络。在知识网络中,如用户需查询某特定知识单元,知识链接就可以帮助用户跳转到与原知识单元存在相关关系的其他知识单元,实现知识的附加增值。

在本文研究中,据表3可以看出,共现次数最多的知识单元对为“检查—治疗”(23.42%)与“日常护理—并发症”(12.73%),即多数用户在搜寻“检查”知识单元的时候会有想获取“治疗”知识单元的需要,但是在39健康网上只有对“糖尿病”“心血管疾病”等病症的分类导航,还没有对知识单元之间的链接进行构建,这就使用户在健康知识获取时只能找到当前的特定知识,无法打包获取与健康知识查找对象相关的知识群,现有的健康网站的知识组织中尚不能提供知识单元之间的链接与跳转。

知识单元的共现关系,表明了用户在搜寻完原知识单元之后极有可能会搜寻下一有关的知识单元。因此,在为用户提供知识服务中,可以以健康领域知识需求的知识链接为参考,根据知识网中的知识单元本体与共现关联建立知识导航栏。比如,在用户搜寻“检查”知识单元的时候,可以在该导航栏中提供跳转到“治疗”知识单元的链接,这样就拓宽了用户获取知识的渠道,扩展和延伸了知识管理与知识服务的空间与范围。

3.3结合健康领域知识需求的知识链接来促进群众健康素养的提高

Neo4j软件可以实现知识单元的知识链接绘制,将知识单元可视化表示,在最终绘制成的知识链接中,知识单元的节点、知识单元之间的链接关系、知识单元的属性等都可以拖动并可对其查询。通过图5可以看出,健康领域知识需求的知识链接呈现“病情内沿知识单元链接紧密,病情外延知识单元链接稀疏”的趋势。中心的知识单元为“治疗”“检查”“日常护理”“并发症”等,这些知识单元分别与其他知识单元存在较强的共现关系;处在边缘的知识单元为“情感心理”和“教育科研”,这两个知识单元与其他知识单元的链接比较少。

结合在数据文本处理过程中专业词汇用量较少、用户对治疗的态度大于預防的情况,可以发现用户的健康素养普遍不高,这在知识链接图中可以究其原因,结合表2和图5:首先,多数用户的搜寻局限在“治疗”(22.44%)、“检查”(11.44%)、“日常护理”(24.29%)、“生活工作影响”(14.10%)等知识单元,也就是知识链接图中的中心部位,却对“情感心理”(9.44%)、“教育科研”(1.80%)等知识单元的搜寻较少;很少用户会先去搜寻预防病症,只有在通过搜寻“日常护理”和“病因病理”知识单元的时候才会出现“预防知识”知识单元的共现。这表明多数用户对健康知识的需求只是为了解决已经存在的病症问题,对于疾病的“预防知识”“教育科研”知识单元专注较少。其次,“情感心理”“教育科研”这两类知识单元与其他知识单元的链接不大,这表明搜寻这两类知识单元的用户并不是为了解决健康问题,只是为了了解专业性相关知识,对“糖尿病”的相关知识与心理情感进行研究,那么这些人可能是医护人员、研究人员或者学者,从数据的分布情况来看,大部分的专业健康知识掌握在极少数用户手中,可见,对大众用户的健康知识科普与健康素养的提高有待加强。

基于以上分析,从健康领域知识服务的角度出发,用户个人要从微观上加强健康知识的学习,提高健康素养;知识服务提供方要从中观上构建基于知识链接的健康知识服务体系;政府与社会组织则要从宏观上营造解决病患问题与提升用户健康素养相适应的环境。

4结语

本文以中国最大的健康门户网站39健康网作为数据收集来源,在知识单元抽取中根据粒度原理将健康领域需求知识解构成不同知识单元,结合文本挖掘与可视化技术绘制以“糖尿病”为代表的健康领域知识需求的知识链接;对健康领域知识需求的知识单元频次、知识单元关联、知识链接进行分析并得出结论,对健康领域的知识组织提出建议。研究健康领域知识需求的解构和重构,有助于了解用户的健康知识需求偏好,为健康领域进行高效知识组织提供借鉴和参考。本文以“糖尿病”为例,虽在疾病的年龄层、病因病理复杂性上具有一定代表性,但难以涵盖所有健康知识需求,对用户的健康领域知识需求仍需借助更多具有代表性的疾病进行拓展与探究。