APP下载

基于网络大数据的高校图书馆科研用户画像模式构建研究*

2022-11-08柳益君黄永锋习海旭吴智勤

图书馆研究与工作 2022年11期
关键词:画像语义标签

何 胜 柳益君 黄永锋 习海旭 吴智勤

(1.江苏理工学院计算机工程学院 江苏常州 213001)

(2.江苏理工学院图书馆 江苏常州 213001)

1 引言

信息共享与知识创新时代,大数据基础理论与领域实践的分殊与对峙激发了众多的研究需求。在面向科研用户的图书馆知识服务实践中,由于文献大数据纷繁复杂、知识创新呼声日益高涨且科研人员个性化特征分化显著,有关用户群体行为分析、科研知识问答和个性化推荐等理论和应用研究面临重大挑战。

用户画像(User Profiling)是典型的数据处理方法[1-2]。该方法通过归纳和分类包括人口属性、个性习惯、专业背景和兴趣偏好等用户属性,多维度地析出描述性标签,并针对具体应用目标构建特定模型,以凸显用户个性化特征。用户画像本质是建立于各类数据分析基础上的对个性特征的深刻认知和精准表达,表现形式为用户标签[3-4]。由于其在辅助用户群体行为分析、助力知识问答、提供个性化服务等方面的优越表现,过去数年里,用户画像在商业、金融和医疗等领域个性化服务方面发挥了重要作用[5-6]。当前随着国家创新驱动发展战略的实施以及对科研智库的重视,面向科研创新的用户画像构建研究引起国内外图情学界的关注[7]。

高校图书馆科研用户一般以图书馆各类资源为基础,以科研创新为目标开展科学研究,科研用户画像构建模式既具有一般用户画像的共性,又兼备面向科研的独特个性,因此本文首先梳理一般用户画像的构建模式理论、方法和过程,在此基础上再着重分析科研用户画像需求和面临的挑战,并密切结合需求深入讨论科研用户画像独特的构建模式。

2 国内外用户画像模式构建研究进展

“模式”一词在学界没有明确定义,对于不同学科有各自不同的涵义。互动百科词条将“模式”描述为:“理论和实践之间的中介环节,具有可重复性、结构性和稳定性等特征”、“事物有组织的结构”和“研究社会现象的理论图式和解释方案”等[8]。综合上述描述,本文将用户画像构建模式粗略概括为介于相关基础理论和用户实践需求之间的以各类模型构建为主体的模型框架,形成包括构建过程、构建方法和构建目标等关键元素的用户画像方案和理论体系。

2.1 用户画像构建过程引入社交网络分析

国外学者注重将社交网络分析方法引入用户画像构建模式。例如,Ayse C[1]指出用户画像应依据用户社交属性、生活习惯等信息,抽取用户特征并进行属性标注,形成用户标签;Haoran X等人[9]认为大数据情景下,应重视用户社交网络近邻及社团成员的影响,以应对用户画像属性标注过程中的数据稀疏问题;Mohammad Y[10]提出一种面向用户画像的个性化推荐系统,该系统由数据收集、用户画像、相似度计算、社交网络近邻选择及预测等过程组成。学者们在此基础上进一步开展案例研究,例如Zeki A等人[11]基于社交网络分析方法研究用户画像,调查用户动机并划分用户群;Joseph K等人[12]对社交网络平台Tweet的内容进行分析,抽取用户属性并完善画像标签。

国内学者也注重融合社交网络信息构建用户画像。例如,牛温佳等人[13]以知识工程理论为支撑,提出基于知识抽取和用户社交网络行为分析的画像方案;黄文彬等人[14]应用频繁模式挖掘和构建概率矩阵等方法,引入用户地理信息构建用户画像;Wu L等人[15]采用一个概率模型对用户行为背后的用户偏好以及社交网络链接进行分析,发现用户偏好与社交网络行为密切相关;王凌霄等人[16]认为用户画像是应对“社会化问答社区”诸多挑战的富有成效的建模手段,并讨论标记用户特征的方法。

2.2 用户画像构建过程采用语义计算方法

国外研究很早就提出了基于语义网和本体方法的用户画像构建模式。2004年,Middleton S等人[17]在研究基于用户画像的学术论文推荐方法时,通过提取用户关注的论文主题本体,将论文内容转化为对应的词向量与之进行匹配,以准确定位用户偏好;Calegari S等人[18]利用YAGO本体库提取标签构建用户画像,辅助用户个性化信息检索,提高了检索的精准度和多样率;Andres M等人[19]提出基于语义网和用户画像方法的融合文本信息和专家知识的学习管理系统OntoSakai;A Salehi等人[20]通过标注用户文本的语义信息,实现社区用户的情感画像,提出基于用户文本情感的社区画像方法。

国内学者在语义计算方面也开展了大量的研究。2010年,唐杰等人[21]提出了利用搜索引擎进行科研用户画像的框架,其思路是通过分类模型从搜索引擎中找到科研用户主页,然后从中抽取不同类别的文本信息用于属性标注;董伟等人[22]通过计算主题间的海林格(Hellinger)距离,识别社区用户的兴趣特征;宋雪雁等人[23]以用户消费行为为基础,应用语义计算方法构建用户画像标签体系。

国内外学界以个性化推荐和信息检索等为应用目标,将社交网络分析和语义计算两种核心方法应用于用户画像构建,对于解决用户数据稀疏、标签规范化和精准化等问题起到了很大推动作用,并在有限数据集上取得了较好的结果,但是当前大数据情境下用户画像构建模式研究尚面临以下挑战:①学者们提出的用户画像支撑理论和方法较为单一,缺乏进一步的深度分析和有效融合;②缺乏大数据环境下面向科研用户尤其是用户画像构建模式的深入研究。

3 科研用户画像模式构建需求及应对策略

科研用户画像标签模型一般可从用户人口标签和科研属性标签模型两个方面加以研究。高校图书馆科研用户一般指利用图书馆各种资源从事科学研究的个体(如高校教师、研究生)或群体(如科研团队)[5],对比以教学、休闲为目标的图书馆用户,是一类以科学探索和创新为己任的特殊图书馆用户。一方面,科研创新工作建立在个体付出艰辛努力以及群体通力协作的基础上,用户画像需要深度描述个体和群体特征,因此形成科研用户人口标签模型;另一方面,科研工作具备极强的领域特征,科研人员在某一领域的成果、学术影响等要素共同构成科研属性标签模型。

3.1 科研用户的知识需求及画像特点

科研人员是一类特殊的群体,其知识需求目标具有高度的特异性,用户画像构建模式必然呈现自身的规律和特点。相关文献研究结果表明,科研用户知识需求的特征可概括为“博、准、快和新”四个方面[24-25]。大数据情境下,数据体量巨大、来源众多,如何针对上述需求,构建科研用户画像模式极具迫切性。

(1)博,即科研知识的全面性。知识的广博是知识交叉和迁移的基础。构建用户画像人口标签的源数据须全面反映科研领域所涉及的内容,需要广泛抽取包括社交和专业数据等多方面资源,如科研人员所在的微信、微博资源,以及科研文献、专利、项目、成果等公开发表且经过验证的数据,以全面反映科研知识的广度。

(2)准,即科研知识的精准性。知识的精准性是科研深度的源泉和科研创新的支柱。这对用户画像科研属性标签体系提出规范化和一致性的要求,标签规范化是知识精准的保障,标签一致性使得规范化的标签更为持久。标签规范化和一致性相统一的重要手段是知识的语义化和本体化。

(3)快和新,即科研知识实时性和动态性。实时和动态的知识为科研创新提供不竭的驱动力,助力科研用户及时掌握领域发展的前沿。一方面要求用户画像的标签(如专业词汇)实时并动态地反映领域研究的最新成果,另一方面也对用户画像软件平台的算法和算力提出更高要求。

3.2 网络大数据的研究动态及其助力用户画像分析

网络大数据(Network Big Data)是指随着互联网、物联网和云计算等技术的迅猛发展,网络空间中各类应用引发的数据规模急剧增长而形成的大数据[3,26]。网络大数据分析和应用包括三个层面,对应研究方法如下[27]。

(1)网络大数据感知和数据表示:以大规模网络图(Graph)分析为首要方法,收集包括社交网络和语义网大数据等多源数据,依据所构建的元数据模型,去重后存入数据库。

(2)网络大数据融合和模型构建:以社交网络分析和语义计算为研究基本范式,社交网络和语义网大数据为两类典型源数据,构建网络大数据分析和计算模型。

(3)网络大数据挖掘和知识发现:以图分析和挖掘算法为主要工具,洞察隐藏于网络大数据中的创新性知识或规律。

从研究工具上看,网络大数据的分析和处理涉及机器学习、自然语言处理和网络分析等各类算法以及分布式计算平台。

近年来,为快速处理海量数据,开源组织Apache提出了Hadoop+Spark+GraphX框架,用于大规模网络分析和内存计算,其中集成了用于大规模网络图分析的机器学习库(Machine Learning Library,MLlib)。该框架在淘宝网、新浪微博等商业大数据应用领域取得成功[28-29]。中国计算机学会大数据专家委员会在预测大数据发展趋势时指出:“数据的语义化和知识化是数据价值的基础问题”,并认为多学科数据融合、数据语义化和知识化分别是未来大数据应用和发展的两大趋势[30]。

将两类网络大数据(包括社交网络和语义网大数据)引入到科研用户画像研究,并与大数据实时分析平台密切结合,对科研用户画像在算法和算力上形成有力的支撑,从而满足科研用户“博、准、快和新”的知识需求。

3.3 基于网络大数据的科研用户画像模式构建应对策略

面向知识创新的科研用户画像模式构建应对策略可概括为3个方面,如图1所示。

图1 面向知识创新的科研用户画像模式构建应对策略

(1)将用户人口标签模型建立于社交网络大数据分析基础之上是覆盖知识全面性的有效途径。由于科研人员往往专注于所研究的领域,将大量的时间用于科研活动,在社交平台上与其他用户的互动时间和互动行为较少,因而描述用户个性的数据十分稀疏。社交网络分析方法能够有效挖掘到科研用户所属的群体或团队,将有相同研究兴趣的科研人员的标签相互共享,使得描述知识的标签更加丰富,以拓展用户的知识覆盖面。首先依据科研用户人口特征构建人口标签模型,然后应用网络分析方法挖掘用户社交数据,尽可能扩展用户人口属性标签,以便科研人员全面获取所需要的知识:①对大规模网络链接循踪,搜寻并统计科研个体的所有社交网络邻接成员,在相邻成员之间实施人口标签扩展;②对科研团队的社交群体行为(如各高校的学者主页、各类微信公众号和微博知识分享等)进行挖掘和分析,拓展群体人口标签;③通过社交网络挖掘算法计算网络个体间的相似度,对缺乏人口标签数据的科研个体,抽取其他高相似成员的标签进行共享和补全。

(2)将科研属性标签模型建立于多元异构大数据语义分析基础之上是推动知识精准获取的关键方法。通过对海量领域数据的语义分析和本体建模,抽取其中的实体、关系和属性等要素并融合,同时结合成熟的领域本体库,为用户打上规范的科研属性标签,以聚焦和对接科研用户的个性化研究领域和个人偏好,精准获取领域知识。

(3)基于分布式计算平台和内存计算技术的科研用户画像系统是知识实时获取和动态更新的有力工具。在Hadoop+Spark+GraphX计算平台中,其内置的GraphX图算法库能满足网络大数据的算法要求,Hadoop+Spark内存框架亦具有强大的算力支撑,促进科研用户标签的实时获取和动态更新,为科研用户的知识实时性和动态性提供保障。

综上所述,以社交网络分析和语义计算方法为基础的网络大数据应用以及相适应的高性能分析系统,能够有力支持科研用户画像,为用户画像模式构建提供高度契合的理论和实践途径。

4 基于网络大数据的高校图书馆科研用户画像模式构建框架

高校图书馆科研用户画像模式构建框架如图2所示,包括基础数据收集和用户画像模式构建两个部分,其中通过网络大数据分析平台将二者连接和沟通起来。

4.1 基础数据收集

以科研创新为目的,网络大数据可由以下几个部分构成,其中科研专业数据库为核心,科研用户的社交网络数据、建构于本体之上的百科知识和各类领域数据库、网页数据为重要支撑,共同组建为用户画像的基础数据。

(1)科研专业数据库。以国内万方、知网,国际SpringerLink、ScienceDirect等平台数据为代表, 积累了海量的科研学术文献,是科研用户创新的主要数据来源。其格式统一,方便抽取标签。

(2)社交网络数据。如各高校科研人员在各类社交平台如人人网、科学网、新浪微博、微信朋友圈和Facebook等产生的数据。这些社交平台的“关注”及“好友”功能非常精准地反映用户的科研偏好或领域团体的共同科研话题和目标。

(3)在线百科。以维基百科、互动百科、百度百科等知识库为代表,受领域专家严格审核,内容可靠且结构完整,具有较高的参考价值。

(4)知识库。以Dbpedia、Yago和Freebase等为代表的知识图谱,知识结构规范、内容严谨,能为科研用户画像应用系统提供极其丰富的知识源泉。

(5)网页数据。包括科研人员用于检索的常用搜索引擎(如谷歌或百度),以及对科研人员较高黏度的知乎网站等。谷歌学术和百度学术网站一般可抽取文献摘要、作者、机构等信息,而知乎网站则可抽取用户偏好及最新的概念术语等。

本文将上述五类网络大数据进行元数据统一建模,借助Hadoop+Spark+GraphX计算平台,经过数据清洗和融合,形成科研用户画像的基础数据库。

4.2 科研用户画像模式构建框架

科研用户画像构建模式以社交网络分析和语义网分析理论为支撑,依托Hadoop+Spark+GraphX网络大数据分析平台,通过构建元数据模型、用户画像模型和应用模型,形成完整的高校图书馆科研用户画像模式,具体包括“大数据抽取与融合”、“用户画像模型构建”和“用户画像应用与服务”三个部分,如图2所示。

图2 基于网络大数据的科研用户画像模式框架

4.2.1 大数据抽取与融合

大数据抽取与融合是用户画像模式构建的基础,致力于产生统一和规范的基础数据。

(1)数据抽取。收集科研文献(论文、图书库等)、用户注册信息、用户行为日志(借阅、检索、咨询等)、用户属性(姓名、性别、专业等)和互联网网页(维基、百度百科等)数据,建立各自对应的元数据模型,提取实体、关系和属性,以便在分布式数据库系统(如MonogoDB数据库)中进行存储。

(2)数据融合。建立在知识抽取的基础上,包括建模、评估和扩充三个方面。将上述从网络大数据不同数据源中提取的实体、关系、属性等进行对齐、关联、合并计算,依照所构建的知识组织模型和数据结构,按序生成知识条目并存入知识库。针对知识可能存在错误、不一致等冲突等情况,需要进行知识评估和扩充。其中知识评估对知识进行质量度量,解决其中知识冲突,最终融合成格式一致、结构清晰的知识。知识扩充(包括实体扩充、关系扩充、属性扩充等)将验证为正确的知识、动态更新到知识库中。知识评估是实现知识扩充的先决条件,而知识扩充的结果可以作为先验知识以指导知识评估[26]。

4.2.2 用户画像模型构建

以注释标签为主要任务的标签建模是用户画像的核心环节,包括用户人口标签和科研属性标签模型构建两个方面。图3中以情报学相关领域为例,给出了科研用户画像各标签模型的示例。

图3 科研用户画像模型构建

(1)用户人口标签建模。如图3所示,基于社交网络挖掘方法构建科研用户人口标签模型,对社交网络数据中的节点聚类、网络链接统计(入度、出度、介数和紧密性等参数分析)、关键节点进行分析,确定用户人口标签的基础信息以及进一步的扩展信息。为提高科研用户服务的精细化和精准度,可将用户人口标签细分为群体人口属性和个体人口属性标签。个体人口标签模型直接源于高校图书馆信息系统中科研用户注册时的格式化数据,或者学者社交网络网页数据,包括“用户ID”、“所属单位”、“用户学历”和“用户兴趣”等属性;群体人口标签模型包括“群体命名”、“所属机构”和“社交平台”等属性,这两部分标签数据源于高校图书馆信息系统的用户行为日志、网页数据和社交网络数据,并需要综合应用社交网络分析的相关挖掘算法进行提取。

(2)用户科研属性标签建模。基于语义分析方法构建用户科研属性标签模型,对科研专业数据和知识库采用包括文本分词、相似度计算以及关键词提取等语义计算方法,确定科研属性的具体标签。依据科研创新活动一般分类,可以将其进一步分为科研成果模型和学术影响模型。科研成果模型具体反映科研用户的现实状况,以及科研创新的潜力,包括“科研论文”、“科研获奖”和“其他成果”(如项目、专利等)等属性;学术影响模型涉及领域内对科研创新的评价以及创新性科研服务等,包括“学术任职”和“科研服务”等。用户科研属性标签数据来源于科研专业数据库、在线百科和著名知识库融合后的结果。

4.2.3 用户画像应用与服务

面向科研创新的各类服务是高校图书馆用户画像的终极目的和落脚点。与科研用户画像密切相关的服务有个性化知识推荐、科研群体行为分析、科研知识问答和科研趋势预测四个方面。

(1)个性化知识推荐。精准个性化知识推荐是科研用户的主要需求之一。依据科研目标用户画像的两类标签所标注的用户特征或关键词,在统一和规范化的科研知识库中搜索或匹配,并对结果排序,将排名靠前的知识推荐给目标用户。建立在用户画像标签基础上的个性化推荐能准确定位用户兴趣,为用户提供高价值的科研知识。

(2)科研群体行为分析。用户行为分析是结合用户个性特征开展用户服务(或营销)和行为预测的关键环节。对科研用户而言,以目标用户的画像标签为依据,以科研知识库和社交网络知识库为基础数据,对科研用户群体行为(如文献查询、检索和借阅行为,微博、微信等互动和社交行为)运用机器学习算法进行分析,可以洞察科研群体(研究社团或群组)行为的整体概况和局部特征,进而有针对性开展具有高黏度的科研服务。

(3)科研知识问答。科研知识问答为用户提供高附加值知识发现服务。由于用户画像标签精确定位了用户的个性化特征,根据这些标签,能够在对用户问题的分析中抓住用户特征,通过对用户所提出的问题进行语义解析、语句分词和知识库查询等过程,为用户提供精准和智能知识问答。

(4)科研趋势预测。科研发展趋势是科研用户和科研管理部门关注的重要内容。依据用户画像标签的动态演化及其权重的实时变更,容易发现科研相关术语的热度实时变化以及新的科研热点演变轨迹,从而预测科研发展趋势,为科研人员的未来研究规划和科研管理部门的科研决策提供科学依据。

5 结语

大数据情境下,高校图书馆科研用户画像构建对于科研人员的创新型研究具有重要意义,在分析科研需求的特征基础上,从构建目标、构建方法和构建过程等角度探讨科研用户画像构建模式,并给出解决方案和模型框架,为领域研究提供一条基于网络大数据的可行理论构建途径,并为科研用户画像的落地提供实践思路。

社交网络分析是一种成熟的研究范式,本质偏向研究“人”的社交行为;语义网络分析以文本“数据”分析见长,本文将二者融合起来成为网络大数据,应用社交网络分析的网络拓展优势扩充大数据来源,以支撑用户画像标签的全面性需求,借助语义网本体的规范化优势支撑用户画像标签的精准性需求,突显了科研用户的“人”的社会化属性和“大数据”驱动的智能属性,二者的深度融合具有潜在的一致性和高度的契合性。

猜你喜欢

画像语义标签
真实场景水下语义分割方法及数据集
威猛的画像
画像
不害怕撕掉标签的人,都活出了真正的漂亮
画像
“吃+NP”的语义生成机制研究
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
汉语依凭介词的语义范畴