TSPVS:时序学者画像可视化系统
2024-02-27余敏槠王杨顾睿琪单桂华金钟
余敏槠,王杨,顾睿琪,单桂华*,金钟
1.中国科学院计算机网络信息中心,北京 100190
2.中国科学院大学,北京 100049
引 言
学术评价是对学者的学术水平、研究成果和学术贡献进行客观和系统的评估。学术评价不仅对学者的个人发展、科学研究具有重要意义,还可以为决策者确定优秀学者、优势领域、资源分配以及交流合作提供辅助依据,通过了解学者的学术水平和研究特长,决策者可以根据评价结果来制定相应的人才引进、资源投入和项目支持政策,以推动学术和科研事业的发展。因此,对一个学者进行客观、全面地学术评价至关重要。
在评价学者时,其中一个重要的参考依据是其发表的论文数据。发表论文数量和质量可以客观衡量一个学者的学术产出,从而对学者的学术能力进行初步评估。通过被引用的次数,可以从一定程度上量化学者的学术影响力,反映学者研究成果对该领域的影响程度。同时,合作发表的论文也可以体现该学者与其他同行的合作关系和交流频率,反映学者的合作能力,而与不同领域学者的合作也可以体现其跨学科研究和创新能力。
然而,论文的数量、被引用次数、合作次数等经典的基于统计的评价方法无法全面评价一个学者的研究能力和学术贡献。学者研究主题变化过程、研究的广度和深度以及和不同合作者的具体合作情况的分析也是非常重要的评价方法,可以在一定程度上对全面评价起到补充作用。
领域重要学者研究主题的变化能在一定程度上揭示该领域的热点问题,通过分析其研究主题的变化,能够了解该领域研究的焦点和热点,帮助决策者抓住学术发展的趋势。同时,学者研究主题的变化也能够反映出该学者的知识更新程度和频率,有利于决策者寻找更合适的目标学者。
学者研究的广度是指该学者研究工作覆盖的主题范围,表现在其论文所涉及的主题数量。研究的深度是指该学者在特定主题上研究深入的程度,表现出其在该主题上研究工作的连续性。具有广泛研究兴趣的学者能够获得更全面的知识和见解,并在多个主题的知识间建立联系和交叉合作,从而形成更完整的理论框架和综合性的研究观点。而专注于某一主题的学者往往把更多的时间和精力投入到该主题的深度研究之中。
分析学者与不同合作者的合作历程及具体合作情况对于了解其与各合作者之间的合作模式、优势以及取得的成果都具有重要的价值,以帮助决策者了解该学者的合作倾向和策略,为未来潜在的合作提供借鉴和引导。
学者画像是刻画学者特征的重要方法之一,可以支持对学者进行直观、快速、全面的评价。然而现有的学者画像方法无法同时支持学者主题变化、研究广度深度和与每个合作者的合作历程的可视分析,时间叙事性较欠缺。并且,学术评价的目的是为了使决策者对比区分学者,从而得到最合适的人选。而现有的学者画像或可视分析系统在对比方法方面尚存在缺陷,无法将两个学者的主题变化、研究广度深度以及与合作情况同时在同一个视图内对比并突出二者异同之处,导致学者的特点不够鲜明,用户很难快速勾勒出学者的独特印象,并迅速定位到关键信息。
因此,本文总结了以下几点需求以更好地对学者进行画像:
(1)学者研究历程概览:将学者的主题变化、研究广度深度和与每个合作者的合作历程等重要信息集中呈现在一个时序概览图中,帮助用户快速勾勒学者印象,并迅速定位到关键信息。
(2)学者生涯对比分析:对两个学者的主题变化、研究广度深度和与合作情况同时进行对比分析,在同一视图内突出呈现二者在这些方面的异同,帮助用户迅速区分两位学者,进而选出更合适的对象。
(3)一个交互式可视分析工具:为用户提供一个可交互的学者时序画像可视分析系统,帮助决策者自由切换不同的学者进行展示、分析和对比,并通过交互灵活获取细节信息。
针对上述需求,本文提出了一种基于论文数据的时序学者画像可视化方法,以时间维度为主线突出表现了学者在主题变化、研究广度深度和与每个合作者的合作历程等方面的重要特征和重大变化,设计了时序学者画像对比分析方法,对不同学者在主题变化、研究广度深度和与合作情况等方面的主要特征异同点进行了突出比较。最后,基于上述方法,本文实现了时序学者画像可视化系统(Temporal Scholar Profile Visualization System,TSPVS),并通过可视化领域论文数据集验证了方法的实用性和有效性。
1 相关工作
1.1 引文分析
1964 年,美国情报学家尤金·加菲尔德(Eugene Garfield)在《Science》杂志上提出了科学引文索引(Science Citation Index,SCI)的概念[1],使科研人员可以通过引文检索寻找相关文献。后来,科学引文索引逐渐被拓展到社会科学领域(Social Sciences Citation Index,SSCI)、艺术和人文科学领域(Arts & Humanities Citation Index,A&HCI)。随着对引文研究的深入,引文分析不仅被用于检索相关文献,还被用于评价出版物、科研人员、科研机构等科研实体,以及建立科技发展模型。通过分析引用和被引用的模式,可以研究学者科研活动的特征,包括学术影响力[2-3]、科研内容的体系性等;通过分析文献之间的引用关系及时间序列,可以研究领域的科学结构和发展历史[4-5],包括领域的研究重点、学术的传承方向等。
1.2 基于文献数据的学者画像
在单个学者画像方面,Latif 等人[6]提出了一个可视化系统VIS Author Profiles,采用文本描述与可视化描述相结合的方法,通过自然语言生成技术自动生成学者图文画像,描述学者的基本学术信息、研究领域、合作情况等。王杨等人[7]设计了学者学术状态及竞争力可视化系统,从学术状态、研究兴趣、合作机构、研究团队、论文信息等方面对单个学者的学术状态进行了刻画。但这些方法不能对学者进行对比分析。Sallaberry 等人[8]受到Contact Tree 的启发提出了用植物界的树来可视化学者在学术生涯中发表的论文、作者合作、论文被引情况等信息。他们将植物树可视化与节点链接图、邻接矩阵做了比较分析,认为节点链接图可以更好地表达复杂的关系但不能直接表达时间信息;邻接矩阵可以清晰地显示关系网络的结构和分布,但空间利用率较低;植物树可视化既有灵活性又有局限性,通过特定的可视化编码可以很好地表达数据的某些特征,但数据的某些信息会因为找不到合适的可视化编码而无法被表达。
在学者科研态势对比分析方面,Guo 等人[9]提出了一个交互式可视分析框架SD2,支持灵活地对文献数据进行切片,可以满足多种文献数据分析需求,包括学者的论文数量、论文影响力、科研独立性、科研活跃度以及对比两个学者、两个团队的学术生涯轨迹等。他们使用了一个上下排布的、具有层次结构的柱形图,提供两组学者的学术生涯发表论文情况的对比。同时,采用了可视化查询逻辑,使用户可以通过交互实现学者组合的逻辑运算。例如a 学者(or b学者)and c学者,通过简单的交互即可实现ac学者组合和bc学者组合的对比分析。Wang等人[10]设计了可视分析系统VISPubComPAS,通过将两个学者或者两个机构历年在不同研究主题上发表的论文数量上下并置来对比分析学者研究内容的侧重点。但是这些设计均不能用于分析论文之间的引用关系,不能直接刻画学者的研究内容以及研究内容之间的内在联系。
在学者合作网络可视化方面,Zhao 等人[11]受地铁线路图的启发,设计了可视化系统Ego-Lines用于分析学者的动态自我中心网络的时序模式。系统用以时间为前进方向的运行路线表示学者,用运行路线的颜色表示合作的紧密程度,能更好地跟踪合作网络中单个合作作者的加入和离开。Wu等人[12]设计了新颖的符号用于总结自我中心网络的关键特征,实现了可视化系统EgoSlider 用于探索、比较和分析自我中心网络的演化。
2 数据处理
学者研究历史往往和主题紧密相关。主题不仅可以用于表达学术论文的内容,也可以用于表示学者在一定时段内的研究兴趣。而主题是建立在词汇基础之上的。本文涉及的数据处理包括关键词提取和主题提取。提取关键词主要有3 个原因:第一,有的论文没有作者指定的关键词[13-14];第二,部分作者的论文指定的关键词并不能很好地涵盖论文的研究内容;第三,不同文献数据库提供的关键词不同,需要统一的关键词以对文献进行标签化。
本文采用文献[10,15]的方法,使用1990-2018 年的IEEE VIS 论文数据,首先用自然语言处理技术从标题、摘要、作者指定的关键词中提取关键词,接着用LDA 模型从论文数据中提取主题。这样可以使每一篇论文有各个主题的概率分布,每一个主题有各个关键词的概率分布。最终获取的主题及其关键词如表1所示。
表1 各主题对应的关键词Table 1 Keywords corresponding to each topic
步骤1:构建初级语料。将每一篇论文的标题、摘要拼接起来,成为一段新的文本。将新文本中词汇的大小写进行统一,删除新文本中的特殊字符,对新文本中的词汇进行词形还原,如将名词复数还原成单数,将动词的过去时、现在时、完成时还原成动词原形。这一步数据处理在很大程度上统一同一单词的形式,减少对后续提取词组产生的干扰。
步骤2:提取词组。先用gensim 包对新文本进行分句,为每个句子标注词性,再对每个句子进行分词,再基于n-gram 模型提取由2~6 个单词构成的词组。
步骤3:筛选词组。通过词频和文档共现频次筛选出重要词组。通过去除文档频率(包含词组的文档数量)小于5 的词组,去除与其他词组的共现次数≤2的词组,最终得到1,799个关键词组。其中,文档频率阈值和共现次数阈值是经验值。
步骤4:构建LDA语料。把新文本中除了关键词组之外的词都删掉,形成LDA 语料。此处理方式可以保证处理前后关键词组在文档中出现的次数不变。
步骤5:把LDA 语料输入到gensim 包提供的LDA 模型[16]中,设置主题数量(本文参考文献[10]设置了6 个主题),得到每篇文章在6 个主题上的概率分布以及每个主题在1,799 个关键词组上的概率分布。
3 可视化设计
根据引言中提到的3项需求,本文设计了一种时序学者画像方法,不仅可以突出单个学者在整个研究生涯中的科研特征,并且可以快速、直观地对比不同学者科研活动特征的异同。最终基于该方法实现了时序学者画像可视分析系统,其界面如图1 所示。系统由3 个主要部分组成:学者选择面板、学者生涯时序画像面板和论文详情面板。
图1 系统界面图(以Huamin Qu为例)Fig.1 System interface(take Huamin Qu as an example)
3.1 学者选择面板
学者选择面板主要是为用户提供学者选择功能,方便用户选择感兴趣的学者进行画像或者对比分析。学者选择面板主要分为学者列表和选中学者列表两个区域。学者列表列出了所有学者条目,每个条目包含学者姓名、论文数量等信息。用户可以通过点击学者条目右侧的“+”将学者加入到选中学者列表。此外,用户还可以通过上方的检索框对姓名进行模糊搜索、选择目标学者、将目标学者加入到选中学者列表中。选中学者列表最多可容纳2个学者条目,通过学者条目的右侧的“-”可以删除学者条目。当选中学者列表中只有1 个学者条目时,点击“确认”按钮进行单个学者画像;当选中学者列表中有2个学者时,点击“确认”按钮进行两个学者的对比分析。
3.2 学者生涯时序画像面板
学者生涯时序画像面板主要有两大功能。首先是刻画单个学者整个研究生涯的科研特征,包括所属机构、发表论文情况、科研影响力、研究主题、合作学者、合作机构等基本信息和研究主题的变化、研究兴趣的深度和广度等重要信息。在此基础上,支持快速、直观、综合地对比两个学者的异同。下面首先将介绍单个学者画像的设计,再介绍两个学者对比分析的设计。
3.2.1 单个学者画像
单个学者画像主要包含5个部分:学者所属机构概览[图1(a)],研究主题分布图[图1(b1)],论文分布图[图1(b2)],合作学者概览[图1(c)]和合作机构概览[图1(d)]。
学者所属机构概览用于展示学者在不同机构学习、任职期间发表论文的情况,用一个堆叠柱状图表示,其中一段柱子表示一个机构,柱子的高度表示学者在该机构期间发表的论文数量占整个学术生涯期间发表论文数量的比重。每段柱子通过若干连线链接到研究主题分布图中,反映了该作者在每个机构的主要研究兴趣点。
研究主题分布图用于展示学者研究内容的侧重点,能从一定程度上反映学者的研究兴趣。采用条形图表示学者各个主题的论文数量,并使条形图的纵坐标轴与论文分布图的纵坐标轴重叠,有利于索引论文的主题。为了解决论文分布图中可能产生太阳图元相互遮挡的问题,本文设计了主题条形移动交互,可以对各个主题的顺序进行调整,相应地,论文分布图中的论文位置同时更新。
论文分布图用于展示学者历年发表的论文情况,包括论文的主题、影响力以及研究兴趣的广度和深度。以太阳作为隐喻,设计了新颖的时序可视化方法,其设计思路如图2所示。
图2 太阳图元的隐喻关系Fig.2 The metaphorical relationship of solar elements
太阳图元的核心部分用一个奖章表示该论文的被引次数在该领域所有论文中的水平。对于被引次数排名在前1%的论文,其太阳图元的核心用金牌表示;对于被引次数排名在前1%~20%的论文,其太阳图元的核心用银牌表示;对于被引次数排名在前20%~50%的论文,其太阳图元的核心用铜牌表示;对于被引次数排名未进入前50%的论文,其太阳图元的核心则没有奖牌。太阳图元光球层的直径大小与该论文的总被引用次数成正比。太阳图元的色球层是一个尺寸比例固定的圆环,圆环的宽度是光球层直径的1/10。太阳图元的色球层表示该学者在这篇论文中的所属机构,其颜色与学者所属机构概览图中一致。当该作者在一篇论文中所属多个机构时,该环对应填充多个颜色。太阳图元的日冕层表示该论文历年被引用次数的变化,从0 点钟方向开始顺时针环绕一周,对应从论文发表年份开始到当前年份的时间跨度,日冕的高度正比于该论文在对应年度的被引用次数。每个太阳图元中心位置的横坐标为该论文的发表年份,纵坐标的计算方法如公式(1)所示。
其中,yi是第i个主题的纵坐标,pi是该论文是第i个主题的概率。这样计算太阳图元中心位置的纵坐标可以使论文靠近最相关主题所在的位置并减轻遮挡问题。两个太阳图元之间的连线表示它们所对应的论文之间存在引用和被引用的关系。当用户通过交互选中某个太阳图元时,与所选太阳图元具有引用和被引用关系的太阳图元均会被高亮显示,用户可以直观地感知历年来学者在相关研究方向上的一系列成果,快速获知所选论文是基于学者的哪些研究基础创新而来,基于这些研究基础是否有进一步的创新。
合作学者概览图和合作机构概览图均采用柱状图展示学者的科研合作情况。一个柱子表示一个合作学者或者合作机构,柱子的高度表示合作论文数量。当用户选择代表某篇论文的太阳图元时,太阳图元与合作学者、合作机构之间会分别生成曲线将其链接起来,代表合作学者、合作机构的柱子会部分高亮,高亮的比例为合作数量占总合作数量的比例,如图3所示。当用户选择一个合作学者时,与所选合作学者合作的太阳图元会被高亮显示并链接到所选合作学者、所选合作学者的所属机构上。代表所选合作学者的柱子整个被高亮,代表所选合作学者的所属机构的柱子的高亮比例为所选合作学者在该所属机构与当前学者合作的论文数量占该所属机构与当前学者合作的论文数量的比例。如图4(a)所示:Weiwei Cui 在Hong Kong University of Science and Technology 期间与Huamin Qu 合作了4 篇论文,占比为4/31,在Microsoft 期间与Huamin Qu 合作了7 篇论文,占比7/10。
图3 合作对象与太阳图元链接映射Fig.3 Link mapping between cooperative scholar,cooperative institutions and papers
图4 Huamin Qu的合作学者Weiwei Cui和Shixia LiuFig.4 Huamin Qu's collaborators Weiwei Cui and Shixia Liu
3.2.2 两个学者对比分析
两个学者A 和B 的对比分析与单个学者的画像在可视化设计和隐喻映射方面基本一致,如图5所示。不同之处在于以下几点:
图5 Huamin Qu和Shixia Liu对比Fig.5 Comparison between Huamin Qu and Shixia Liu
(1)采用颜色来突出和区分两个学者的异同之处。本文采用蓝色表示只属于A 的内容,橙色表示只属于B的内容,绿色表示二者的共同部分。
(2)学者所属机构概览图中,学者A 的所属机构用蓝色表示,学者B 的所属机构用橙色表示。如果学者A和学者B有相同的所属机构,则用绿色表示。当学者有多个所属机构时,会有多段柱子与之一一对应。
(3)主题分布图中采用堆叠条形图表示学者A 和学者B 在各研究主题上发表的论文数量。蓝色条形的长度表示论文作者中只有学者A的论文数量,橙色条形的长度表示论文作者中只有学者B的论文数量,绿色条形的长度表示论文作者中同时有学者A和学者B的论文数量。
(4)论文分布图中太阳图元的光球层颜色表示该论文的作者属性。蓝色表示该论文作者里只有A,橙色表示该论文作者里只有B,绿色表示该论文作者里既有学者A又有学者B。太阳图元的色球层颜色表示论文的机构属性。如果该论文不是学者A和学者B的合作论文,那么光球层的颜色与色球层颜色一致;如果该论文是学者A 和学者B 的合作论文,那么当学者A 和学者B属于同一机构时,光球层的颜色为绿色;否则,光球层一半的颜色为蓝色,另一半的颜色为橙色。
(5)合作学者概览图和合作机构概览图中,根据合作性质将合作对象分为3 种情况进行展示:跟A 合作过但未跟B 合作过的学者,跟B 合作过但未跟A 合作过的学者以及跟AB 都合作过的学者。其中第3 种情况采用堆叠柱状图的形式呈现,蓝色柱子表示该学者只跟A 合作的论文数,橙色柱子表示该学者只跟B合作的论文数,绿色柱子表示该学者同时跟A和B一起合作的论文数。
3.3 详细信息面板
详细信息面板根据用户交互选择的不同展示相应的论文列表,呈现相关论文的题目、作者、发表年份,期刊名称、被引用次数,摘要等附加信息。当用户选择了单个学者进行画像时,详细信息面板展示该学者所有论文的列表和附加信息。当用户选择了两个学者进行对比分析时,详细信息面板展示二人合作论文和各自独立发表论文的列表和详细信息。当用户点选一篇论文对应的太阳图元时,详细信息面板展示该论文以及与其存在引用迭代关系的系列论文的列表和附加信息。当用户点选某一合作学者/机构时,详细信息面板展示该学者与选中的学者/机构合作的论文列表和附加信息。论文列表可根据被引用次数或发表年份进行排序。
4 案例分析
本文通过2 个实际案例详细演示了系统的分析过程,并与AMiner学者画像进行对比,以此验证本文方法和系统的实用性和有效性。
4.1 单个学者时序画像——Huamin Qu
如图1所示,左侧的学者选择面板中列出了学者姓名及其论文数量等信息。点击学者条目最右端的“+”按钮,将Huamin Qu 添加到“选中学者”的列表中,点击“确认”按钮生成Huamin Qu的时序概览画像以及论文详细信息。
学者所属机构概览图中的两段柱子分别代表了Stony Brook University(以下简称SBU)和Hong Kong University of Science and Technology(以下简称HKUST),且HKUST 的柱子高度要远大于SBU 的柱子高度,这意味着Huamin Qu 曾在SBU 和HKUST 两个机构从事研究工作,其绝大部分论文是在HKUST发表的。
在主题分布图中,主题0 和主题1 对应的条形长度较其他主题的高,说明Qu 研究生涯的总体研究方向集中在主题0和主题1。结合论文分布情况,可以看到2003 年之前的论文太阳图元集中在主题3,而2008年以后的论文太阳图元绝大部分集中在主题0 和主题1,这意味着Huamin Qu 在2003 年之前的论文研究集中在主题3(volume rendering),而从2008年开始转向主题0(visual analysis)和主题1(information visualization)的研究。
在论文太阳图元分布图中,可以看到太阳图元之间的链接非常密集,说明其论文之间存在大量引用迭代和继承关系,这意味着其研究兴趣较稳定且具有很强的持续性。大部分太阳图元的核心区域有银牌和铜牌标志,这说明Huamin Qu 的大部分论文都具有较高的影响力。特别值得关注的是,Huamin Qu 在2008 年和2011 年分别有两个尺寸很大很突出的太阳图元。这两个太阳图元中心的银牌标志表示这两篇论文的被引用次数排名在所有论文的前20%,在整个论文数据集中算是比较优秀的论文。此外,这两个太阳图元分别与早于其发表的论文不存在链接,说明这两篇论文的研究内容并非是基于其前期工作的。因此,可以认为这两篇论文是Huamin Qu 分别在对应研究方向上的开篇之作。为了描述方便,本文把2008 年发表的论文称作A 论文,2011 年发表的论文称作B 论文。AB 对应的两个太阳图元的日冕尺寸整体比较丰满、平滑,说明这两篇论文从发表到现在每年都能获得相当的被引用量,这表明这两篇论文的研究成果久经考验,一直保持着重要学术价值。
分别点击这AB 两个图元可以进行深入分析,如图6(a)和图6(b)所示。从6(a)可以看到,在2008 年之后的太阳图元中,只有2 个与A 存在直接链接关系,并且没有任何其他太阳图元与A 有间接链接关系。这说明在Huamin Qu 的后续工作中,仅有2 篇论文的研究与A 有关,且这两篇论文并未再衍生出其他论文。从6(b)可以看出,在2011 年之后的太阳图元中,有5 个太阳图元与B 存在直接链接关系,有2 个图元与B存在间接链接关系,这意味着该学者的后续研究中,有多达7 篇论文与B 论文有关,并且存在一系列衍生和交叉关系。由此可以看出:相较于以A 论文为代表的研究方向,Huamin Qu在以B论文为代表的研究方向上的研究更深入、更持久。通过详细信息面板可以获取A 和B 对应的论文的标题、作者、摘要等信息,如图6(c)和图6(d)所示,从而知道A 论文的是关于图可视化算法的,B论文是关于文本/主题可视化方法的。
图6 Huamin Qu的重要论文对比Fig.6 Comparison between Huamin Qu’s two important papers
在合作学者概览图中,柱子高度最高的是Weiwei Cui 和Shixia Liu,由此可知,与Huamin Qu 合作最多的是Weiwei Cui 和Shixia Liu。通过点选两位学者对应的柱子可以深入分析各自的合作模式,如图4(a)和图4(b)所示。
图4(a)展示了Weiwei Cui 与Huamin Qu 的合作历程。从图中可以得知Cui与Qu 合作发表论文共11篇。Cui与Qu合作论文的太阳图元明显集中在两个区域(图中用红色虚线框标出),这说明Cui 与Qu 的合作历程可以分为两个阶段:2008-2012 阶段,2016-2018 阶段。从合作机构概览图中可以看到,有两个机构对应的柱子有链接接入,说明Cui在2个不同的机构与Qu合作,一个是HKUST,另一个是Microsoft。这两个机构对应的柱子的文字标签后面括号里的分数4/31 和7/10 分别表示Qu 与HKUSAT 合作发表论文31 篇,其中有4 篇是与在HKUSAT 时期的Cui 合作的;Qu 与Microsoft 合作论文10 篇,其中有7 篇是与在Microsoft 时期的Cui 合作的。从论文分布图还可以看到,2008-2012 年间的太阳图元大多连接到代表HKUSAT 的柱子上,2016-2018 年间的太阳图元大多连接到代表Microsoft 的柱上,且Qu 最大的两个太阳图元AB 都连接到代表HKUSAT 的柱子上。据此可以推测,Cui 跟Qu 早期曾在HKUST 一起开展科研工作,Cui参与了Qu 的AB 两个重要论文的研究工作,二者合作紧密,产出了不少高水平的论文成果。后来Cui 离开了HKUST,两人的合作告一段落。直至2016 年,Cui 已就职Microsoft,两人又恢复了紧密合作并每年都有论文产出。
图4(b)展示了Shixia Liu 与Huamin Qu 的合作历程。从图中可以得知:Shixia Liu 与Huamin Qu 的合作集中在2010-2014 年,此期间Liu与Qu 合作紧密,产出不少优秀论文,并且Liu 也参与了Qu的重要论文B的研究工作。
4.2 两个学者对比画像——Huamin Qu和Shixia Liu
从4.1 的分析中可以得知Huamin Qu 和Shixia Liu合作紧密且研究兴趣具有相似性。通过二者的对比画像来进一步分析他们研究历程的异同。Huamin Qu 与Shixia Liu 对比画像如图5 所示,其中蓝色表示只与Qu 相关的信息,橙色表示只与Liu 相关的信息,绿色表示与Qu 和Liu同时相关的信息。
从学者机构视图中可以看到,其中只有蓝色和橙色部分而没有绿色部分,这说明两位学者在所属机构上并无交集。
在主题分布视图中,二者主题0 和主题1 条形图的蓝色、橙色和绿色部分的长度都比其他主题条形图对应部分要长,其中主题1的绿色部分要远大于其他主题,这表明二者的研究兴趣点比较相近,集中在主题0和主题1,特别是在主题1曾有过不少合作。
从图5 中可以看到Qu 和Liu 的论文太阳图元分布呈现比较明显的3 个阶段:2000-2009,2010-2014,2015-2018。在第一个阶段,图中只有蓝色太阳图元分布且相互链接不多,这意味着在此阶段Qu 已经开始在此领域开展研究并且发表了多篇论文,Liu 尚未进入此领域的研究或者刚刚开展此领域的研究但尚无研究成果。在第二个阶段,图中又较多绿色太阳图元,尺寸较大且链接关系逐渐增加,这意味着该阶段二者合作密切并且论文质量普遍较高,Qu 的研究兴趣的广度和深度都有所增加。在第三阶段,图中无绿色图元,蓝色和橙色太阳图元数量分布相当且链接复杂,这意味着Liu 在前面合作的基础上逐渐开始独立研究。此外,如图7 所示,Liu 后期的很多论文太阳图元与Qu 的两篇重要论文A和B存在直接或间接的连接关系,这说明Qu 的这两篇重要论文对Liu 后来的系列研究具有重要影响,Liu也逐渐形成了自己的系列研究,且从研究的质量和数量上与Qu不相上下。
图7 Qu的两篇重要论文与Liu论文研究的关系Fig.7 The relationship between Qu's two important papers and Liu's research papers
合作学者和合作机构图的中间区域展现了与二者都合作过的学者和机构的情况,从图中可以看到,这部分柱状图的高度相对较高,说明二者的主要合作对象十分相似。
4.3 与AMiner学者画像的对比
AMiner 是一个基于GPT,Language Model,Human Feedback,CLIP, LLaMA 等技术的AI 赋能科技情报挖掘系统,提供学术搜索、论文检索、论文专利、学者画像、文献追踪等服务。
AMiner 学者画像提供了学者的简介、教育背景、工作经历等基本信息,总论文数量、总被引次数、H-index等基本学术指标,研究兴趣及其变化,以及论文清单、专利清单、合作机构清单、合作学者清单等详细信息,如图8所示。
图8 AMiner学者画像(Huamin Qu)Fig.8 Huamin Qu’s profile from AMiner
Aminer 虽然提供了全面、详细的学者信息,但是数值型指标、研究成果、合作信息的简单罗列只能提供表层的信息,不能够快速、高效地深入分析学者的学术影响力、系列研究、合作模式等特点,读者仍然需要自行综合这些信息进行分析才能清晰地梳理出学者的深层次研究特点。并且,AMiner不能提供两个学者的对比。
而TSPVS,将研究成果、研究兴趣、学术影响力、合作信息等通过时间维度有机整合,以时间为主线,自然地叙述学者的研究生涯,不仅可以呈现学者历年发表的论文及其影响力、合作机构、合作作者等常见的学者属性,还能通过论文之间的引用迭代关系快速了解学者的研究体系,通过简单的点击交互快速发现时序合作模式、高效挖掘学者代表作的主要合作对象。
综上所述,TSPVS 在对学者进行时序描述时能生动形象地呈现学者的重要特征和重大变化,较AMiner而言可以更高效、更深入地分析学者的学术水平、研究体系、合作模式等。
5 总 结
本文针对当前学者画像的相关研究不能在时间维度上综合呈现学者的论文数量、研究兴趣变化、研究兴趣的深度和广度等重要信息,且不能全面对比学者科研特征的异同等问题,提出了一种基于论文数据的时序学者画像可视化方法,以时间为主线突出表现了学者研究生涯中发表论文、研究兴趣、合作学者、合作机构等重要时序特征及其变化趋势,并且支持快速、直观地对比不同学者科研特征的异同点。在此基础上,实现了时序学者画像可视化系统TSPVS,帮助决策者快速、全面掌握学者研究的活跃性、稳定性、可持续性、合作模式等方面的特点,为最终决策提供信息支撑。最终,通过可视化领域论文数据集进行验证,用真实案例说明了该方法的实用性和有效性。
当然,本文还有一些不足之处有待深入研究。首先,本文所用关键词和主题为算法提取,如何更好地提取主题并让主题更符合人类认知仍将值得深入研究。其次,由于主题分布图中的主题呈线性分布,每一篇论文对应多个主题,因此,一个太阳图元的位置可以对应多种主题概率分布,这可能对确定论文主题有一定影响。本文通过交互以及设置主题和太阳图元的链接粗细来解决了这个问题,但是否可以通过算法来解决这个问题需要后续继续研究。最后,本文工作虽然在可视化领域的数据集上得到了验证,尚需要把数据集扩展到其他领域来验证我们方法的通用性。
利益冲突声明
所有作者声明不存在利益冲突关系。