学术信息服务平台的研究与设计
2012-11-14李建国毛承洁
李建国, 毛承洁,2*, 刘 晓, 梁 茹
(1.华南师范大学计算机学院,广东广州 510631;2.澳门科技大学行政与管理学院,澳门 000853;3.广东省生产力促进中心,广东广州 510070)
学术信息服务平台的研究与设计
李建国1, 毛承洁1,2*, 刘 晓1, 梁 茹3
(1.华南师范大学计算机学院,广东广州 510631;2.澳门科技大学行政与管理学院,澳门 000853;3.广东省生产力促进中心,广东广州 510070)
提出了建设学术信息服务平台的构思,该平台采用分层架构,数据层从互联网采集学术信息,对其进行清洗和存储,识别学术实体,分析学术关系,形成学者社会网络;应用层提供学者空间服务、学术信息语义描述、开放的Web服务接口和学术信息检索功能;协作层为学者交互团队合作提供基础服务.重点阐述了学术信息的采集、学术关系的分析和论文推荐等关键问题.
学术信息; 信息提取; 论文推荐; 学者社会网络
近年来,国内高等院校和研究机构的科研活动日益活跃,被SCI、EI和ISTP索引的论文数量和质量不断提升.论文、著作、专利及科研项目等学术信息越来越多,对学术信息本身的研究及相关应用引起了广泛的关注.学术信息,尤其是各类文献的存储、管理与检索及文献影响力的研究越来越多[1].以中国期刊网为代表的传统学术信息系统以文献为中心,提供学术资源,具有数量大、信息全、引用关系明确的特征,通常以学科分类文献,并提供有偿下载服务.传统文献数据库种类繁多,系统之间在内容上存在重复.谷歌、微软等抓取Web学术信息,建立学术搜索引擎,其中Google Scholar深受科研工作者的欢迎.随着互联网社会化的发展,社会网络的兴起,区别于传统文献数据库,新一代学术信息应用系统更加关注学者,以学者为中心的学术信息应用系统出现,其中以Arnetminer、C-DBLP和科研之友等为代表.清华大学唐杰创建的Arnetminer学术搜索系统提供学术社区搜索和挖掘功能,可以根据关键词找到专家、论文和会议,推荐期刊审稿人,发现关联关系等[2].C-DBLP系统建立一个以作者为中心来展示计算机类中文文献的集成数据库系统,从而为用户提供权威的论文数据和方便的查询服务.科研之友是统一的科研管理工具与机构知识库,是科研人员的社会网络服务社区,用于收集、协作、分享科研资源及提交研究进程与成果.Newman长期从事学术信息的理论研究,他从论文的合著关系入手,对来自数据库MEDLINE,NCSTRL等的论文集进行分析,统计了作者数量、平均论文数、合著者数量等,发现了科研合作网中合著者之间的聚类关系,分析了科研合作网的结构[3].
本文结合科学研究的特点,提出建立学者社会网络(Scholar Oriented Social Network, SOSN)的思路,研究社会网络和文献管理,建立学术信息服务平台.它是一个面向科研工作者,基于学术关系的综合性信息服务平台,为科研工作者提供学术信息管理、检索和社会网络等一体化的服务.
1 学术信息采集与学术关系
平台从互联网采集学术信息,对学术信息进行清洗,存储在分布式数据库系统中,识别学术实体并分析学术关系,形成学者社会网络.图1是平台的基本工作流程.
图1 工作流程Figure 1 Workflow of information collection
1.1 学术信息源
学术信息服务平台采用信息提取技术抓取Web中的学术信息,其主要信息来源于互联网[4].学术资源与各种不同的Web资源掺杂在一起,系统有针对性地从Web数据源提取学术信息,主要的数据源有万方数据库、中国知网、微软学术搜索、DBLP和谷歌学术搜索等.
1.2 数据抓取与存储
Nutch是一个优秀的开源搜索引擎框架,建立在Hadoop分布式系统上,它提供一个优秀的插件机制,平台通过编写插件来扩充其功能,开发HtmlParseFilter插件,获取互联网上的学术信息,将具有学术信息的网页转化为文献对象,整合后存入HBase数据库.在获取文献的过程中,关键问题是如何存储、修改以及检索提取的文献.由于HDFS擅长存储的是大文件,并不能很好地处理文献资料这样的小文件,因此平台将提取的文献资料存入到HBase数据库中,有效地解决了这个问题.Hbase建立在Hadoop框架基础上,是一种半结构化、基于列的分布式数据库,可以处理上亿条记录,表中每一行数据拥有一个键值和任意数目的列.在定义列族后,可以在使用过程中随时添加新列而无需修改表的结构,这个特点对于学术搜索尤为适用.最后,建立了一个索引器HBaseIndexer,为存储在HBase中的文献资料生成索引,提高检索效率.
1.3 数据清洗
在文献资料从抓取到存储的过程中,由于Web信息存在误差与冗余,在存入HBase数据库之前需要对提取的学术信息进行整合[5].学术信息的元数据,即文献的各个域,主要是题目、摘要、作者、出处、索引、页码、出版日期及全文链接等.根据各个域的不同特性,把文献属性分为3类:
(1)标志性属性:区分2条文献是否相同的标志性依据,如果这类属性的值不同,可以认为文献资料是不同的2条文献,如标题就是论文的标志性属性.
(2)单值属性:仅具有不可拆分的一种正确的值,如果2条文献的单值属性都不是空值并且值不相同,那么最多只能有一个值是正确的,如发表刊物、发表时间等.
(3)多值属性:这类属性的值可以分为多部分,如论文的作者、关键字、参考文献等,融合这类属性时,需要将2条文献的值组合到一起.
1.4 实体识别与关系分析
在信息抽取领域中,有效识别实体是正确理解文本的基础,关系被看作2个实体在一段时间或空间范围内的某种联系.实体识别与关系分析对学术信息服务平台中一项重要的基础性研究.在数据采集过程中,主动识别学术实体并分析学术关系,形成一个学术圈的复杂社会网络.在这个复杂社会网络中存在多种不同类型的实体,可以概括为:学者、学术作品和学术团队.学术实体间存在复杂的关系,包括学者与学者之间的关系,如合著关系,学者与学术团队之间的隶属关系,学者与学术作品间的拥有关系,还有学者与项目之间的主持或参与关系等.
在面向学者的复杂社会网络中,重点关注作者(Ai)、论文(Pi)和期刊(Ji)三类实体.对数据库中的每一条文献记录进行文本处理,识别以作者姓名、论文题目和期刊名为标志的实体,并保留3类基本关系:作者与论文的拥有关系(AP)、论文与期刊的来源关系(PJ)和论文之间的引用关系(PP),其他复杂关系可以由上述3类基本关系演算获得,减少了存储冗余.
(1)合著关系CoA=AP*APT,其中CoAij表示作者Ai与Aj的合著次数,当i=j时,CoAij表示作者Ai发表的论文数.
(2)作者论文引用关系AcP=AP*PP,其中AcPij表示作者Ai引用论文Pj的次数.
(3)作者期刊发表关系AJ=AP*PJ,其中AJij表示作者Ai在期刊Jj发表论文的次数.
2 基于领域认知度的论文推荐
论文推荐是平台要解决的核心问题,平台实现了基于领域认知度的论文推荐算法.首先根据论文所属领域进行分类,然后计算作者对研究领域的认知度,通常领域相近的作者为目标论文预测评分,进而实现论文推荐.算法中主要符号有:A={a1,a2,…,am},作者集;P={p1,p2,…,pn},论文集;R={R1(1),R1(2),…,Rm(n)},评分矩阵;K={k1,k2,…,kv},研究领域集.
2.1 领域认知度计算
在日常生活中,如何评价一个事物常取决于这个事物对我们的影响力,也就是说,与接触这类事物的程度有关,在本文中称之为认知度.在论文分类的基础上,可用下式计算作者对每个领域的认知度:
(1)
其中Ta(k)表示作者a在k领域发表的论文数,Ta表示作者发表的论文总数,Ca(k)表示用户a对k领域的认知度.显然,一篇论文可以同时属于多个不同的研究领域,认知度的值介于0和1之间.
2.2 选择相似学者
根据计算得出的作者领域认知度,可以为目标作者选择领域相似的作者集.根据研究领域,把论文集分成了V个论文类,因此在为目标作者选择相似作者的时候,要为其选择V个对应的相似作者集.目标作者a的第k类的N个最相似作者必须满足以下条件:
Nmin|Cm(k)-Ca(k)|}.
(2)
2.3 推荐论文
在为目标作者选择相似作者集之后,就可以为目标用户的未评分项目预测评分.首先找出目标论文所属的研究领域(假设有G个),然后利用目标作者a和相似作者m的认知度计算作者相似度:
Sima,m(k)=1-|Cm(k)-Ca(k)|,
(3)
其中Sima,m(k)表示目标作者a和相似作者m关于k领域的相似度.显然,作者间的认知度差值越小,相似度就越大.在得到目标作者的G个相似作者集后,通过加权和方法,利用相似作者进行论文评分预测:
(4)
其中t表示需要进行评分预测的目标论文,Rj(t)表示相似作者j对t的评分,Ni表示对目标论文进行过评分的i领域相似作者的数目.
3 体系结构
学术信息服务平台采用分层架构,功能集中于数据采集、在线应用与协同协作等3个方面(图2),下面重点介绍平台的特色功能.
图2 分层体系结构Figure 2 Layered architecture
采集学术信息后,平台基于数据集为科研工作者提供了各种应用服务,包括学者空间服务、学术信息语义描述、开放的Web服务接口和学术信息检索.
3.1 学者空间服务
科研工作者注册为平台用户,获得了学者空间及空间提供的各类学术信息服务,如图3所示.学者空间作为个人的学术助理,可以维护用户的学历学位、研究领域、学习工作经历和联系信息等基本信息,管理论文、著作、项目和知识产权等学术信息和其他信息.学术网盘功能可以维护各类学术信息的相关附件,导出简历则方便用户生成通用格式的简历(Word与PDF格式),便于用户保存或迁移个人学术信息.在学术信息管理的基础上,用户定制代表论文、代表项目等,生成个人学术主页,展示其学术成就.空间还针对不同类型用户(学术型与教学型)开发了不同的主页模板,用户根据需求可以自主选择.
图3 学者空间Figure 3 Space of scholar
3.2 学术信息语义描述
为丰富的学术信息提供统一的表示方式是一个悬而未决且充满挑战性的问题.FRBR模型是国际图书馆联合协会制定的表示文献记录的ER模型,MarcOnt本体为描述图书馆资源而创建,提供了一种文献描述的统一格式.FOAF项目是一个描述用户及网络中人与人之间关系的语义网项目,在网络中最基本的主体就是网络用户,而用户依赖的就是社区,FOAF可以是组成社区的基本元素.在研究FRBR模型和MarcOnt本体的基础上,借助扩展FOAF描述学者社会网络关系,将语义网技术应用到学术信息服务平台,分析学者、学术作品、学术团队的特征及关系,建立面向学者的社会网络领域语义模型,描述学术实体、对象以及实体间的关系,创建SOSN本体,并用RDF语言实现.SOSN本体解决了平台中学术信息元数据的语义差异和结构性差异问题,有助于我们对学者和他们所拥有的学术资源的理解,并提供了与其他平台互操作的可能性[6].
3.3 Web服务接口
REST架构将系统中所有事物抽象成资源并赋予其唯一资源标识符,我们采用REST框架按需定义接口,实现通用服务接口,对外界提供各种资源服务.REST架构具有可寻址性、无状态性、连通性和接口统一性等4个基本特征.这些特征保证了系统集群时不受会话复制的约束,提高了系统的伸缩性,简化了服务的开发和描述,而且在系统集成时可以实现服务的发现和自动匹配.为了有效管理Web服务接口,我们建立了Web服务资源管理中心,负责用户审核与资源管理.用户在资源管理中心注册并通过管理员审核后,可以有选择地定制学术信息.管理员除了负责用户审核外,主要负责Web服务接口的定义、发布、分类和授权.通过资源管理中心,第三方应用,如科研机构网站、学校科研统计系统、单位教师风采栏目等,可以在获得授权的前提下使用平台的学术资源,提供了一种学术信息在线服务模式.目前这种在线服务模式已在华南师范大学计算机学院网站和广东服务计算工程中心网站进行了应用验证,学者只需在平台维护个人学术信息就可以在不同应用中同步数据.
3.4 协作层
协作层为学者交互团队合作提供了各类功能,包括在线交流、论文分享、社会网络服务[7]和科研群组.在协作层,用户根据研究领域、合著关系等建立学者间的连接,用户可管理连接的名称、可见性等,并通过连接的传递关系,查看其他学者的个人学术主页,形成一个学者社会网络.联系密切长期合作的学者可建立学术团队,管理共同的论文、著作等,建立团队主页,展示团队的科研成果.利用社会网络分析的方法分析学者社会网络,根据研究兴趣、研究领域或社会关系划分科研群体,发现研究热点,推荐学术信息,并重点关注科研群体的形成、演化及科研过程中的协作机制.
4 结束语
有效的管理并获取学术信息为科研工作者提供了极大的便利.本文研究了各类文献管理与搜索系统,建立了学术信息服务平台,重点研究了平台的分层体系架构,并详细阐述了学术信息采集、学术关系分析和论文推荐等核心问题.目前,平台已进入正式运营阶段,如何提高平台稳定性,改善平台友好性并为科研工作者提供个性化的学术信息服务是今后要重点研究与解决的问题.
[1] 胡俊荣, 翁佩萱, 陈兆平. SCI与SSCI 收录华南师范大学学术论文的统计与分析[J]. 华南师范大学学报:自然科学版, 2004(2): 128-133.
[2] TANG J, ZHANG J, YAO L M, et al. ArnetMiner: Extraction and mining of academic social networks[C]∥Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2008, 990-998.
[3] NEWMAN M. The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences, 2001, 98(2):404-409.
[4] SALVATORE C. Crawling facebook for social network analysis purposes[J]. Computing Research Repository, 2011, doi:10.1145/1988688.1988749.
[5] 陈国华,汤庸,彭泽武,等. 基于学术社区的学术搜索引擎设计[J]. 计算机科学,2011, 8:171-175.
[6] LI J G, ZHAO G S, RONG C M, et al. Semantic description of scholar-oriented social network cloud[J]. The Journal of Supercomputing, 2011, doi:10.1007/s11227-010-0550-8.
[7] BOYD D, ELLISON N. Social network sites: Definition, history, and scholarship[J]. Journal of Computer-Mediated Communication, 2008, 13(1):210-230.
ResearchandDesignofAcademicInformationServicePlatform
LI Jianguo1, MAO Chengjie1,2*, LIU Xiao1, LIANG Ru3
(1.School of Computer, South China Normal University, Guangzhou 510631,China; 2.School of Management and Administration, Macau University of Science and Technology, Macao 000853, China; 3.Guangdong Productivity Center, Guangzhou 510070,China)
This paper presents the idea of the construction of academic information service platform. The academic information service platform uses a layered architecture. The data layer collects academic information from the Internet and then cleans and stores them, identifies academic entities, analyses academic relations and forms the scholar oriented social networks in the end. The application layer provides scholars space, semantic description of academic information, open Web services interface and academic information retrieval functions. The collaboration layer provides basic services for communication of scholars and teams. The paper also focuses on three key issues: the acquisition of academic information, analysis of academic relationship and paper recommendation.
2012-05-01
国家自然科学基金项目(60970044);国家科技支撑计划项目(2012BAH27F03);广东省科技计划项目(2011A091000036);华南师范大学青年教师科研培育基金资助项目
*通讯作者,maochj@qq.com
1000-5463(2012)03-0051-04
TP391
A
10.6054/j.jscnun.2012.06.011
Keywords: academic information; information extraction; papers recommended; scholar oriented social networks
【责任编辑 庄晓琼】