近十年我国藏文信息研究的特征分布与热点分析
——基于CNKI核心期刊的文献计量及可视化分析
2020-11-12陈小莹艾金勇
陈小莹,艾金勇
(1.西藏民族大学信息工程学院 陕西咸阳 712082;2.西藏民族大学图书馆 陕西咸阳 712082)
一、引 言
藏文信息处理是中文信息处理的一个分支,是一门与计算机、语言学、信息学、认知心理学等领域相关的综合性学科,是计算机理论与技术在藏文文本上的处理技术,其主要处理对象是藏文文字,是推动藏区信息化建设的主要理论来源。随着国家对藏区信息化基础建设加大投入力度以及藏区经济的快速发展,藏区群众的信息化需求也大大提高,藏文信息研究进度也成为相关政府与社会各个层面高度关注的问题。针对信息化发展的整体需求,各研究机构和研究人员从藏文信息处理的各方面开展了一系列持续深入的多元化的研究。
随着藏区信息化发展的需求多样化和各种信息处理技术的持续推动,藏文信息领域研究者也需要根据当前藏文信息领域发展需求适时调整研究方向以适应这种变化,然而当前关于藏文信息领域研究情况总结分析的文章大都以文献综述的形式出现,缺乏对该领域研究内容和研究学者关系等关联特征进行直观性和全面性的梳理。基于此,本文计划通过社会网络分析理论结合信息可视化技术,对近十年(2009-2019)我国“藏文信息处理”领域的研究内容,以CSSCI期刊和中文核心期刊刊载论文为缩影,将不同形式的数据、信息、计量图形等作为研究对象,通过知识图谱的形式展示出藏文信息处理领域重点研究内容、各研究内容和对象之间关联情况及各阶段研究的热点主题,基于展示内容进一步分析揭示学科研究者之间的合作研究趋势和关注重点,以期对藏文信息研究领域未来的研究方向提供导向和信息支持。
二、数据来源与分析方法
(一)数据来源
领域核心期刊是学科发展前沿知识和重要观点发表的主要阵地,其基本能够代表学科领域的发展方向,而且对于学科发展具有较大的影响力,对于研究学科发展趋势具有一定的代表性[1]。因此本文分析对象为核心期刊论文,分析数据选定中国知网数据库,主要检索来自于EI来源期刊、中文核心、CSSCI和CSCD类别的期刊,搜索文献时间限定在2009-2019年,设定检索词为“藏文”or“藏语”进行文献查找,文献获取时间为2019年8月18日。将所有满足条件的文献属性导出后,首先针对关键属性信息不全、非学术类文献进行了删除,然后人工筛选并剔除非藏文信息研究方向的文献,最终得到高质量文献375篇。
(二)研究方法
本文利用excel工具对CNKI导出的375篇文献的题录数据进行整理,分别从文献的时间分布、核心作者分布及合作特征、发表期刊类型和机构分布特征等四个方面深入探讨。在挖掘获取文献的深层次信息特征基础上,基于社会网络分析软件UCINET软件和文献计量分析软件VOSviewer,综合运用社会网络分析和聚类分析等方法,通过作者和机构合作关系网络、领域研究关键词共现等视角展开分析,绘制完成领域核心研究者和研究机构的可视化知识图谱,从而揭示出藏文信息研究领域发展现状和研究进展,并最终实现对整个研究领域的发展特征和学科发展趋势的分析预测。
三、我国藏文信息研究的特征分析
(一)我国藏文信息研究的时间分布
在研究时间分布特征时,由于2019年文献统计仅仅只有半年,因此在论文数量统计时未计入其中,在2009-2018年间藏文信息研究领域共计发表高质量论文356篇,按年度节点升序排列结果见图1。
图1:2009-2018年间藏文信息领域研究文献年度分布统计
文献数量的年度分布特征展示该领域研究的历时特性,图1中线性回归趋势线表明,在2009年-2018年间我国藏文信息领域研究成果数总体来说保持增长趋势。图中可以看出在2015年藏文信息研究成果最多,这可能与藏文信息处理方向的博士点申请有关,在这一年关于藏文信息研究的成果最多达到58篇,2015年也是藏文信息研究领域成果的转折点,2015年之前的2009-2014年期间年均发文量为30篇,2015年之后三年间发文量较之前有所提升,年均发文量达到40篇。从图中也可以看出在藏文信息领域总体发文量不高,年发文量相对比较平稳发展。
(二)核心作者及合作特征分析
1、核心作者分析
通过对发文作者分析,可以了解藏文信息学科的主要研究者即为核心作者,作者研究成果数也基本能反映出作者在该学科的影响力。为精确找到藏文信息学科的主要研究者,本文对搜集的所有文献的所有作者进行整体分析,分析得知在2009-2019年间从事藏文信息研究的专家学者发表的375篇核心期刊文献,涉及作者449位,所有学者中成果最多的是于洪志,研究成果有24篇。
普赖斯定律指出:杰出科学家中一位最低产作者发表的论文数量,等于最高产科学家发表的论文数的平方根的0.749倍[2](P194)。依据此定律得到学科核心作者的最少成果数为m,m=0.749(Nmax)0.5,其中Nmax是学科领域最高产学者的成果数,因此藏文信息学科核心作者最低成果数取最大临近m的整数即为4,所以研究成果数在4篇以上的学者均为藏文信息学科的主要研究者,在2009-2019年间主要研究者有48位(见表1),约占作者总数的10.7%。
表1:2009-2019年间我国藏文信息研究领域核心作者信息
由表1可以看出,这些核心作者在统计区间内发文时间都是在2009年前后,研究持续时间长,因而在领域内有比较大的影响力。由统计结果分析,藏文信息领域的核心作者在2009-2019年间总发文量为257篇,发文总数为该领域所有核心文章数量的68.53%,该领域中10.6%的核心作者发表了超过一半比例的核心论文,这也符合美国著名的科学史学家普赖斯(Price D.S.)提出的论断,即为同一主题中约占10%的科学家在一生中所发表的论文数量集合占该主题下所有论文的一半[3]。这种现象表明在藏文信息研究领域已经形成了稳定的、具有实力的核心作者群,核心作者在该领域中研究持续时间长、发文量高、学术影响力较大。
2、核心作者的合作特征分析
对于筛选出的48位核心作者,根据作者之间合作的次数,构建表示作者合作关系的共现矩阵,然后将矩阵导入UCINET软件进行分析,最终得到藏文信息研究领域核心作者合作关系网络图(见图2)。
从合作关系网络图中可以看出,藏文信息研究领域作者合作关系存在4种典型的合作网络:(1)孤立型网络:即为与其他核心作者没有合作发文,从实验数据中发现共有7名作者属于这种情况。对于这7名作者在全部实验数据中分析发现,其与其他非核心作者存在合作情况,但是与核心作者之间无合作,这7名核心作者虽然也有较多研究成果出现,但是与其他主要研究者之间基本没有合作情况;(2)双核型网络:指两名作者之间合作发文单独形成的子网络。图中瞿霭堂和劲松两位作者合作形成双核型网络,且两人之间合作较为频繁;(3)核心型网络:这种网络中存在有一个或两个重要的节点,他们与其他的节点均有连接,是网络连通的核心节点。比如以龙从军为中心的6人合作团队,其他5人均与龙从军有过合作;还有以于洪志和何向真为核心的9人合作团队,于洪志和何向真与团队其他成员均有合作关系,两位作者之间也存在合作关系;(4)桥梁型网络:指多个子网络通过一个或两个节点连接起来,这些网络中不存在绝对的核心,所有的节点都不存在与其他节点完全连通的情况。如以格桑多吉、尼玛扎西、欧珠、珠杰、扎西加为代表的13人网络结构,格桑多吉是连接两个子网的关键节点。例如才让加、华却才让和孙茂松为代表的网络结构,该网络结构中才让加是连接两个子网的关键节点。
图2:2009-2019年间我国藏文信息研究领域核心作者合作关系网络图
进一步分析藏文信息学科核心作者合作关系图,发现存在以下问题:(1)各核心作者形成的团队之间合作程度不高,网络图呈现分散状态,各子网之间连通性不强,学科整体合作不够。(2)各子网内部学者合作程度也有较大差异。合作团队内部并不是所有作者都存在合作关系,在合作团队内部有些成员之间合作较多,有些合作较少甚至没有合作。例如,在以格桑多吉、尼玛扎西、欧珠、珠杰、扎西加为代表的合作团队内,高定国、多拉与团队其他成员之间没有合作关系,只与扎西加存在合作关系,而扎西加则同时与团队其他多个成员之间具有连接关系,可以看出,我国藏学信息学科核心成员之间合作程度不高,核心团队之间和核心团队内部都有潜在合作关系存在。
我国藏文信息研究领域核心作者合作网络图的合作密度仅为0.1746,这也从数据上证明藏文信息学科主要研究者之间合作程度不高,缺乏整体连通性,因此该领域研究者之间在将来的研究中具有很大的合作发展潜能。
(三)我国藏文信息研究发表期刊类型研究
期刊作为研究成果的主要载体,是学术成果交流的重要平台,某一领域核心期刊的文献是当时该学科领域研究状况的整体呈现,对发表期刊的分析,有利于了解该学科整体的发文分布情况。对藏文信息研究领域载文量排名前10位的期刊整体分析后发现,在计算机信息处理、民族类和综合学报类的核心期刊上发文数量较多,375篇核心文献刊载在84种期刊杂志上,载文量前10位的期刊发文量合计为231篇(见表2),占文献总量的61.6%,说明这类期刊是藏文信息研究成果的重要文献来源,也表明藏文信息学科文献发表的期刊范围较窄,且数量不多。
表2:2009-2019年间我国藏文信息研究文献发表的期刊(发文量10篇以上)
(四)我国藏文信息研究的机构分布特征
1、机构发文情况分析
期刊论文发文机构名称存在一级机构和二级机构等不同表述形式,而二级机构相对成果较少且种类较多,不具有可比性,因此统一处理署名机构为一级机构,处理方式主要包括以下三种:(1)所有机构名称均保留一级单位名称,剔除原有的二级机构名称;(2)对于同一机构的不同名称,统一以最近文献名称表示;(3)合作论文为同一机构,发文机构只写一个。
经过标准化处理后发现:在2009-2019年藏文信息研究领域核心文献作者来自于96家机构,其中有12家机构发文量在10篇以上,其中西藏大学发文71篇,青海师范大学发文60篇,西北民族大学发文57篇,中国社会科学院发文35篇,中央民族大学发文35篇,中国科学院发文28篇,上海师范大学发文18篇,西藏民族大学发文15篇,西南民族大学发文13篇,中国人民大学发文13篇,青海民族大学发文10篇,西南交通大学发文10篇。结果显示,发文机构中发文量10篇以上的机构中只有中国科学院和中国社会科学院为非高校机构,其他机构均为高校,且大部分为民族类高校或民族地区高校,这说明我国藏文信息研究仍以高校为主,他们是我国藏文信息理论研究的主体。
2、机构合作特征分析
图3:2009-2019年我国藏文信息研究机构合作关系网络图
图3是剔除仅有1篇文献的研究机构之后剩余机构之间合作关系的可视化表示形式,机构合作网络图密度只有0.1732,说明各机构之间合作程度也不高,从实验数据中发现有8家机构基本与其他机构没有合作关系,均是内部成员之间的合作关系,图中没有显示。其余各机构之间都有直接或间接的关联关系,这些机构之间以青海师范大学、西藏大学、中央民族大学和西北民族大学为连接点分别关联起来,其他机构相互之间的直接合作研究较少,但是有共同的合作者,这也说明这些机构是可以直接合作形成研究成果的,青海师范大学、西藏大学、中央民族大学和西北民族大学是藏文信息学科研究的主要机构。
四、我国藏文信息研究的热点分析
相关学科领域内的研究成果可以反映出该研究领域的发展轨迹,通过对于该领域主要成果的研究与分析,可以得到该学科领域中的研究主题,进一步探测分析该学科领域的发展动向和研究前沿问题。关键词作为能表达文献成果核心内容的重要属性,是论文主要内容的精炼描述,因此可以利用学科领域内的高频关键词分析该领域的研究热点。
(一)研究总体趋势
文中通过分析确定2009-2019年藏文信息研究领域的核心研究成果的高频关键词,根据各个关键词之间的关系,确定出藏文信息研究的热点领域和重要主题。首先利用endnote工具将从CNKI数据中导出的375篇文献的题录数据转换成VOS-viewer可以使用的RIS格式,然后在构建关键词共现视图时主要选择表意性较强的关键词,剔除如“算法”“特点”“总数”等指代不明、区分度不高的词语,此外,因为检索词为“藏文”和“藏语”,所以在构建关键词图谱时也剔除掉,同时针对“分词”和“藏文分词”“语音”和“藏文语音”等相似关键词进行了合并,最终得到关键词共现知识图谱(见图4)。
由图4可见,我国自2009年以来藏文信息研究围绕“汉藏语”“语音”“分词”“中文信息处理”“藏文信息处理”“语言接触”等关键词围绕藏语的语音、语法、文字展开全面、多维度的研究。总体而言,藏文信息研究是在全国网络化、信息化以及智能化发展的推动下,由用户需求为主导的藏族文化社会生活中所涉及的语言文字各方面的综合性研究。藏文信息研究领域的热门关键词分布特征表明,出现5次以上的关键词有25个,这些关键词包含有语言接触、语音、音节、词语、语料库等藏文信息处理的多种研究视角,这些也表明藏文信息研究者围绕藏文信息处理开展了多层次多元化的综合性研究(见表3)。
表3:2009-2019年我国藏文信息研究关键词分布特征(频次5次以上)
图4:2009-2019年我国藏文信息研究关键词共现知识图谱
(二)热点主题分析
将关键词共现知识图谱与文本密度图谱结合分析后,发现关于藏文信息研究主要可以分为四个不同主题:藏语支语法特征主题、藏语语音特征和语音工程的实现方法主题、藏文文本单元的分析处理主题、藏文文本处理其他主题。围绕这些核心主题,藏文信息学科学者开展了多方面多角度的综合性研究。
1、藏语支语法特征的分析研究
“藏语支”的词频数为9,与“藏缅语”“汉藏语系”“同源词”等相关关键词共现。这一主题关注的是藏语语言的发展演变轨迹和特有的语言现象方面。例如对于代词化语言这一中国藏缅语言中具有明显语法结构特征的语言现象的研究,通过对代词化语言类型学方面的探讨,确立了代词化和代词化语言在语言识别、方言划分等方面所起的区分作用[4]。在研究语言特点的同时,也对于各种语言现象的演变情况以及结果进行了调查研究[5],以及同一语系之间语言接触对于语言发展的影响情况研究[6],这些都是研究藏语语言特征的重要基础数据,这些研究旨在揭示不同语系在发音、语法上的发展规律以及藏语在与同一语系其他语言融合发展时,其语音、语法甚至在语义上受到的影响,开展藏文信息研究的时候,提前了解藏语所在语系其他语种对于藏语语言本身的影响有利于更好的分析揭示藏语语音、语法的特征变化。
2、藏语语音特征和语音工程的实现方法研究
“语音”作为这一研究主题的核心词汇,词频为11,与“元音”“辅音”“声调”“安多藏语”“语言接触”等关联关键词共同出现,这一主题关注点都是围绕藏语语音展开的。既有利用实验语音学对于藏语方言区声学特征的研究分析[7][8],也有关于建立用于藏语语音工程的语料库的方法研究,例如针对藏语声纹识别和藏语口语的语料库建设方法的研究[9][10],更多的研究是关于藏语语音工程的,例如利用神经网络实现语音合成和语音识别的方法研究[11][12],基于语音转换技术结合面部表情实现的手语到情感语音转换方法的研究[13]。这表明当前藏语语音研究重心在于语音工程的实现上,其他的处理基本上都是特殊语音现象的新分析方式的研究,在藏语语音工程中也呈现出多角度多方法的实验研究。
3、藏文文本单元的分析处理方法研究
藏文篇章分析研究的重要基础是藏文音节和词条的分析,因此在2009-2019年间藏文信息研究者们也对藏文的音节和词条的分析处理展开了多方面的研究,在这一主题上的核心词汇为“分词”,词频为15,其与“拼写检查”“格助词”“藏文音节”“词性标注”“自然语言处理”等关联关键词共同出现,在这一主题中研究的基础是对于文字的研究,在音节处理方面,由于小字符集藏文输入法的推广,使得藏文的拼写检查成为藏文文字处理的第一步,因此部分研究者主要开展的是藏文拼写检查的研究,珠杰等人以藏文语音特性建立的字组织法为依据,构建了基于藏文音节规则模型(TSRM)的藏文音节拼写检查算法[14],色差甲等提出利用音节向量化的方法构建CNN模型,然后在模型训练的基础上实现藏文拼写检查[15]。此外,针对藏文分词中出现的各种问题也进行了研究,例如针对藏文文本中存在的紧缩格现象,提出了基于规则、添加还原法与最大熵模型相结合的藏文紧缩格识别处理方法[16];在藏文人名的识别处理上,提出利用条件随机场算法结合藏文人名的内部特征、上下文信息、并列关系特征进行藏文人名识别算法的研究[17]。在藏文分词方法上也有很多新方法的融入,例如李博涵等采用多种深度神经网络模型,在以法律文本、政府公文、新闻为主的分词语料中完成了藏文分词测试[18]。藏文音节的处理主要集中在藏文音节结构的判别上,这是因为当前操作系统中虽然可以实现藏文输入,但是在藏文输入时只是各种构件的简单组合,并未考虑藏文字性组织法要求,这就可能造成输出结果的不唯一性,甚至出现错误的文字,所以近几年关于这方面的研究相对较多。而对于藏文词条的研究则重点关注了各种新方法应用于藏文分词、词性标注等词条处理的各个方面。这也说明了在藏文信息处理的基本任务-藏文音节和藏文词条的处理上,研究者对于当前的处理结果依然不太满意,研究者们依然在不断进行细节的完善,相关研究技术依然不太成熟。
4、藏文文本处理其他主题的研究
藏文文本处理其他主题研究的主要词汇是“中文信息处理”“藏文信息处理”“语料库”等内容,其中“中文信息处理”作为关键词进行的研究主要是早期关于藏语文本语句等方面的综合性处理方法的研究,当时关于藏文信息处理的研究刚刚开展,各项研究都是基于中文信息处理的方式方法来开展的。而“藏文信息处理”作为关键词主要是针对藏文文本语义关系的分析、藏文web文本的资源挖掘处理、藏文文本的表示、藏文网页文本的自动分类等方面开展了系列研究,是针对藏文信息研究过程中遇到的具体问题针对某方面开展的系统性的研究,“语料库”作为关键词进行的研究集中在藏语语料库的建设加工、标记以及内容描述等方面。
五、结 语
本文通过藏文信息学科的发文量的可视化分析,发现藏文信息学科研究成果整体呈现稳定增长趋势,在计算机信息处理、民族类和综合学报类核心期刊上发表该学科文献较多,在学科主要研究者之间已经形成了有较多合作关系的小团队,但是各团队之间连通性较差,团队内部成员合作程度也不高,呈现出研究机构内部合作较多,跨机构学科研究合作较少,从而导致各团队研究主题不明确,研究内容相对宽泛,研究深度不够,且研究成果分享程度不高,不利于成果的转化使用。
同时经过分析也发现,藏文信息研究者围绕各种新技术新需要形成了大量的研究成果,通过引入大量新概念及方法对于藏文信息研究展开了全面深入的研究,这些显示出国内学者在藏文信息研究领域的热情,藏文信息等相关研究领域已成为我国少数民族信息化推动者和关注者研究的重点课题并且持续升温,但是藏文信息学科领域整体上仍存在研究主题太过宽泛、新技术新方法应用较少、基础研究相对薄弱、学科研究体系不完善等问题,需要藏文信息研究者要不断发现和关注新的研究主题和发展趋势,加强研究者之间和研究机构的合作共享,完善学科研究体系,共同探索藏文信息研究与民众需求、新型技术和方法紧密结合的有效路径。