人大复印报刊资料《统计与精算》2014—2019年转载情况的文献计量分析
2020-12-22车明佳
张 皓,车明佳
(中国人民大学 a.书报资料中心,b.统计学院,北京 100872)
一、引 言
统计学自改革开放以来取得了快速发展,特别是在晋升为一级学科以后,更是成为了显学,不仅有近百所学校开设了相关专业,统计方法也在科学研究中得到了广泛的应用。作为新中国最早从事人文社会科学文献搜集、整理、编辑、出版的学术信息资料提供和服务机构,中国人民大学书报资料中心编辑出版的复印报刊资料系列刊在中国人文社会科学学术研究和高等教育繁荣发展的进程中做出了特殊贡献。复印报刊资料《统计与精算》于1984年创办,最初的名称是《统计学、经济数学方法》,2001 年改为现刊名,沿用至今。该刊定位在应用统计方向,侧重社会经济统计,意图在办刊中体现中国人民大学的特色—精选有关国民经济核算、收入分配统计、人口统计、产业统计、生物与医疗卫生统计、环境与生态统计等领域的文章,兼收风险管理与保险精算的内容,秉持“学术为本,为教学科研服务”的办刊宗旨及“精选千家报刊,荟萃中华学术”的编辑方针,忠实记录中国应用统计学的沿革与发展。复印报刊资料《统计与精算》以研究内容是否具有创新性、论证是否完备、对社会发展进步产生的推动作用的大小、论题的复杂程度和资料收集处理的难易程度为遴选依据,始终保持了较高的学术水准及较广泛的社会影响力,日益受到学术期刊界、教学科研机构和广大人文社会科学工作者的广泛关注和高度重视,成为各类学术评价的重要依据之一,对促进中国统计学学术期刊发展和学术传播、推动学术繁荣发挥了重要作用[1-3]。
随着移动互联网的发展和数据科学的成熟,以知识图谱为代表的人工智能技术,因为拥有强大的显示科学知识的发展进程与结构关系的功能而被广泛使用,特别是用来观察某个领域的研究趋势或动向,并以可视化的方式呈现。为了展示统计与精算学科的演进路径,本文通过对《统计与精算》杂志近6年转载情况的分析,呈现该刊的特点和该领域的研究热点、重要学者和研究机构,回应各界对复印报刊资料的关切。
二、数据来源和研究方法
本文所采用的分析数据来源为复印报刊资料《统计与精算》2014—2019年所收录的372篇全文转载文章的文本数据(剔除1篇从报纸上转载的文章),包括标题、摘要、关键词、作者信息、正文内容等。通过对转载的高质量论文的全文进行词频分析,探究统计与精算学科近6年总体的研究热点;同时利用论文的标题、摘要、关键词等的共词信息,使用文献计量学Citspace 5.7R1软件进行科学知识图谱的可视化,深入分析统计与精算学科的知识结构与研究趋势的变化;并结合统计与精算学科论文作者的科研合作网络,揭示此领域内学术合作关系的规律。
三、数据分析
(一)文章类型与来源
《统计与精算》2014—2019年共转载文章372篇,索引文章9448篇。其中,2014年转载文章60篇,索引文章1861篇; 2015年转载文章67篇,索引文章1 660篇;2016年转载文章69篇,索引文章1 361篇; 2017年转载文章61篇,索引文章1 475篇;2018年转载文章58篇,索引文章1 559篇;2019年转载文章57篇,索引文章1 532篇。年均转载文章62篇,索引文章1 575篇,转载比例3.95%。
从转载的文章的内容分类看(见图1),有关风险管理与精算的文章74篇,占19.89%;有关经济统计的文章64篇,占17.20%;有关国民经济核算的文章62篇,占16.67%;有关人口统计的文章47篇,占12.63%;有关理论与方法的文章39篇,占10.48%;有关公共部门统计的文章36篇,占9.68%;有关社会发展统计的文章18篇,占4.84%;有关环境与生态统计的文章17篇,占4.57%;有关学科建设的文章15篇,占4.03%。
从转载文章的长度来看(见图2),2014年转载文章的平均长度为15 713字,2015、2016年较为稳定,但2017—2019年的平均长度分别为17 754、18 600、17 963字,虽然原发刊文章的平均长度提升,但长篇幅文章字数呈缩减的趋势。
图1 《统计与精算》2014—2019年转载文章分类图
图2 《统计与精算》2014—2019转载文章字数图
从转载文章的来源看(见表1),2014—2019年《统计研究》共转载文章64篇,占17.20%;《数量经济技术经济研究》转载51篇,占13.71%;《数理统计与管理》转载25篇,占6.72%;《保险研究》转载20篇,占5.38%;《统计与信息论坛》转载19篇,占5.11%;《经济学动态》转载10篇,占2.69%;《经济研究》《中国农村经济》各转载9篇,分别占2.42%;《农业技术经济》转载7篇,占1.88%;《统计与决策》《中国工业经济》《人口与经济》各转载6篇,分别占1.61%;《经济学》《管理世界》各转载5篇,分别占1.61%;《经济统计学》《劳动经济研究》《中国管理科学》《调研世界》《山西财经大学学报》分别各转载4篇,各占1.08%。转载4篇以上的刊物共计19种,共转载文章262篇,占全部转载文章的70.43%。其中,6本统计类专业期刊(含集刊)共转载122篇,相关学科期刊共转载71篇,二者所构成的泛统计类期刊占比为51.88%;非统计类期刊为179篇,占比48.12%。
从以上的数据可以看出,第一,作为一本定位于应用统计的学术期刊,《统计与精算》杂志收录的文章主要是有关经济统计、国民经济核算、人口统计和风险管理与精算方面的内容,纯理论的文章较少,且以研究动态为主。第二,来源刊发文长度呈增加趋势,较短和较长篇幅文章均向中篇幅文章靠拢。第三,该刊转载的文章,专业刊和非专业刊比例大致相当。这是因为,首先,统计类专业期刊如《统计研究》《统计与信息论坛》《数理统计与管理》等,文章质量普遍较高,作为《统计与精算》杂志的重要来源刊,长期稳定地为该刊供稿,是刊物质量的保证。其次,相关学科的期刊如《数量经济技术经济研究》《保险研究》,也为该刊提供了大量优秀的文章,是刊物内容的重要支撑。再次,一些非统计类期刊如《经济研究》《农业技术经济》等,也刊登了大量运用统计方法进行研究分析的文章,无论是数据的获取以及处理,还是统计模型的采用,都体现出较高的水平,因此被该刊广泛选用。
表1 《统计与精算》2014—2019年转载文章来源
(二)知识图谱
1.研究热点
基于2014—2019年转载文章正文的文本,使用统计与精算学科词汇词典分词并去除停用词后,计算各词语在每篇文章中出现的词频(TF)与所有文章中包含该词语的逆向文件频率(IDF),用两者的乘积TF-IDF作为各文章中的词语的权重。在剔除单个词语后,计算各有效词语在所有文章中的TF-IDF权重之和,以此作为各词的重要程度的度量,避免了直接使用词频导致的对某些常用但意义不大的词语的重要程度的过高估计。在此结果上对统计与精算学科研究领域的整体热点与分类热点进行可视化。
(1)整体研究热点
利用TF-IDF对统计与精算学科的整体研究热点进行关键词抽取,从图3的前100个研究热点词云图中可看到,研究热点集中在排放、家庭、农民工、核算、风险、CPI、贫困、收入、企业、教育等话题。
图3 统计与精算学科2014—2019年整体研究热点图
(2)分类研究热点
《统计与精算》杂志在常设栏目之外,每年还会策划1—2个专题,聚焦经济社会和学科发展中的重要问题,如“大数据时代下的统计学”“全要素生产率研究”“农村社会变迁”“CPI研究”等。为对《统计与精算》转载的有关统计类和精算类的文章作分类别的研究热点分析,本文按栏目和专题把转载的文章进行归类,且在研究分类的热点时选择出现文章数大于4篇的词汇。
结合刊物定位,将CPI研究、全要素生产率研究、公共服务均等化、农村社会变迁、经济增长方式转型、产业活动统计、人口与人力资源统计、住户活动统计、公共部门统计、农业统计、国民经济核算、宏观经济分析、对外经济统计、收入分配统计、环境与生态统计、社会发展统计、医疗卫生统计、空间统计、比较与借鉴、学科建设、综论、产业活动统计(工业统计)划分为社会经济统计类别,合计文章251篇,占比67.47%;大数据时代下统计学、大数据时代下的统计学、理论与方法、研究动态、金融统计、金融统计(数理金融)等划分为数理统计类别,合计文章47篇,占比12.63%;保险精算、风险管理划分为风险管理与精算类别,合计文章74篇,占比19.90%。社会经济统计类、数理统计类和精算类的研究热点(见图4)。
社会经济统计的研究热点集中在排放、家庭、农民工、核算、贫困、教育、收入、生产率、贸易、出口、增加值、企业、CPI、要素、支出上;数理统计的研究热点集中在关键词、搜索、估计量、统计学、季节、CPI、预测、网络、算法、抽样框、互联网、空间、惩罚、贝叶斯、异常值上;风险管理与精算的研究热点集中在风险、Copula、死亡率、索赔、长寿、灾害、预测、保险、损失、违约、跳跃、利率、银行、VaR、巨灾,各热点词的词频、出现文章数、TF-IDF信息(见表2)。
图4 社会经济统计、数理统计、风险管理与精算学科Top15研究热点图
表2 社会经济统计、数理统计、风险管理与精算学科Top15研究热点词信息
2.学科知识图谱及演化
本部分利用自然语言处理的方式从文章的标题、关键词、摘要中提取所有文章的名词性术语,并利用词语的共同出现情况生成《统计与精算》近6年转载文章的主题共现网络(见图5)。由于用于分析的文献数量较少,如果按照年份划分成不同时间切片会导致结果较为稀疏,所以只分成一个时间切片进行整体的分析。在对主题词进行聚类并从关键词中提取聚类名称作为研究热点后发现,近年来统计与精算领域的研究热点主要集中在:
地方政府竞争:主要涵盖投资竞争、城乡收入差距、人力资本、假设检验、劳动收入占比、资本深化、财政分权、农村劳动力迁移等方向,该类的文献较早年份为2013年。
全要素生产率:主要和规模效应、生产前沿法、投入产出分析、增长核算、引力模型、能源消耗、空间杜宾模型、产业结构、结构效应、gvar模型等共同出现,该类文献较早年份为2014年。
经济增长:主要和ces生产函数、要素分配参数、技术进步、基尼系数、问卷调查、收入差距、经济禀赋、官员特征、收入分配、公共支出、居民幸福感、偿付能力、技术进步等共同出现,该类文献较早年份为2014年。
住户调查:主要和固定资产投资、统计改革、金融生态、系统动态、公共服务、收入差距、资金流量账户、资金流量分析、统计外收入、保险消费等共同出现,该类文献较早年份为2015年。
大数据:主要和互联网大数据、政府统计、应用路径、动态因子模型、大数据计算机、数据质量、收缩估计、统计学理论、机器学习、创新应用、门限回归、动态因子模型、CPI舆情指数、混频数据回归等共同出现,该类文献的较早年份为2015年。
DEA:主要和国际贸易、技术溢出效应、非竞争型投入产出模型、时空演变、农业全要素生产率、中国县域、生产效率、技术发展、渠道分析、装备制造业等共同出现,该类文献的较早年份为2014年。
分位数回归:主要和驱动因素、LMDI、结构变动、位置坐标、单位名录库、地理信息、AR模型、动态VAR、渐近正态、WCQR估计、驱动因素等同时出现,该类文献的较早年份为2014年。
其他的研究方向如长寿风险、贸易增加值等因共现词的出现频率较低故不在此展开。
图5 主题共现分析图
从图6的主题时间线可以看到,随着时间的演变发展,2013—2014年学者主要在投入产出、收入、经济增长、能源消耗等如何对经济发展进行评价等统计问题及偿二代等精算问题中展开多层次的研究,而2015—2016年随着大数据、互联网及多种类型数据的普及,数理统计的方法如分位数回归、半参数估计、空间面板模型等数理统计问题也开始焕发活力,与此同时,经济问题开始集中在全要素生产率、技术进步等问题的研究上,并开始拓展到如何与新时代的变化进行结合的统计分析,2017—2018年研究热点主要集中在数据质量、时空演变、收入分布等问题。
图6 主题时间线图
3.科研合作网络
为发掘各机构的学者及研究者之间的高效科研合作模式,本部分从机构与个人两个层面深入研究统计与精算领域的网络合作关系,并对其中有较高影响力的机构或学者进行展示,从而反映学科当前发展的科研合作特点。
对各转载论文作者的机构进行合作网络构建(见图7)后,发现445个研究机构中,64个机构为独立研究性机构,其他的381个有合作的机构中的平均合作机构数为1.63,且转载篇数较多的机构均选择与其他机构合作的方式进行创新,如中国人民大学统计学院、中国人民大学应用统计研究中心、厦门大学经济学院、山西财经大学统计学院、湖南大学金融与统计学院、武汉大学经济与管理学院、中国社会科学院数量经济与技术经济研究所转载量均超过6篇且其合作机构数均超过5家。
图7 重要机构合作网络图
对研究机构的合作情况进行社会网络分析可发现,中国人民大学统计学院、中国人民大学应用统计研究中心、厦门大学经济学院统计系、厦门大学经济学院、上海财经大学统计与管理学院、北京大学经济学院、西南财经大学统计学院、福建省统计科学重点实验室(厦门大学)的合作机构数均超过7家,国家统计局统计科学研究所、厦门大学经济学院统计系、东北财经大学统计学院、厦门大学经济学院、中国人民大学统计学院、厦门大学王亚南经济研究院、北京大学光华管理学院、华南师范大学经济与管理学院的中心度较高表明其在合作网络中发挥着中流砥柱的作用,中国人民大学统计学院、中国人民大学应用统计研究中心、厦门大学经济学院、厦门大学经济学院统计系、上海财经大学统计与管理学院、北京大学经济学院、西南财经大学统计学院、湖南大学金融与统计学院、武汉大学经济与管理学院、清华大学经济管理学院均具有较高的Pagerank值,表明其在统计与精算领域的研究中具有较重要的整体地位。
图8 论文作者数频数直方图
全部转载的372篇文章中,仅60篇为独著,特别是风险管理与精算类型中独著文章比例仅有8.11%,社会经济统计、数理统计的独著比为17.93%、18.75%。风险管理与精算中52.70%的文章为2人合作,超过半数。社会经济统计中41.83%的文章为2人合作,33.86%的文章为3人合作;数理统计中41.67%的文章为3人合作,35.42%的文章为2人合作,也出现了1篇6人合作模式的高质量论文。这表明2至3人的合作模式为统计与精算文章较常采用的合作模式(见图8)。
表3 重要研究机构合作网络信息
图9 重要作者合作网络图
结合6年中转载篇数在3 篇以上作者的统计数据可知,孟生旺、许宪春、金勇进、赵彦云、高敏雪、张连增等16位作者6年共被转载57篇文章(见表4),他们是该刊的重要作者,这些学科带头人在作者合作网络中较为分散,分别带领所在团队在不同领域创造出高质量的研究成果,48篇合作成果中孟生旺、金勇进、高敏雪、张连增的合作成果数均超过3篇。朱建平、马双鸽在网络中的Pagerank值最高,表明在合作网络中具有重要作用,度数较高的除此二位学者外还包括宫晓琳、张宁、杨淑振。学科带头人的引领作用与高能力研究者的自发合作共同促进着统计与精算学科的繁荣发展(见图9)。
四、结 论
本文基于复印报刊资料《统计与精算》2014—2019年转载的文章进行实证研究,通过文章类型、文章长度、文章来源深入分析学科发文特点,采用自然语言处理和文献计量的分析方法,探究学科热点、学科现状及演化、科研合作中的机构和作者的合作网络特点,并进行知识图谱的结构展现。结果显示,《统计与精算》杂志长期关注中国经济社会发展中的重大现实问题,以问题为导向,侧重研究问题的时代性和前沿性;统计与精算学科的发文呈现理论与实证相结合、趋向中长篇幅聚拢的特点;专业期刊通过集聚效应在推动统计和精算学科的发展和学术成果的传播上发挥了重要作用,是学术研究的主阵地,非专业期刊特别是高质量的学术期刊,通过自身平台的影响力,组织编辑了大量优质稿件,是学科发展的有益补充;统计与精算学科整体聚焦在能源环境、特殊群体、消费、收入、教育等民生问题及企业发展等社会经济问题,数理统计主要针对新数据特点(如高频、网络、互联网)、新问题(如搜索、预测、异常值)下的算法(如贝叶斯、空间分析)及统计量的理论性质进行创新,风险管理与精算重点关注寿险、非寿险的风险预测;随着时间的演变,统计与精算的研究热点从经济发展评价、偿二代到大数据、互联网下数理统计方法的创新,再到生产效率、技术进步,以及结合新时代的变化进行统计分析,近2年主要聚焦在数据质量、时空演变、收入分布等问题;高校和研究机构是统计与精算学科发展研究的重镇,特别是高等院校,占有绝对的比例,且发文数量和学校统计学科的质量相一致;学科带头人、专家团队在不同领域中带领所在团队进行学术研究,高能力研究者通过自发合作为学科发展带来新的活力,共同引领着统计与精算学科的发展;研究机构采取2-3名学者合作发文的模式特征明显,在相关学术研究越来越专业化的趋势下,通过合作的形式达成优势互补、资源共享,有利于高质量成果的产出。
表4 2014—2019年转载3篇及以上论文的作者转载信息
基于以上研究结论,统计与精算学科领域学者应紧密结合当前互联网时代下的新数据、新场景进行创新,致力于为社会发展中的重大问题建言献策。同时,随着高校向研究型大学转型,不同类型的高校在科研实力上的差距正逐步拉大,不同机构之间学者的合作必将成为实现双赢的重要途径,学科带头人在引领学科发展的同时应为培育学科发展的新兴力量做出自己的贡献[4-7]。
研究结果主要依据复印报刊资料《统计与精算》近6年的全文转载数据得出,周期较短、数据量较小,仅代表应用统计和精算学科近年来高质量研究中反映出的问题,或可起到为相关研究人员和对复印报刊资料长期支持、关注的朋友们提供参考的作用。在统计学的发展过程中,始终对经济社会发挥着重要的作用,并表现出强大的生命力[8]。面对大数据时代的来临和新一轮信息技术革命的挑战,统计学人只有适应变化并不断探索、勇于创新,方能历久弥新,在构建新时代中国特色哲学社会科学话语体系中担负起自己的责任和使命。