基于Python的国际学术会议数据分析研究
2022-07-10吕霞蔡婷婷肖芳
吕霞 蔡婷婷 肖芳
摘 要:Python在科学计算和数据可视化等领域的应用越来越广泛。使用Python对国际会议平台中教育系统国际会议数据进行清洗和处理,深入挖掘会议学科、地域等不同维度的相关信息,对申报会议的主题词、双一流高校月度会议量和双一流高校地域分布进行可视化分析,深入挖掘各類学术会议信息的科学价值,助力国际学术会议平台的管理和国家学科建设地区分配改进和优化,推动我国教育系统科技信息交流平台的建设和发展。
关键词:国际学术会议;会议平台;Python;数据分析
中图分类号:TP391 文献标识码:A文章编号:2096-4706(2022)05-0038-04
Research on Data Analysis of International Academic Conferences Based on Python
LYU Xia, CAI Tingting, XIAO Fang
(Huazhong University of Science and Technology Library, Wuhan 430074, China)
Abstract: The application of Python is more and more extensive in the fields of scientific computing and data visualization. In this paper, it uses Python to clean and process the international conference data of the education system in the international conference platform, and digs deeply into the relevant information of different dimensions such as subject and geographical on the conference, and carries out visual analysis of the theme words of the application meeting, the monthly meeting volume of double first-class universities and the regional distribution of double first-class universities, and digs the scientific value of various academic conference information deeply. It helps the management of international academic conference platform, help to improve and optimize the management of international academic conference platform and regional distribution of national discipline construction, promotes the construction and development of science and technology information exchange platform in China’s education system.
Keywords: international academic conference; conference platform; Python; data analysis
0 引 言
科学的决策离不开会议商讨,前沿科学技术的研讨也离不开会议交流。在当今这个信息交流的时代,会议已然成为教育系统各学科学术交流的主要方式。国际学术会议是国际科学研究和交流的重要支撑。
每年,我国教育部直属高校和科研院所都会举办大量的国际性学术会议,在促进国际交流的同时产生了庞大的会议数据,形成了教育系统国际性学术会议的大数据。从国家层面上看,高水平的科学研究和交流需要建立在高端的信息交流平台上。华中科技大学图书馆受教育部国际司委托,建设并运维中国教育系统国际学术会议云平台[1],建立了一套完善的会议管理机制,管理和积累了我国教育系统国际性会议的大数据,为进一步对会议数据进行挖掘和分析奠定了良好的数据基础。
1 研究现状
以“学术会议”或“会议平台”为关键词在CNKI中国资源总库检索篇名,除去国际学术会议广告性质文献,得到55篇相关研究文献,国内对学术会议和会议平台的讨论主要及集中在如下几个方面。
1.1 学术会议的组织管理
范敏敏等[2]探讨了高校学术会议团队的工作组织技巧,孟凡力[3]总结了高校大型学术会议的各种组织经验,吕键[4]从学院组织国际学术会议的实践出发,探索会议组织和管理的有效方式。这些研究都是从实际工作实践出发,探索学术会议更有效的组织技巧和管理模式。
1.2 学术会议与学术出版
学术会议和学术期刊都是学术交流有效的传播方式,两者的关系和发展模式也是学术讨论的热点。黄明睿[5]从学术会议与期刊的起源、组织和交流形式、内容和功能上分析和探索两者的相互关系;邵玉娴等[6]从学术会议的特点、会前准备、会中宣传和组稿以及会后整理和跟踪等方面探讨编辑如何借助学术会议提升科技期刊学术水平和影响力;初景利[7]认为应利用技术构建开放的学术会议系统,建设线上线下结合、传统媒体与新媒体融合的学术传播模式,探索与国家科技创新需求相一致的学术交流模式。
1.3 学术会议与人才培养
学术会议和学术会议平台的学术交流聚集效应无疑为学术人才的发展提供了广阔的平台。冯全功等[8]探索高质量主题学术会议作为学术交流手段凝聚学者共识,促进了学科建设和发展;高会军等[9]从实践工作出发,认为国际学术会议为博士生高质量培养搭建了国际化平台;张天纲等[10]认为学术会议是研究生高质量培养的重要途径。
1.4 学术会议平台的建设
国内学术会议平台的建设实践主要集中在技术对会议平台建设的重要作用等研究方面。魏生辉等[11]针对传统会议组织和管理方式在信息采集、流通、存储和共享方面的不足,探索基于云服务的会议服务平台的构建;林晓静等[12]探索互联网+环境下传统学术会议平台功能和组织的升级与发展。
从以上文献调查可以看出,目前国内针对国际会议平台和学术会议的研究主要集中在相关功能构建和组织管理等方面,对学术会议信息数据的挖掘研究乏善可陈。本文依托本校管理的中国教育系统国际学术会议云平台,使用Python语言对平台中教育系统国际会议信息数据进行统计分析,深入挖掘会议学科和地域信息,进一步助力我国教育系统未来的学科发展和国际会议平台数据管理。
2 Python 数据分析
数据时代,越来越多的研究人员通过数据分析挖掘数据的价值。Python语言是一种具有解释性、交互性和面向对象的计算机编程语言。Python 简洁明了、便于扩展,具有庞大的标准库和第三方库,且具有强大的数据分析功能,逐渐成为数据分析领域的首选工具[13]。
在对数据进行价值挖掘的过程中,Python包含有Pandas、Numpy、Seaborn、Matplotlib等数据分析库,辅以分词包Jieba、Wordcloud等进行解释和分析。在结构化数据的处理中,Pandas 能够提供大量函数和数据结构;Numpy提供的多维数据组对象,ndarray能够直接进行数学和元素级别的运算;Seaborn和Matplotlib的功能主要体现在数据图表的绘制方面。
通过收集、整理和可视化,Python数据分析技术能够对国际会议平台产生的大量数据从不同维度进行分析,深入挖掘会议学科信息。国际会议信息挖掘的处理流程如图1所示。
图1 国际会议信息挖掘的处理流程
3 基于python的国际会议信息数据分析
中国教育系统学术会议云平台2018年5月上线以来,系统运行稳定。2020年1月以后,因新冠疫情原因,国际学术会议无论是参与专家人数还是会议数量都受到巨大影响,因此此次研究统计截止时间为2019年12月31日。经统计,自平台上线到2019年12月31日,平台注册的高校和科研院所用户4 000多人,在平台上共申报国际会议4 028个,终审通过的国际会议有3 461个,产生了大量相关的国际学术会议数据。
在我国,双一流高校是我国高校的代表,本研究主要针对平台中国家首批42所双一流高校举办的会议数据进行统计分析。
3.1 数据清理和关键词抽取
3.1.1 数据清理
在数据分析时,原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据分析的结果。所以清洗数据的目的有两个:(1)通过清洗使数据可用;(2)让数据变得更适合后续的分析工作。数据清洗过程如图2所示。
图2 数据清洗过程
如图2,数据清洗过程分为以下三个阶段:
(1)数据预处理。预处理阶段主要是检查数据的可用性。对国际会议数据预处理包含两个部分:一是提取元数据信息,包括字段解释、数据来源、代码表等一切描述数据的信息;从数据库中的各种数据表提取主要字段,主要数据表包含国际会议申报信息表、国际会议预报信息表、国际会议变更表、国际会议人员信息表、国际会议总结表等,提取的字段包括会议名称、会议时间、会议地点、总人数、主办单位、会议议题或主题、会议总结等。二是抽取部分数据,通过Pandas庫查看数据概况,对数据本身有一个直观的了解,并进行初步发现和总结,为之后的数据处理做准备,部分操作参考下文代码:
import pandas as pd
data = pd.read_csv(filename,encoding="gbk") #加载数据
data.head(n=5)#查看数据前五行
data.shape#查看数据维数
data.info() #检查缺失值情况
data.describe() #查看统计值,包括平均数,标准差,中位数,最小值,最大值,25%分位数,75%分位数
(2)数据格式和内容清洗。数据格式内容清洗是为了规范数据,以便于统一处理。由于国际会议数据是用户在会议平台中填写而来,很大可能存在格式和内容问题。常见问题有:日期、数值、全半角等存储格式不一致;无效填报数据,比如会议举办地点中出现多余的空格,或者出现中、英文描述导致数据不统一等。这些情况需要以半自动校验、半人工方式来检查并找出可能存在的问题,以去除不需要的字符。部分清洗方式可参考下文中的处理代码:
pd.read_csv(filename,encoding=“unicode_escape”) #在Python中,unicode是内存编码集,一般我们将数据存储到文件时,需要将数据先编码为其他编码集,比如utf-8、gbk等。但是还有一种unicode-escape编码集,他是将unicode内存编码值直接存储:因此读取数据的时候需要通过同样的编码集进行解码,否则就会出现数据加载异常。
data[‘HYZRS’].astype(‘int’) #更改数据格式(参会总人数)
data[‘city’].replace(‘shanghai’,‘上海’)
data[‘city’].replace(“ “,””) #去除全部空格
(3)缺失数据处理。处理缺失数据是为了保证数据的完整性。缺失数据处理主要包括两个部分:一是去除不需要的字段,包括审核、扩展字段等;二是补全缺失的内容,比如会议总结、会议变更表中的主题、会议日期、地点等,可对数据表中的对应字段进行补充。
3.1.2 关键词抽取
对会议平台中提取的原始数据清洗完成之后,还需要对各数据表中的数据根据需要进行字段抽取和字段拆分,重新建立新的索引,为下一步的数据可视化分析打下基础。
(1)字段抽取和拆分。通过数据表关联关系,提取会议名称、举办城市、会议时间、参会人数、会议主题、学科、申报单位等字段重新组合数据表。
(2)设置索引,依据统计分析需求对重新组合的数据表进行索引设置。例如,通过会议开始结束时间计算会议持续天数,重新设置索引,数据默认的索引是从0开始的有序整数。如果想把某一列设置为新的索引,可以用.set_index()实现,比如把申报单位这列设为新索引。部分处理方式可参考下文中的代码。
data.set_index(“申报单位”,inplace=True)
data[‘HYKS’] = pd.to_datetime(data[‘HYKS’]) # 将文本格式转换为日期格式
data[‘HYJS’]= pd.to_datetime(data[‘HYJS’])
data[‘TS’] = data[‘HYJS’] - data[‘HYKS’] + timedelta(days=1) #计算时间差
data[‘TS’] = pd.to_timedelta(data[‘TS’]).dt.days #获取会议持续天数
3.2 国际会议信息可视化分析
3.2.1 主题词词云图
对申报会议的主题词进行分词,统计分析得出会议主题词词云图。如图3所示,材料、人工智能、能源、生物等为高频热点主题词,充分反映了在当前我国经济高速发展时期,国际学术会议主题紧扣国家重要发展方向。
图3 国际学术会议主题词词云图
3.2.2 双一流高校月度会议量统计分析
如图4所示,按月对所有会议和双一流高校办会总量进行统计,提取双一流高校每月办会数量,计算出双一流高校会议占总数的比例。从双一流高校会议规模的统计柱状图可以看出,国际学术会议的召开具有很强的时间性,在上半学年和下半学年期间的办会量明显大于寒暑假期间。从双一流高校举办会议数量月分布来看,双一流高校会议数量占比在62.5%到88.57%之间,占据了全国高校会议数量的绝大多数,展现了双一流高校雄厚的学术和办会实力,也体现了国家政策对双一流高校学术交流和学科建设的大力支持。
图4 双一流高校会议规模及其占比
3.2.3 双一流高校会议分布
高校学术的建设和发展高度依赖国家和所处地域在经济等各方面的支持。如图5所示,按高校名称统计各校主办会议数量(去除从未主办会议的高校,取其中32所),展示了双一流高校主办会议的分布情况。从图中可以看出,清华大学、浙江大学、复旦大学、北京大学和上海交通大学以绝对数量优势排名前列。这几所高校常年盘踞各大高校综合指数排名前列,也坐落于我国经济、政治和文化最发达的北京市和长三角地区,从一定程度上反映了国家和地域的各项发展对学术建设的支持;同时也反映出,学术的发展对国家和地域的各项发展也发挥着重要的促进作用。
图5 42所双一流高校会议分布
4 结 论
国际会议平台中庞大的会议数据不应该只作为一种“资产”沉睡在会议平台数据库中,而是应该借助各种像Python这样的分析统计工具,将采集到的数据信息进行分析处理,助力国际学术会议平台的管理和国家学科建设地区分配改进和优化,为我国打造国家科技信息高端交流平台,增强国家国际竞争力和科技可持续发展能力贡献智慧力量。
参考文献:
[1] 中国教育系统学术会议云平台.国际会议平台名 [EB/OL].[2021-12-01].http: //econf.hust.edu.cn/.
[2] 范敏敏,唐艳,王迪,等.高校学术会议服务团队工作技巧探讨 [J].办公室业务,2018(22):113-114.
[3] 孟凡力.高校大型學术会议组织经验探讨 [J].教育教学论坛,2016(34):202-203.
[4] 吕键.国际学术会议的组织与管理经验探索——以丽水学院为例 [J].开封教育学院学报,2019,39(5):155-156.
[5] 黄明睿.论学术会议与期刊的关系 [J].编辑学报,2016,28(1):18-20.
[6] 邵玉娴,王小玲,杨雪,等.借助学术会议提升科技期刊学术水平和影响力 [J].编辑学报,2019,31(S1):73-76.
[7] 初景利.高端交流平台建设需要创新学术交流模式 [J].智库理论与实践,2021,6(1):7-9.
[8] 冯全功,枣彬吉.学术平台、学者成长与学科建设——以浙江大学中华译学馆为例 [J].上海翻译,2020(6):91-94.
[9] 高会军,邱剑彬.依托国际化平台提升博士生培养质量的探索与实践 [J].继续教育研究,2016(10):100-102.
[10] 张天纲,玄萍,巩诚.学术会议对提高研究生培养质量的作用 [J].教育教学论坛,2017(10):238-239.
[11] 魏生辉,郑依华,南凯.基于云服务的会议服务平台研究与实现 [J].计算机工程,2012,38(4):233-235+238.
[12] 林晓静,杨瑾.建设互联网+学术会议平台 引领学会创新发展 [J].学会,2018(12):45-47.
[13] 张若愚.Python 科学计算:第2版 [M].北京:清华大学出版社,2016.
作者简介:吕霞(1982—),女,汉族,湖北鄂州人,硕士,华中科技大学图书馆馆员,主要研究方向:图书馆服务平台建设和管理、智慧图书馆;蔡婷婷(1989—),女,汉族,湖北随州人,硕士,华中科技大学图书馆助理馆员,主要研究方向:智慧图书馆,信息组织;肖芳(1982—),男,汉族,湖南涟源人,硕士,华中科技大学图书馆副研究馆员,主要研究方向:智慧图书馆,信息化建设。