大数据背景下党建统计数据的存储电子化问题研究
2019-03-23刘方舟
杨 健,刘方舟
(1.大理大学 数学与计算机学院,云南 大理 671003;2.宾夕法尼亚大学 文学院)
一、文献回顾与问题提出
在 “大数据”时代的背景之下,党的建设也需要适时地进行相应的跟进,充分运用新的信息管理技术实现对海量存在的党建统计资料的深度分析,以更完善地落实党的制度建设,持续提高党的建设质量,不断增强党的建设科学化。以统计学、机器学习和数据挖掘为核心技术的大数据分析方法,可以深刻地完善和更新当前党建党史的研究范式,为全面提高党的建设科学化水平提供数据科学的技术支持。
在党的建设科学化重要理论的指导下,国内党建问题研究的学者也开始了相关领域的研究,并产生了较多的研究成果。在大数据与党建科学化理论研究中,学者普遍认为高校在利用大数据提高党建工作成效上具有优势:米华全等人提出大数据创新高校党建工作的基本原则和实现途径,①米华全,申小蓉: 《运用大数据创新高校党建工作的思考》, 《思想理论教育》2016年第8期。李华婷则对基于高等学校师生社交网络平台——易班——的上海高校党建平台的现状和未来发展进行深入剖析。②李华婷: 《基于大数据技术的上海高校易班党建平台建设》, 《新西部(理论版)》2015年第3期。在大数据背景下,党建工作的信息化和电子化进程就有了实现“智慧党建”的可能。胡燕对智慧时代提升党员干部数据素养的相关策略提出了自己的看法,③胡燕: 《智慧时代提升党员干部数据素养的策略研究》, 《中共合肥市委党校学报》2015年第2期。葛学彬则从思想建设、组织建设、作风建设和制度建设几个方面对大数据视域下“智慧型”执政党建设提出相应的实施建议,④葛学彬: 《大数据视域下“智慧型”执政党建设研究》, 《山西农业大学学报(社会科学版)》2015年第9期。黄娟等人结合党建平台“智慧红云”的建设,对智慧党建的内涵特征、体系架构及关键技术进行研究。⑤黄娟,米华全,陆川: 《智慧党建:内涵特征、体系架构及关键技术——以“智慧红云”党建系统为例》, 《电子科技大学学报(社科版)》2016年第1期。
在党建科学化的应用研究方面,宁波江北区的“江北智慧党建”提供电子化和信息化的党组织服务,信息发布,微博、微信交流等功能。⑥夏行: 《论“智慧党建”的“江北实验”及其发展战略构想》, 《领导科学》2013年第7期。电子科技大学的“智慧红云”系统实现了党务工作移动化、信息处理云端化和党建数据可视化,集中打造了学习教育新阵地、传播发布新媒体、交流沟通新圈层、组织活动新平台和党建服务等5个大数据相关的核心功能。广东移动智慧党建平台[注]中广互联: 《广东移动“智慧党建”项目获推广》, http://www.tvoao.com/a/112724.aspx. 2018年7月1日访问。采用先进的云计算技术、TD-LTE技术,创新地借助二维码技术、RFID射频技术和新一代网络传输技术,集展示、理论学习、经验交流等多种功能于一体,使传统的党务基础管理更高效、更节能、更安全。
可以看到,目前以智慧党建和党建科学化为目标的应用平台,主要提供的是党的建设过程中涉及的信息发布、党员交流和服务等功能的信息化,并没有充分利用大数据分析和数据挖掘等人工智能的先进技术深度剖析党建历史资料,基于数据统计分析以发现党建的规律和党建未来的发展趋势。事实上,自中国共产党成立以来积累的巨量的党建统计资料中隐含着中国共产党不断健康发展和壮大的重要规律性知识。这些规律性知识在大数据分析技术下是可以分析、总结和提炼出来的。如何充分利用现有信息技术和大数据分析技术,用数据来说话,挖掘数据中隐含的党的建设规律性知识,是新的历史时期开展量化党建研究的一个重要突破点。在实现充分利用各种统计数据,进行量化党建研究之前,首先要做的就是党的建设内部统计数据存储的科学化,也即将这些统计资料转换为计算机能表示、分析和处理的数据模式。然而,目前中国共产党党建统计资料存储的电子化进程相对缓慢,究其原因,除了是受到现有技术手段的制约,还有一个重要原因就是还没有较好的方法将这些数据转化为数据库能够存储、分析的模式。因此,如何有效进行党建统计数据存储的电子化,并提供较强的可用性和可扩展性,是开展后续量化党建科学化研究的基础性工作,对于今后的党建问题的量化研究就具有十分重要的意义。
二、党建统计数据的科学性分析
中国共产党公开定期发布的党的统计的数据资料公报《中国共产党党内统计资料汇编》(本文所取数据均来自于此),但在进行党建问题量化研究中,据此进行党的建设研究资料的科学化、电子化和信息化进程滞后,党的建设的相关数据的信息化研究简单停留在局部的、当前的、党员个人和党支部层次的单向信息统计管理上,缺少对党成立以来党的建设历史数据的汇总、管理、统计学分析和数据挖掘的相关研究,现有统计资料还没有以规范标准的模式存储在计算机中,无法充分利用信息化技术和大数据分析技术,统计资料电子化的缓慢进程也阻碍了对党建问题量化研究,无法对这些珍贵数据有效利用,提取其中隐含的规律性认识。因此,中国共产党党内统计资料的电子化的工作迫在眉睫。本文以统计资料为例展开对党建资料电子化的维度分析,以锚定当前研究存在的问题。
统计资料分为3个主要部分,即“党员概况”“发展党员”和“党组织”。这3个部分分别从不同维度统计了中国共产党建党以来至今的党员基本信息和党组织发展变化情况。经过分析,发现上述3部分的信息有两个共通的因子数据:地区和时间,也即汇编中任何统计数据都是建立在对某个指标的某个地区和时间上的取值。所以,在电子化过程中,统计数据的这两个标杆被固定下来。但是,由于各个时期中国地区和地域划分并不一致,因此在数据库逻辑结构中,建立了地区元数据表。具体的表结构如表1所示。
表1 地区元数据表
在地区元数据表中,为了方便以后根据各地区所在大区域和边疆民族地区的范围进行党建问题研究,增加了所在大区域和边疆民族地区的标识字段来表示某地区所属的大区域和是否为边疆民族地区。这样的元数据表可以根据实际情况进行修改,从而适应时代的发展。
表2 典型的二维表格(关系模式)
现有大型专业数据库绝大多数是基于关系模型的,也即二维表格形式。[注]王珊, 萨师煊: 《数据库系统概论(第五版)》, 北京: 高等教育出版社, 2014年版, 第25页。典型的统计分析和数据挖掘软件中能够广泛使用的就是这种二维表格形式的数据。为了方便数据存储和处理,需要将当前现有统计数据转换为这种关系模型,如表2所示。
三、党建统计数据存储电子化面临的阻碍
在中国共产党横跨两个世纪九十多年的发展历史中,经历了风风雨雨各种时期,每一个时期由于党的发展的需要,进行统计的口径和指标都发生巨大的变化,这种变化和统计指标的不一致给党内统计数据电子化进程带来巨大阻碍。这些阻碍主要表现为以下几个方面:
(一)统计范围的变化
在不同历史时期,对于某类数据的统计,在统计范围上会发生较大变化,比较典型的就是党员年龄情况和发展党员年龄情况这两类统计信息。例如,在1965年以前,年龄统计有26-45岁、46-56岁两个指标,而1971年以后,这两个指标变化为26-35和36-55岁两个指标数据。此外,在2000年以前,统计的是61岁以上党员人数,而在2001年以后,统计的是60岁以上人数。因为60岁是男性退休年龄,因此这种变化也反应出中国共产党顺应时代变化,在党内统计指标上更加贴合现实,更加准确和高效。然而,这种变化给统计数据的电子化带来一定阻碍,针对这个问题,本文认为可以通过建立年龄这个字段的元数据表来解决这个问题。具体表结构及示例数据如表3所示。
表3 年龄元数据表
在上述元数据表的辅助下,可以有效解决年龄统计指标统计范围频繁的问题。此外,通过增加元数据记录项,还使得统计范围具有可扩充性。
(二)统计指标的变化
数据还存在有统计指标增减变化的情况。例如党员学历情况的统计,在1997年以前,党员学历情况统计了大专及以上的指标,但没有出现研究生党员数量的记录,并且低学历(初中学历以下)还包含了小学和文盲党员人数的统计。而在1998年以后,党员学历统计中出现了“研究生”,同时将小学及文盲党员的统计归于“初中及以下”中。这样的变化也反应了随着时代的发展,中国共产党组织发展对党员学历的要求逐渐在发生变化,更加重视高学历党员的发展。对于这样的变化,依然使用固定的二维表格形式的关系数据库来存储,显然不适应组织建设统计数据的存储需求。因此,需要进行相应的改进,设计多维度的表格形式来进行更为详细的数据呈现。
(三)存在多层非关系型数据
除了统计指标增减变化以外,还存在更为复杂的结构,就是一个指标是另一个指标的子项,这其实已经不是二维数据,是多维的统计数据(如表4所示)。虽然这种一个指标中包含另一个指标的形式可以通过直接列出的方法(即把有从属关系的两个指标当作孤立的两个指标)来转换为二维表格形式数据,但这种转换会丢失指标间的包含关系,从而在未来的数据分析中丧失了必要的、关联性的信息。为了保留这种包含关系,且使得数据符合关系模式,能够在关系数据库系统中存储和操作,就需要采用特定的对策来建立数据存储的逻辑结构。
表4 多维统计数据的示例(党员职业)
四、党建数据数据存储电子化的改进对策
根据上面的分析,统计数据库中基本数据表依然以二维关系模式来存储,但需要做以下的改进:
第一,对于统计指标范围变化的情况(例如统计年龄的时间区间),可以采用建立元数据表标定字段名称及区间,并在基本数据表中使用元数据表中定义的字段名称的方式来建立存储结构,这种方式称为“字段元数据表”方式(见表3所示年龄字段元数据表)。
第二,对于指标增减和多维数据表结构,可以采用列簇表的形式存储,基本数据表中原则上有5个字段:ID,年份,地区,项目(也即项目ID),人数(个数)。然后在元数据表(每个元数据表对应着相应的基本数据表)中涉及3个字段:项目ID,项目内容,上级项目ID(如果上级项目ID为0,则表示是顶层项目)。这种方式称为“列簇基本表”。
针对表4的多维数据,可以建立表5所示的元数据表和用于存储真实数据的基本数据表。
表5 列簇形式的元数据表和基本数据表
(b) 基本数据表
这样存储的数据表,当组织管理部门统计指标和口径发生变化时,只需要修改元数据表中的项目,并在基本数据表中,引用新的项目ID,就完全可以适应指标的任意增减变换,从而适应广泛的党建问题量化研究的需求。列簇基本表的逻辑结构还具有如下巨大的技术优势:
第一,党建问题量化研究中,需要将不同数据表中的指标量进行任意组合,例如考量预备党员数量与党员不同职业之间的关联关系。如果将数据以列簇表形式存储,通过链接查询,查询时指定时间和地区作为指标汇集点,则很容易将来源不同的(例如对党员职业和党员年龄的联合分析)数据汇集在一起,构成所需的分析数据。
第二,对于指标变化和修改的情况,只需要在列簇元数据表中进行元数据的修改,并在基本数据表中引用相应的元数据项目ID,就完全能够适应这种变化,使得“列簇基本表”的形式具有很强的可扩展性
第三,列簇数据模式通过建立上级项目的引用,能够实现对于多维数据的标识和处理,而传统的关系模型和现有统计分析和数据挖掘软件则无法处理这类多维数据。
然而,列簇基本表也有一定缺陷,例如一个现有的多维结构的数据表可能会被映射为多个数据库中的表,并且在查询时,需要进行连接查询。虽然这些问题也会带来一定的性能损失,但从根本上并不影响数据的使用与分析。
五、结语
在大数据时代,海量的来源丰富的数据为新时代党的建设决策科学化提供了新的视角和新的机遇,充分利用大数据分析技术,是新时期党的建设决策科学化的前提。按照不同历史时期党的基本路线要求,对党组织和党员队伍的基本状况、发展变化以及党内生活等情况运用大数据分析、统计建模及数据挖掘技术进行分析研究,服务党的建设的方方面面,是系统掌握党的组织动态,分析组织工作,指导党的建设的重要手段和重要决策依据。建立由内部统计资料和外部搜集整理数据构成的大数据融合信息库,能够满足大数据环境下党的建设相关问题研究的数据需求,提供研究所需的数据基础。大数据时代,数据信息的变化不仅是量的积累,更是质的飞跃,海量的、不同来源、不同形式、包含不同信息的数据整合、分析后,原本孤立的数据变得互联互通。通过利用大数据分析手段进行海量数据比对分析,有助于发现小数据时代很难发现的新知识,创造新的价值,总结新的规律。充分利用这些规律性的认识和研究,通过数据驱动党的组织建设研究,综合各方面信息推动党的组织建设的新发展,是党的建设、大数据技术和统计学研究发展的新内容、新方向。
中国共产党自成立以来,积累了大量党的建设统计数据,这些数据中隐含了中国共产党能够不断发展壮大的重要的规律性知识,通过统计分析和数据挖掘等方法,能够将这些隐含的规律性知识挖掘出来。然而,这些数据的电子化进程依然缓慢,现有信息处理和数据挖掘工具无法使用。通过“字段元数据表”和“列簇元数据表”的数据组织结构,能够将现有统计资料转换为关系数据库能够存储的二维表结构,同时,解决了指标变化和多维数据结构等问题,具有较强的适应性和可扩展性,能够满足后续党建问题量化研究的需求,从而为提高党的建设科学化水平提供坚实的研究所需的数据基础。