APP下载

基于中文分词的中国共产党人的精神谱系价值意蕴分析研究

2023-06-15王金虹

西部学刊 2023年6期
关键词:大数据

摘要:基于大数据视角,运用中文分词技术对中国共产党人的精神谱系的核心要义和价值意蕴进行分析,通过定义停用词、需去除的标点符号、编码规则和新词的方法构建分析模型,进行数据采集、数据预处理和分词与可视化分析,得出中国共产党人的精神谱系高频词频次表、词云图和各个历史时期高频词频次表、词云图,进一步揭示了中国共产党人的精神谱系具有内在稳定性、时代适用性的特征和育人价值。

关键词:政治品格;建党精神;精神谱系;大数据;中文分词

中图分类号:D64;D261文献标识码:A文章编号:2095-6916(2023)06-0005-04

中国共产党在矢志践行初心使命、筚路蓝缕奠基立业百年中,饱经风霜而风华正茂,根本在于革命加拼命的强大精神力量。在庆祝中国共产党成立100周年大会的讲话中,习近平总书记指出:“一百年来,中国共产党弘扬伟大建党精神,在长期奋斗中构建起中国共产党人的精神谱系,锤炼出鲜明的政治品格。历史川流不息,精神代代相传。”[1]虽然时代在变迁,但中国共产党人的精神谱系的形成是有其内在规律的。在中国共产党百年历史中,到底是哪些因素支撑着党的精神塑造?其核心要义和精神内涵有哪些?精神谱系的当代价值是什么?本研究从大数据视角,通过中文分词技术及WordCloud词云工具探讨分析百年共产党人精神谱系中的内涵价值,阐明中国共产党人的精神谱系的历史传承,以更好地指导思政课程与课程思政教学实践。

一、中国共产党人的精神谱系的基本内涵

习近平总书记在党史学习教育動员大会讲话中指出:“在一百年的非凡奋斗历程中,一代又一代中国共产党人顽强拼搏、不懈奋斗,涌现了一大批视死如归的革命烈士、一大批顽强奋斗的英雄人物、一大批忘我奉献的先进模范,……,构筑起了中国共产党人的精神谱系。”[2]中国共产党的百年历史是一部不断铸就崇高精神、弘扬优良传统、赓续精神血脉的发展历史。

中国共产党人的精神谱系中蕴含着深厚的中华传统文化根源。经过几千年的文明发展,中华民族形成了一脉相承的精神追求和强大的精神支撑[3],体现在以爱国主义为核心的团结友爱、崇尚和平、勤劳勇敢、坚毅顽强的民族精神中,创造出灿烂辉煌的中华文化和中华文明[4]。精神谱系还有着对马克思主义的坚持与创新,是中国共产党带领全国人民在追求共产主义理想信念,探索中国革命、建设和改革中,勇敢面对各种风险挑战,在艰苦卓绝的斗争中不断形成的,体现着中国共产党的理想信念、根本宗旨、工作作风,凝聚着中国共产党人艰苦奋斗、开拓进取的伟大品格[5]。精神谱系中既有贯穿于各个历史时期的成果,也有阶段性和地域性成果,还有行业性、先进个人的成果,成为一个内涵丰富、内容多元、形式多样、层次分明的有机整体[6]。

党领导全国人民迈进第二个百年奋斗目标新征程之时,中国共产党人的精神谱系更应深度融入中国人的精神血脉,成为当代人最为鲜明的精神气质和精神特色[6]。需要我们深入挖掘精神谱系的核心要素和精神内涵,引导当代中国人尤其是青年大学生不断从精神谱系中汲取智慧和力量,传承红色基因,赓续精神血脉,为实现中华民族伟大复兴而鼓足砥砺奋进的精神动力。目前关于研究精神谱系及其传承和弘扬的文献较多,但从大数据思维和视角下研究中国共产党人的精神谱系的文献相对较少。

二、中文分词技术的可行性

中文分词是计算机中文自然语言处理的首要任务。中文语句是由字、词构成的序列,同一字词在不同的语句或文本环境中语义会有所不同。文本分词是按照一定的算法将词从文本中切分出来,得到词列表,再基于分词列表分析理解文本语义。分词算法主要有基于统计、字符串匹配和理解三大类[7]。

影响中文分词效果的因素主要有:词与词之间没有明显的分隔符,容易产生不同的分词结果;不同文本环境中的字词语义不同;词的多种释义容易产生歧义;实体名词如机构名、地名、人名、简称,网络中出现新词、流行用语,行业领域中的行业专业术语等难以识别;切分的字词长度不同等[8]。

Jieba是一个Python第三方中文分词库,其分词原理是在前缀词典的基础上进行词图扫描,将待分词内容和中文词库进行比对,再以有向无环图的形式生成所有可能成词情况的图表示,通过动态规划方法找到基于词频最大概率的切分组合。Jieba分词中还可以自定义分词字典[9]。

词云是将文本中的高频关键词以形象的图像可视化方式呈现,WordCloud是Python的一个第三方库,广泛应用于词云展示。

三、基于中文分词的中国共产党人的精神谱系分析模型构建

(一)定义停用词

文本中经常被使用的如“的”“和”等频繁词和语气助词、副词、介词、连词,以及针对具体内容特点,存在的对文本内容无帮助或无意义的词,在分词检索比对时,容易对文本的有效信息造成噪音干扰。因此,在分词前,需要对所检索的文本进行消除噪音处理,这些字或词被定义为停用词。分词时会自动忽略停用词,提高分词效率和准确性。

(二)定义需去除的标点符号

在中文语句中,使用“,”“。”等标点符号表示句子前后的停顿、句调及词语的性质与作用,在分词结果中,这些标点符号没有任何意义,还会在分词检索时,对文本的有效信息造成噪音干扰,所以在分词前要对所检索文本的标点符号进行去除处理。

(三)定义编码规则

首先需要把文本转换为计算机能够处理的二进制数,这个过程被称为编码。常见的字符编码格式有ASCII、Unicode、GBK、UTF-8等,计算机内存中统一使用Unicode编码。文本处理时,将文件内容经过编码转换为Unicode编码读入内存,保存时再经解码把Unicode编码转换为文件编码进行保存。在分词检索前,需要确定被分词文本、停用词等文件的编码规则,并进行统一,否则会出现乱码。

(四)定义新词

实体名词如人名、机构名、简称、省略语,以及出现的新词、网络流行用语和行业专业术语等,在字典中没有被提前收錄,运算时难以识别,在分词运算前需要被定义。

四、基于中文分词的中国共产党人的精神谱系分析实例

(一)数据采集

数据主要来源于共产党员网、学习强国等学习平台以及文献资料中,收集整理主要从时间、地域、特定历史事件和特殊时期、革命烈士和劳模英模、特定领域五个维度进行,组成了中国共产党百年历史实践中形成的一系列伟大精神及其内容,如红船精神、长征精神、右玉精神、改革开放精神、深圳特区精神、科学家精神、载人航天精神、孔繁森精神和劳模精神等。

(二)数据预处理

从党的系列精神中,随机选取30种进行预处理,补充完善定义的停用词、需去除的标点符号、编码规则和新词。例如,“的”“把”“同”等字在文本中出现的频次较多,属于高频词,但在分析结果中作用不大,成为影响分析结果的噪音,需去除;如“初心”,在分词中被切分为“初”和“心”两个字,需要作为新词被定义;再如在文件读入时,文本开始位置会出现“\ufeff”字符,通过改变编码方式“UTF-8”为“UTF-8-sig”或者将“\ufeff”作为一个特殊符号,添加到去除标点符号中处理。还有,如“爱党”“听党”“信党”都表示热爱党、对党忠诚的含义,需作为同义词定义;“人民”“群众”需定义为同义词等。经过预处理,生成了具有精神谱系特定环境的语义词库,为对所有精神内容的高效准确分词奠定基础。

(三)分词与可视化分析

对系列精神文本进行新词加载、同义词加载、文本分词、去除停用词和标点符号,最后生成有效分词,经过词频统计及排序,得到使用频次超过10%的词,如表1所示。中国共产党人的精神谱系各个历史时期高频词频次表,如表2所示。

研究使用Python第三方包WordCloud,经过定义词云对象、生成词云和显示输出,对分词进行了图像可视化显示,精神谱系词云图如图1所示,各个历史时期的词云图如图2所示。

五、结论

习近平总书记指出:“伟大建党精神是中国共产党的精神之源。”[1]建党精神赓续始终,贯穿百年形成的精神谱系。能够体现中国共产党人的精神谱系价值意蕴的高频词有艰苦奋斗、服务人民、团结一心、热爱祖国、坚定信念、无私奉献、自强不息、不怕牺牲、敢为人先、热爱党、实事求是、革命精神。这些核心要素已作为精神内核融入共产党人的血脉与灵魂,成为中国共产党历经百年磨难而风华正茂的生命源泉,它们统一于党百年奋斗的“十个坚持”宝贵历史经验[10],相互连贯成为有机整体。

中国共产党人的精神谱系具有内在稳定性,艰苦奋斗、热爱祖国、无私奉献、服务人民、团结一心贯穿于中国共产党发展历程的各个历史时期,体现了共产党以人民为中心的大爱精神、以民族复兴为己任的担当品质、不怕牺牲的献身精神以及英勇斗争的坚强意志。这与以爱国主义为核心的中华民族精神相统一;与历久弥新的中华优秀传统文化相统一;与中国共产党紧紧依靠人民、全心全意为人民服务的根本宗旨相统一;与中国共产党大无畏的精神气概相统一,形成了中华民族伟大复兴的动力之源。充分表明中国共产党人的精神谱系不仅是对马克思主义的坚持,更是将马克思主义与中华民族精神和中华优秀传统文化相结合,进行了中国化创新发展。正如毛泽东指出的:“马克思主义必须和我国的具体特点相结合并通过一定的民族形式才能实现。”[11]

精神谱系还具有时代适用性,这与中国共产党在各个历史时期的时代使命、我国各时期的社会环境、经济条件等因素有关。例如,不怕牺牲具有新民主主义革命及社会主义革命和建设两个时期的时代特征。这两个时期是艰苦卓绝的革命岁月和新中国建设困难重重的年代,中国共产党为实现救国救民并在一穷二白的废墟上进行社会主义革命和建设,抛头颅洒热血、浴血奋战,排除万难、艰苦创业,凝聚着“砍头不要紧,只要主义真”的崇高信仰,体现了为民族独立、国家自强、人民温饱而勇于牺牲的忘我精神。再如,敢为人先具有改革开放和社会主义现代化建设、新时代中国特色社会主义发展两个时期的时代特征。这两个时期是我国开启改革开放、现代化征程的激情岁月、实现中华民族“两个一百年”①奋斗目标和中华民族伟大复兴的新时代,中国共产党自信自强、敢闯敢试,积极应对风险挑战,体现了中国共产党人的胸怀祖国、心系人民的爱国为民情怀,变局中开新局、勇闯新路的奋斗精神和攻坚克难的坚韧品格。

中国共产党人的精神谱系中所蕴含的理想信念、根本宗旨、思想道德、工作作风等精神内涵是大学生个人品质塑造、成长成才的精神食粮,也是大学生增强做中国人的志气、骨气、底气的红色沃土[12]。精神内涵的挖掘为教师进一步深入发掘思政教育内容和素材,深化课程教育教学改革、创新第二课堂教育方式提供指导,用中国共产党坚定的理想信念、艰苦奋斗的优良作风、勇于奉献的为民情怀教育和滋养大学生的志气、骨气和底气,引导他们胸怀祖国、众志成城,为实现中华民族伟大复兴贡献自己的青春智慧和力量。

注释:

①“两个一百年”:即到中国共产党成立100年时全面建成小康社会,到新中国成立100年时建成富强民主文明和谐美丽的社会主义现代化强国。

参考文献:

[1]习近平.在庆祝中国共产党成立100周年大会上的讲话[J].求是,2021(14).

[2]习近平.在党史学习教育动员大会上的讲话[J].求是,2021(7).

[3]黄正平.伟大建党精神——建党理论新开拓  党建思想新境界[N].南通日报,2021-07-26(A06).

[4]王相坤.中国共产党人精神谱系的构建[N].北京日报,2021-07-26(009).

[5]周进.中国共产党人的精神谱系的生成逻辑、精神内涵与当代价值[J].中国井冈山干部学院学报,2021(4).

[6]佘双好,王弢.中国共产党精神谱系在青少年中的传承与弘扬[J].青年探索,2021(4).

[7]石凤贵.中文文本分词及其可视化技术研究[J].现代计算机,2020(12).

[8]胡晓辉,朱志祥.基于深度学习的中文分词方法研究[J].计算机与数字工程,2020(3).

[9]嵩天,礼欣,黄天羽.Python语言程序设计基础:第2版[M].北京:高等教育出版社,2018:169-177.

[10]中国共产党第十九届中央委员会第六次全体会议公报[N].人民日报,2021-11-12(01).

[11]毛泽东.毛泽东选集:第2卷[M].北京:人民出版社,1991:534.

[12]曹甜甜.中国共产党人的精神谱系的内涵、特征和价值探析[J].云南农业大学学报(社会科学),2021(6).

作者简介:王金虹(1973—),女,汉族,山西平遥人,山西中医药大学马克思主义学院党总支书记、副教授,研究方向为数据挖掘。

(责任编辑:张震)

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
基于大数据的小微电商授信评估研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索