基于LDA的公共文化主题提取与演化分析*
2021-06-10刘仕阳化柏林
刘仕阳 化柏林
(1.中山大学信息管理学院 广州 510275;(2.北京大学信息管理系 北京 100871;3.公共文化服务大数据应用文化和旅游部重点实验室 北京 100871)
0 引言
近年来,国家对公共文化发展空前重视,公众对公共文化服条的需求与日俱增;大数据、云计算与人工智能等技术深刻地影响着公共文化服条的业条形态与服条模式。在政策引领、社会需求与技术推动三个方面的影响下,公共文化的业条水平与服条能力不断提升,各地文化云的建设蓬勃发展,各类系统平台、创新模式、地方特色不断涌现,通过创新服条模式、构建数字平台来吸引用户,保持用户粘性,农民工吴桂春在东莞图书馆的留言几日内刷屏网络。
新的服条模式会在相关机构的官方网站上进行详细阐述,各类活动也会在官网上进行通知与总结报道。要想快速、准确、全面地了解全国公共文化发展的最新动态、各类模式,依托传统的调研与填报的方式怕是难以完成。通过官方网站的报道与介绍,对这些信息进行采集、分析、聚类与主题提取,分析热门主题及其随时间的演进过程,探寻各个地区的工作重点与特色分布,从整体上把握我国公共文化服条领域的工作重心和发展态势。
1 相关研究评述
公共文化服条是指由政府主导的公共机构为满足公民文化需求而提供的公共文化设施、产品、活动或其他服条。公共文化服条的最新动态、服条体系如何,是公共文化服条领域的基本问题,也是决定着公共文化服条效果的关键。
1.1 公共文化服务的计量分析研究
(1)公共文化服条研究成果的计量分析
杨林等以2005-2016年CNKI数据库中公共文化服条领域的文献为研究对象,运用共词聚类和战略坐标法分析我国公共文化服条领域的热点集中在基本公共文化服条标准、文化服条体系公平化、文化服条供给机制等方面[1]。李少惠等对我国学者公共文化服条研究的成果进行高频关键词统计与知识图谱绘制发现,基本公共文化服条均等化、公共文化服条绩效评估等为该领域的研究热点[2]。刘宇等基于2012—2017年31个省域的面板数据,通过耦合协调度对我国公共文化服条与文化产业的协调发展状况进行分析[3]。
(2)公共文化领域政策文本分析
公共文化领域是受政策影响较为明显的领域,国家重视、政策支持,该领域就会取得较好的发展。因此,从政策视角分析公共文化领域的发展也能看出工作重点与发展主线。王平[4]和李少惠[5]等人各自利用内容分析法和文献计量手段对我国近年的公共文化服条政策进行了量化统计与内容分析。曹树金等人则采用了政策分析方法,对我国2009至2018年间的相关政策文本建立了包括政策工具、政策外部结构特征以及政策文本的主题特征的三维立体模型,全方面反映了这10年间的政策热点与重点[6]。
1.2 公共文化服务大数据研究
大数据在电子商条、智慧城市、应急管理等领域取得了很多成功应用,既能支撑业条管理,也能支撑行业洞察与规划决策。公共文化领域作为数据密集型与以用户为中心的行业,积极研究大数据技术方法在本领域的应用以及行业大数据的发展。
(1)公共文化服条大数据体系研究
刘炜等针对公共文化服条大数据发展的顶层设计,研究了这一过程中的政策与宏观管理、产业链与行业生态、技术标准规范等问题[7]。李广建等认为应着重关注公共文化服条大数据的概念与边界、方法体系、数据集成整合、用户画像建模、精准服条以及发展战略研究[8]。曹健等介绍了基于Hadoop的高校图书馆数字资源大数据分析系统,包括基础数据集成、读者标签化、资源分析、业条分析以及系统综合管理等五个功能模块[9]。曹磊总结了国外公共文化大数据应用创新实践,包括公共需求获取、开放整合数据提高资源利用效率、数据近端移动项目开发等[10]。这些研究建立了公共文化大数据应用的初步理论和框架,对公共文化领域的数据资源进行了很好的分析与梳理,描述了数据分析的应用场景,为大数据在公共文化领域的应用实践提供了有力的指导与帮助。
(2)公共文化领域的信息抽取研究
图书馆作为公共文化服条机构的典型代表,所拥有的数据资源以文本类型为主,从文本数据中抽取有针对性的信息单元有着广泛的应用价值。张智雄认为信息抽取技术可以在数字内容的自动标引、元数据获取、数据挖掘、情报分析研究、大型知识库数值库建设和参考咨询等方面发挥重要作用[11]。毕崇武等人提出了一种基于知识链接的多粒度知识集合集成方法,将数字图书馆知识服条从文献单元深入到以知识元、知识元集合为单位的精细单元上[12]。牟冬梅等人以本体提供的语义知识为依据,构建了以“元数据、领域本体、桥本体、本体解析体系”为核心的语义模型,用于对数字图书馆中数字资源进行实体抽取和语义关系的形式化描述[13]。
1.3 研究述评
这些研究进展对于分析诊断公共文化服条领域存在的问题、创新公共文化产品供给与服条模式、建立公共文化服条大数据体系具有良好的推动与促进作用。但从当前宏观管理、社会需求与技术变革的视角来看,这些研究还存在以下不足或可改进之处。
(1)计量分析类论文能反映研究进展,但难以反映业条动态
对以论文为主的研究成果进行计量分析与主题演化分析,能够较好地反映研究热点与研究趋势,但对行业发展动态、业条模式等揭示度不够,这类在官方介绍、新闻报道、领导讲话、机构年报等中反映会更充分,以这些实际发生的业条数据为研究对象的研究还不多见。对政策文本进行计量分析与内容分析也是一种好的尝试,但这类研究更加依赖于政策发布的密度与覆盖面,而且政策法规的制定与出台本身需要经过很长时间的论证,时滞比较长,适合历史研究与长期规划方面的洞察。对于最新的行业动态难以即时反映与体现。
(2)公共文化服条大数据研究体系设计探讨较多,实证数据研究较少。
公共文化服条大数据方面,理论探讨与体系设计的研究较多一些,有些大数据应用方面的探讨,但研究往往还是从理论视角切入,通过对实际数据进行分析与处理的研究并不多见。有涉及到大数据技术实现的,多以某单位或某地区的相关单位的业条数据为主,从全国的层面利用实际数据和大数据技术解决行业问题的研究尚不多见。内容计算方面,主要是对外部的政策文件和内部储藏的文献资源进行信息抽取,针对图书馆等机构自身的业条数据、报告文本的信息抽取相对较少,缺少对于我国公共文化服条领域整体上的工作重心和特色主题的动态监测与刻画。
因此本文在前人的研究成果基础上,尝试从我国省级图书馆、文化馆等具体单位入手,收集其馆内相关的新闻资讯与活动报道文本并做主题分析,以LDA主题模型分析为主,探究全国各省公共文化机构的服条重点,监测公共文化行业发展的最新动态,揭示公共文化服条的领域发展现状。
2 研究设计与数据准备
2.1 研究内容与流程
本文针对中国除港澳台地区以外的31个省的图书馆和文化馆官网所发布的活动报道和新闻资讯文本进行主题挖掘。采用爬虫技术对新闻和活动报道的文本数据进行采集,对获取的文本数据进行一系列预处理操作,先根据正则表达式去除文本中的特殊字符、标点符号以及乱码等符号,再对文本进行中文分词、停用词处理等操作,通过扩充停用词表和自定义领域词表进行优化分词结果。
通过TF-IDF对文本语料进行关键词提取和聚类,得出初步的主题提取结果。在分词结果基础上进行LDA主题建模,主题建模过程中引入“主题一致性”控制主题分类结果数量。以关键词聚类得出的主题聚类结果为参考,综合LDA模型的分类结果和相应主题类下的关键词,经过主题筛选和合并获得最终的主题提取结果。
基于提取出的主题按照省份地区、时间等特征进行统计分析和关联分析,描述我国省一级单位的公共文化机构的业条主线、时代特点与地方特色等,揭示各个省份地区所打造的公共文化主题特色以及地区之间的文化主题相似性。具体研究流程如图1所示。
图1 基于LDA的公共文化主题提取分析流程图
2.2 数据特点分析与获取
公共文化领域的活动报告、新闻资讯等既有一般新闻的共性特点,也有公共文化领域的自身特色。充分分析并梳理这些数据的特点,将有助于后续的技术选型与分析处理。
2.2.1 公共文化新闻活动文本的特点
活动报道或新闻资讯多数是针对于某一特定事件的官方报道,反映该公共文化机构对于该活动事件的描述、总结和评价。具体来说具有以下特征:
(1)主体事件明确。一般来说,一篇活动报道会配有一个文章标题,标题常常是对文章主要内容的总结。例如:《“用爱发声,共同战‘疫’”优秀朗读作品展示——致敬最美逆行者》,在此标题中就提到了本篇报道的主体事件:抗疫相关的优秀朗读作品展示。(2)用语相对规范。作为新闻、报告等应用类文本,其用语习惯为书面语,语言规范性强。(3)表述充满人文关怀。由于处于网络环境中,加之公共文化领域本身体现着文学修养、人文关怀与文化传播功能,活动报道的撰写会使用一些网络流行词汇和句式,注入一些情感色彩,使之更加生动、具象,如“让传统文化青春不老!”。这也是公共文化领域明显的用语特点。
2.2.2 文本数据获取
本文使用网络爬虫作为文本收集工具,文本数据来源于31个的图书馆和文化馆官方网站,通过编写scrapy爬虫框架,从各个图书馆、文化馆的官方网站上获取新闻和活动报道的文本数据,以csv的文件格式保存。除去天津、上海等地的几个放弃网站维护的文化馆,共收集到51个馆的53 306条文本数据。各年度的文本数量情况如图2所示。
图2 各年度文本数量分布图
由图2可以看出,我国省级公共文化服条机构对于新闻与活动报道的文本数量逐年攀升,在2015年与2019年两个年度实现了快速增长,较前一年度增长近一倍,主要是由于在2015年1月发布了《国家基本公共文化服条指导标准(2015—2020年)》,相应的文化机构在这期间逐步落实文化活动的举办和记录。
根据时间、地域与主题的分析需求,本研究关于活动报道的描述共确定了6个数据项,分别为所在省份、馆类、馆名、标题、发布时间和正文。其中前三个数据项是可枚举的,数据集确定,后三个数据项对于各条信息不尽相同。
2.3 数据预处理
2.3.1 数据清洗
中文文本清洗是使文本数据标准化的过程,为了便于后续自然语言处理,需要进行如下操作:
统一文本的编码方式,采用UTF-8格式。
(2)缺失值处理,删除数据不完整项。
(3)去除非文本部分,主要包括活动内容文本中的空白符、换行符、标点符号、网页URL链接以及HTML字符和标签等,统一采用正则表达式处理。
2.3.2 中文分词
本文采用的中文分词工具为python编程环境下的jieba分词库。
分词系统配置与分词结果展示
在词典分词方法中,词典的质量直接决定分词效果的好坏。因此在分词过程中,为了获得更好的分词效果,需要用户添加自定义词典和停用词表。
① 停用词设置:停用词指在文档中出现频率高但是对于文本分析没有太大实际意义的介词、助词、连词等,比如常见的“的”、“了”、“呢”。本文综合了“哈工大停用词词库”等几种常用停用词表,并结合后续的分词结果不断向其中添加新的停用词,最终得到4 765条停用词。
② 引入用户词典:对于特定的研究领域,需要构建相关的领域词典提高分词准确率。本文主要使用hanlp主词典。此外,在对文本进行初步分词后,提取高频词,结合公共文化领域对高频词进行扩展并添加入用户词典。一些固定搭配如“公共数字文化云平台”等就避免了被进一步切分。
2.4 主题抽取方法选择
主题提取又称特征提取,提取文档主题是获取文本有价值信息最有效直接的方式之一。在文本分析领域,主题提取是最为基础和重要的内容。常见的主题提取方法可以分为三类:基于统计特征、基于语义和主题模型的主题提取方法。
基于统计特征的提取方法着眼于关键词的出现频率,倾向于直接从文档中获取关键词,常见的方法是借助TF-IDF(Term Frequency-Inverse Document Frequency,词频-倒排文档频次)算法获得词项的权重,将高权重词列为特征选项。Li-Ping Jing等人就采用TF-IDF作为特征选取方法,将权重高的词作为特征词,为文本数据建立向量空间模型[14]。李昌兵等人将重点放在词间关系上,使用改进的Apriori算法寻找词语的频繁项集从网络用户评论中筛选得出产品特征[15]。
基于语义的方法则注重词汇之间的语义相关性,其往往需要构建庞大的语义网络和完善的语义规则。张韦引入WordNet本体库在web文本间进行语义相似度计算,利用文本之间的相似度进行主题的语义级别合并,在对文本进行聚类后再在各个主题内部使用改进的TF-IDF算法提取主题关键词,在web主题提取研究上取得了良好的效果[16]。
相较于前两类方法,主题模型着眼于从文本语料中发现隐藏在词汇下的潜在语义,将文档向量从高维的词项空间映射到低维的主题空间。主题模型领域中最为经典和热门的模型就是LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型,这一模型最早由Blei等人提出,对包含多主题的文本进行分类提取主题有着较好的效果[17]。后续的主题抽取研究多为LDA模型基础上的改良,例如Blei等人提出一种相关主题模型(CTM),采用Logistic正态分布代替Dirichlet先验分布以获得主题之间的相关性并对主题相关性进行建模[18]。
相较于TF-IDF算法的过于注重词频而常常忽视词语背后的语义关联、语义分析模型的难降维以及计算耗时等缺点,主题模型集合了机器学习的优点,可以迅速从大量文本中挖掘出隐含主题信息。也正因此,越来越多研究人员采用LDA模型作为主题提取的常规方法来完成领域文本分析任条。
3 公共文化机构新闻与活动报道的主题挖掘
针对经过分词处理的新闻文本进行主题挖掘,主要涉及的内容包括统计高频词、基于TFIDF提取关键词和LDA主题模型的构建与优化。
3.1 基于TF-IDF的关键词提取
用TF-IDF算法从长文本中提取关键词。利用jieba分词中的jieba.analyse.extract_tags模块,通过其内置的TF-IDF算法对文档处理,可以获得文本语料的关键词。通过设置参数topK=10,获取了每篇文本语料权重得分前10位的关键词及其TF-IDF权重占比,提取结果如图3所示。
图3 关键词提取结果
为每一篇文档进行关键词提取后,得到每篇文档的最多10个关键词及其TF-IDF值,对所有文档中的关键词及其权重占比进行统计求和可得到各关键词的总权重。再统计各关键词之间在同一文档中的共现次数,结合各词的总权重和关键词之间在文本中的共现情况可建立起关键词之间的共现矩阵。将各关键词作为节点,TFIDF值作为节点权重,关键词共现次数作为边权重,构建成词共现网络,将数据导入可视化软件Gephi,选择合适的排布方式、调整各指标参数,挑选权重占比最高的100个关键词并绘制其无向关系网络图。结果如图4所示。
图4 关键词关系网络图
利用Gephi内置的模块化算法[19](Modularity Class)对各节点进行聚类。从图4中可以看出,公共文化服条领域的信息报道集中在儿童与学生教育、摄影美术展览、培训活动、疫情讯息、室外节目演出活动和非物质文化遗产保护等6个主题大类。
3.2 LDA主题模型构建
3.2.1 训练模型构建与优化
本文利用python的gensim库实现LDA主题模型的构建,gensim可以从原始的非结构化文本中,无监督地学习到文本隐层的主题向量表达,支持包括TF-IDF, LSA, LDA和word2vec在内的多种模型[20]。
在以gensim构建的LDA主题模型中,最终训练结果的质量主要取决于以下参数:
① id2word,训练语料生成的词典,由gensim中的coropra模块将分词后的语料集合收录形成。
② corpus,训练语料的词向量,将初始的新闻文本语料进行去停用词、分词处理后,再根据生成的词典将语料文本映射而成的稀疏向量集。
③ alpha、eta,分别是文档-主题、主题-词项Diriclet先验分布的超参数,一般设为默认常量[21]。
④ num_topics,预先设定要生成的主题数量,一般需要不断尝试并通过选择主题数量以优化模型。
⑤ passes,模型迭代的次数,此处设置为20。
在对生成的LDA主题模型的效果评估上,采用“主题一致性”(topic coherence)指标进行检验[22]。这一指标旨在为主题模型分类提高解释性,保证同一主题类别下的主题词间有较好的关联性[23]。一般来说主题一致性得分越高说明训练的主题模型效果越好。
3.2.2 最佳主题数量估计
LDA主题模型的主题数量最终仍需要人工确定,本文设置了主题数目从5到29遍历,为每一个模型进行训练并计算其主题一致性得分,如图5所示。
图5 主题一致性得分
一方面要使主题一致性尽可能高以取得较好的模型训练效果,另一方面也需要控制主题数量相对较少以便于后续主题概括与解释,因此本文最终确定主题数目为14个。
3.2.3 主题挖掘结果
本文运用可视化工具pyLDAvis,为LDA主题模型提取出的主题分类结果绘制主题分布图,结果如图6所示。图中每个圆圈代表一个主题,圆圈大小代表涉及到的相关文本数量,圆圈之间的距离代表各主题的相似性。
图6 主题分布可视化
从图6可以看出,主题10与主题11、主题7与主题9重合度过高,对比各主题关键词发现其语义相似度确实较为接近,因此本文将这几个主题两两合并,另外将涉及文本数最少、主题特征最不显著的主题14作为噪声进行筛除,最终得到11个主题分类结果。针对公共文化机构的新闻与活动报道文本的具体主题抽取结果见表1,通过分析各关键词之间的联系,对提取出的新闻与活动文本的主题进行总结并加以命名。
表1 主题分类结果
4 热点主题可视化分析
根据训练的LDA主题模型得出的11类新闻主题对全体文本进行主题预测,得到每篇文档贡献百分比最高的主题分类,将得分最高的主题作为文档代表主题进行统计。
4.1 热点主题新闻文本数量的时间分布情况
根据每篇文档的主题分类和发布时间,可以绘制出各主题相关的新闻文本数量的年度变化趋势,如图7与8所示。
图7 主题新闻活动时间分布图1
图8 主题新闻活动时间分布图2
由于2010年以前的网站服条尚未完善,数据量过少,故只统计2010至2019年的主题变化情况。从整体发展趋势上看,表演型展出、学生教育、展览型展出以及相关的新闻或活动数量在2015年迅速增加,且随后开始逐年攀升。结合国家中央机构于2015年1月发布的《国家基本公共文化服条指导标准(2015—2020年)》,其中对社会基本公共文化服条项目落实如开展文体活动和文艺演出的开展做出了明确要求。这说明国家要求拓展公共文化机构的延伸服条、全面提升其服条能力,另一方面也说明各机构对于文化政策的执行能力强,行业发展具有活力。总体来说我国基本公共文化服条项目正在逐步落实、稳健发展。
统计各主题在每一年的文本数量占比可以看出政府相关机构的工作重心的转移情况。本文根据主题变化情况将11个主题大致归为增长型、衰减型和波动型主题。
(1)增长型主题。主要包括表演型演出、展览型演出、通知通告类和非遗传承。前两类主题的占比自2013年以来就不断上升,至2019年表演型演出占比已达45%。公共文化机构发挥其社会职能最直接的方式就是开展文化演出活动。一方面这类活动的服条面广,受欢迎程度高,群众参与度高、参与感强;另一方面此类活动便于通过互联网媒体报道,宣传效果好,加上文化馆逐年增加的活动经费投入,也促使这类活动占据蓬勃发展。非遗传承的关键词主要包括文化遗产、非遗保护等。由于本身主题领域较窄,其主题占比在以往一直保持在0.5%左右,直到2017年才迅速增加并保持在2%的水平。这方面主要得益于国家对于非遗保护的重视,于2016年投入大量预算,建设的非遗保护项目达到了“十二五”时期的4.4倍。另一方面也是得益于数字技术的进步,自2010年“中国非遗数字化保护工程”被列为文化部“十二五”时期规划项目以来,我国非遗档案的数字化进程持续加快。
(2)衰弱型主题为“数字化资源建设”和“古籍保护”。这类主题的减少,与图书馆领域的总体研究方向转变有关。数字化资源是以图书馆为主,资源数字化的主要工作与问题在2000年前后较为关注,之后逐步得到解决。2013年大数据流行以后,由数字化资源本身的关注转到用户分析、服条模式创新等方面。互联网的兴起使得文化传播轻易突破地域壁垒,造成图书馆趋于同质化,另一方面互联网上丰富的资源降低了读者前往图书馆获取资源的意愿,弱化了图书馆文献资源保存与传播的职能,使得图书馆转向开展文化教育活动上。古籍保护与数字资源建设同理,展示度不高、用户参与不强,有些古籍已完成建档、数字化等过程,另外有些研究开始转向数字人文,如“数字敦煌”、“数字记忆”等。
(3)波动型主题是指一直以来保持相对较低的比重,只有在特定的某一年其占比会飙升。这类主题包括“传统文化”、“机构与领导”和“基层社区文化”。其中“传统文化”和“基层社区文化”的主题占比都在2014年急速提升,当年中国图书馆学会开展了“中国优秀传统文化”主题论坛,在强调了要提升图书馆文化职能的同时也凸显了传统文化元素,推动了传统文化的展示与传播。“基层社区文化”主题的升温主要与当时社区文化建设有关。“机构与领导”主题则一度于2013年主题占比达到39%。原因在于当时大部分文化机构的线上资源建设仍处于发展阶段,根据统计2013年的文本来源发现山东省图书馆占了较大比重,这可能与行政气氛浓郁等因素有关。
4.2 热点主题新闻与活动的地域分布特点
根据统计获得省份与主题分布之间的关系,按照相关文本数计算各个省份在每个主题的文本分布比例。将每个省份在各主题上的分布比例映射成向量,用以表示其主题分布情况。计算各主题向量两两之间的夹角余弦,以此描述各省份文化机构的主题相似性。将相似度达到一定阈值的省份聚类,本文设定的阈值为0.95,最终得到三个相似省份集合,如图9-11所示。
图9 省市-主题雷达分布图1
图10 省市-主题雷达分布图2
图11 省市-主题雷达分布图3
第一组包括广东、陕西和新疆三个省份,这一组在学生教育这个主题上尤为突出。第二组包括重庆、湖南、江苏、浙江、青海和宁夏六个省份,主题分布特点为展出型活动上。第三组包括辽宁、山西、广西、湖北、贵州、甘肃和海南七个省份,主题分布上着重于发展学生教育和数字化资源建设。从聚类结果来看,区域相近的省份不一定聚到一块,这也反映出在公共文化领域,相同区域的省份有明显的差异化发展特点。
利用雷达分布图可以发现,各省级文化机构都有着各自的主题倾向,但是在大多数省份文化表演活动的开展和教育学习活动的报道都在总的活动文本中占有一定比重。通过对各省级文化机构主题分布进行比较分类,有利于将来各省文化单位之间开展文化学习活动,有利于主题相似的省份之间建设省间文化机构的区域性合作关系。
5 结论与讨论
5.1 研究结论
本文主要对我国省级公共文化机构网站发布的新闻资讯和活动文本进行文本挖掘。从时间演化上来说,近些年随着互联网的发展政府相关机构也已建立并完善数字化门户平台,各类主题的活动开展与新闻报道数量也逐年增多。从各类主题文本的内部比例来看,我国公共文化机构对表演型艺术活动的关注度逐渐升高,与此对应的就是其对数字化资源建设和古籍保护等工作的相关报道占比在逐年降低,机构将工作力量从这两个方面挪到活动开展上,可以看出是在响应国家相关指导文件对重视文化服条活动项目的呼吁,以更好地实现公共文化服条的功能。从省域分布上来看,各省级公共文化机构都有着各自的主题倾向,但是在大多数省份文化表演活动的开展和教育学习活动的报道都在总的活动文本中占有一定比重,这类活动用户参与强、展示度高。
5.2 研究局限
本文虽然得到了些有意思的结论,但也存在一些不足或局限。
(1)只选取了省一级的图书馆与文化馆两类公共文化机构,一方面公共文化机构类型不够丰富;另一方面,有些地方特色的文化服条活动与模式在市级、区县级表现得更多一些。
(2)本文只选择了公共文化服条机构的官方网站信息,而有些公共文化服条机构的官方微博、微信公众号等信息也比较丰富。只用官方网站信息虽然在全局上可以描述整体情况,但对具体的某个机构来讲,信息难免有所偏颇。
(3)虽然本文根据所选的主题领域对自定义词典进行了扩充,但仍有一些机构名称、活动事件名称未被准确识别,影响了分词效果及后续研究。在之后的研究中可针对这些专有名词开展命名实体识别,进一步改善模型效果。