基于爬虫系统的省级公共图书馆微信平台运用调查
2018-02-09谢辉
谢 辉
0 前言
近年省级公共图书馆(以下简称“省馆”)纷纷开通微信公众号服务平台(以下简称“微信公众号”),学者开始研究图书馆微信公众号运营情况。张正等[1]认为,微信为扩展图书馆服务范围、方式和内容提供了新途径。郭春侠等[2]调查31家省馆微信公众号现状,指出服务功能设置和服务水平良莠不齐。整体而言,关于省馆微信公众号的研究侧重于应用现状、功能等方面;而关于微信公众号服务情况及数据分析等定量研究较少。为此,本研究采集2016年5月1日至2017年5月1日各省馆微信公众号推送的文章、文章阅读量、发布时间等作为研究数据,构建微信传播指数WCI评价指标体系,并针对试验数据,从宏观和实例角度探讨省馆微信公众号服务现状及存在问题。
1 研究过程
1.1 数据源选择
本研究数据来自清博指数。清博指数是我国最大的第三方新媒体搜索引擎、微信数据库,其收录的数据包括头条阅读量、发布时间、总阅读量、详细内容、总点赞数、最多阅读文章、图文消息链接、当日阅读量、最近一周阅读量等。依托该平台,本研究统计分析各省馆微信公众号推送文章的传播量、覆盖度、账号成熟度和影响力等。
1.2 数据收集
1.2.1 爬虫系统原理及架构
网络爬虫(Web Crawler)是一种用于自动提取网络信息的工具,主要利用C/C++、Java、Python、Perl等程序语言撰写,自动抽取网页并保存在数据库中,以作为分析或数据探勘使用。网络爬虫基本架构见图1[3]:首先提取程序(Fetcher)抓取HTML文件,并将HTML文件内容放进控制器(Controller)分析;当超链接被搜寻到后,将被链接提取程序抽取出来建立增加新节点到网络爬虫的工作量中,可视为数据结构的队列方式;然后将抽取的HTML文件或想获得的信息通过汇总程序存入数据库,直到网络爬虫工作量内没有要接入的节点之后结束。一般而言,网页搜寻策略方式有4种:IP地址搜寻方法、广度优先、深度优先和最佳优先策略。
图1 网络爬虫系统架构图
1.2.2 微信爬虫系统设计
为方便采集各馆微信公众号推送文章及相关数据,以Python语言为基础,构建微信公众号爬虫系统,主要步骤:(1)统计各馆微信公众号开通情况。通过网上搜索查询和筛选,获得32个省馆微信公众号。(2)通过微信公众号爬虫系统搜寻2016年5月1日至2017年5月1日32个馆微信公众号推送的文章、阅读量、点赞率、链接地址等数据,将其放到非关系型数据库MongoDB的URL_list集合中进行存储,通过爬虫系统搜寻推送文章的链接地址、文章标题和内容,同样存储在URL_list集合中。(3)导出文件。从数据库中导出推送文章链接地址和文本内容数据,以URL.CSV和INFO.CSV格式进行分析使用。
1.3 数据处理
1.3.1 筛选重复数据
利用EXCEL中COUNTIF函数筛选重复的文章链接地址,将其删除。浙江省馆和云南省馆均开通微信订阅号和服务号,因此,将其链接地址及内容数据合并在同一个账号下。由于URL.CSV文件中有24条被发布者删除或内容被举报而无法查看的记录数据,将其进行删除,剩余8065条微信公众号推送文章的链接地址记录,INFO.CSV文件做相应的删除修改,导出数据8065条链接地址,包含文本内容、标题、摘要、点赞数、推送时间等数据。
1.3.2 基于Tableau的数据分析
Tableau是一款可视化数据分析产品。本研究将筛选后的数据导入Tableau中进行分析,结合WCI对各馆微信公众号推送文章位置、日期、时间、传播指数排名、推送时间、推送内容等指标数据进行统计分析。部分数据见图2。
2 调查实践及结果分析
2.1 宏观分析
2.1.1 区域推送数量
为直观地展示各馆地理位置及其推送文章情况,利用EXCEL工具将各馆微信公众号推送文章数量在地图相应位置上进行标记。从图3可以看出,江苏、湖南、黑龙江等省馆微信公众号推送文章数量最多,分别达1325篇、1103篇、850篇。分区域看,东部和南部省馆微信公众号推送文章数量明显较西部和北部多,表明各馆微信平台运行状况与当地经济水平有直接的关系。
2.1.2 推送时间的选择
图2 各省馆公众号采集数据(部分)
图3 省馆微信公众号文章推送量分布
根据爬虫遍历得到的文章推送日期和数量,得出各馆微信公众号推送文章数量随月份变化情况,见图4。2016年12月推送最多,可能逢元旦假期,活动增多;其次是9月、11月推送较多;10月出现低谷,可能与国庆假期有关,影响微信管理人员推送文章。2016年与2017年上半年和对应的下半年相比,上半年微信平台活跃度不如下半年。2.1.3 时间选择
图4 各省馆月均推送数量
根据爬虫搜寻得到各馆推送文章及其推送时间段,以24小时为横坐标,各时间段所有馆推送文章数量的平均数作为纵坐标轴,数据计算结果见图5。由图5可见,各馆0-6点推送文章最少,与工作人员作息保持一致。在上午和下午工作时间段推送数量随时间推移增多,分别在12时和17时达到高峰。13时、14时推送数量出现低谷,这与午休时间相符。在晚上时间段,各馆平均推送文章的数量出现随时间推移而递减趋势,23时达到最低点,这和作息时间相符。
2.2 实例分析
2.2.1 微信公众平台开通现状
截至2017年5月1日,32家省馆全部开通微信平台且完成认证,见表1。其中首都图书馆、天津图书馆、河北省图书馆、黑龙江省图书馆、山东省图书馆、湖南图书馆、浙江图书馆、上海图书馆等8家开通了两个微信平台。山东省图书馆只有一个公众号“山东省图书馆资讯平台”通过认证,另一个公众号是“山东省图书馆”,显示尚未认证。
表1 省馆微信平台开通情况
图5 各时段推送数量统计
图6 省馆微信平均阅读量、平均点赞数统计
图7 省馆微信推文数量统计
2.2.2 推送文章情况分析
整理分析2016年5月1日至2017年5月1日各馆微信公众号推送文章的数量、平均阅读量、平均点赞量(见图6和图7)。鉴于数据完整及公众号的稳定性、可查询性等原因,剔除无效的公众号数据,本文最终选取了27个公众号进行研究。推送数量前4位是湖南图书馆、黑龙江省图书馆、甘肃省图书馆和浙江图书馆,均超过400篇,湖南图书馆更达到1103篇。各馆微信公众号平均阅读量是指所有文章阅读量总和除以文章推送数量求得的平均值,平均阅读量超过1000次的包括湖南、湖北和山东3个省馆,湖南图书馆平均阅读量达5734次。平均点赞数是指各馆微信公众号推送文章的点赞总数除以文章数量所求得的平均值,湖南、四川、山东、吉林4个省馆推送文章的平均点赞数最高,均超过1000个,其中湖南图书馆达5734个。
2.2.3 推送时间
选取湖南、四川、黑龙江、甘肃、浙江5个省馆微信平台服务数据进行统计分析,得到图8。纵坐标用于说明各馆推送文章时间段的选择和平均阅读量,横坐标为一天内各时段。5家省馆微信公众平台推送文章均在12时和15时达到高峰,且12时推送数量远高于其他时段,其中浙江图书馆12时推送文章数量仅次于湖南图书馆,17时甘肃省图书馆推送文章数量排名第二。
图8 各省馆各时段推送文章数量及阅读量均值统计
虽然湖南图书馆将12点作为推送文章的首选时间段,但平均阅读量并非处于全天最高峰,全天阅读最高峰出现在16-20时,说明用户在下午及晚上时段的关注度更高。甘肃省图书馆与黑龙江省图书馆的平均阅读量均较低,说明微信平台推送文章数量与阅读量并非正相关,但与推送时间关系较密切,且阅读量较大的时间段集中在下午及晚上时间段。因此,各馆微信管理人员应在考虑读者阅读时间选择的基础上,提高文章推送效率,选择更加合适的时间进行推送。
2.2.4 推送内容
对湖南、四川、黑龙江、甘肃、浙江等5家省馆推送文章的阅读量进行排名,选择排名前4的文章,排名结果见表2。
表2 微信号高阅读量文章统计
湖南图书馆微信公众号排名前五的文章阅读量均远高于其他馆。其中,排名第一的《父母尚在苟且,你却炫耀诗和远方》阅读量超过11万,该文受到如此大的关注,主因是标题和内容触动了各年龄段人们的情感;排名第二的《他是买下十套学区房却一天也没住过的任性买房者,也是一个你完全想象不到的童话大王》与热点话题紧密相关;其余文章也与热门话题相关,阅读量均超过5万。
四川省图书馆上榜4篇文章中,3篇与南海军事热门话题密切相关。甘肃省图书馆上榜的4篇文章以心灵鸡汤为主,引导人们乐观向上,这与人们压力过大,需要给予开导有关。黑龙江省图书馆和浙江图书馆推送的文章大多为通知、写作,较少涉及热点话题,关注度不高,阅读量较低。
2.3 微信传播指数分析
2.3.1 微信传播指数概述
微信传播指数(Wechat Communication Index,WCI)由清博新媒体指数团队开发,全面反映微信公众平台推送文章的覆盖度、传播范围及其影响力,具有权威性和可靠度。WCI常用指标架构系统及标准化得分的计算公式(见图9)。系统抓取时间一般为系统每日更新账号前一天发布的文章及其阅读数。阅读数量在每日12:00左右更新,统计数据在每天15左右更新,日榜数据采用文章发布第二天的数据进行计算,每天14点左右发布日榜,周榜数据通常为清博指数,设定周日到周六为一周的统计周期。头条总阅读数为某账号当期所有头条文章阅读数总和,总阅读数为某账号当期所有文章阅读数总和。平均阅读数为总阅读数除以某账号当期发布文章数,总点赞数为某账号当期所有文章点赞数总和,平均点赞数为总点赞数除以某账号当期发布文章数,最大阅读数为某账号当期最高阅读数,最大点赞数为某账号当期最高点赞数,点赞率为总点赞数除以总阅读数。图9R为评估时间段内所有文章(n)的阅读总数;Z为评估时间段内所有文章(n)的点赞总数;d为评估时间段所含天数(一般周取7天,月度取30天,年度取365天,其他时间段以真实天数计算);n为评估时间段内账号所发文章数;Rt和Zt为评估时间段内账号所发头条的总阅读数和总点赞数;Rmax和Zmax为评估时间段内账号所发文章的最高阅读数和最高点赞数。
图9 WCI通用指标体系架构及计分方式
2.3.2 WCI评价指标体系构建
为综合评价各馆微信公众号整体服务水平和质量,选取2016年5月1日至2017年5月1日的统计数据作为实验样本,采用总阅读数R、总点赞数Z、发布文章数N、各省馆微信平台当期最高阅读数Rmax、该账号最高点赞数Zmax等作为评价各馆微信公众平台综合服务水平的指标数据来源,构建微信传播指数WCI评价指标体系,详见图10。
图10 微信传播指数WCI评价指标体系
借鉴WCI权重分配标准[8]来确定WCI评价指标体系中的权重系数,选择总阅读数≥1000、<小于1000两种情况,确定不同条件下各指标权重系数(见表3、表4)。
表3 WCI计算公式(总阅读数≥1000)
表4 WCI计算公式(总阅读数<1000)
结合实际情况,得出微信传播指数WCI的计算公式。
2.3.3 评价结果分析
从表5看出,湖南图书馆微信传播指数远远高于其他馆;四川省图书馆、甘肃省图书馆排名第二、第三,且与其剩余馆微信传播指数相差较大,说明微信平台服务水平和质量较高。黑龙江省图书馆、浙江图书馆推送文章数量排名第二、第四,但微信传播指数排名第八、第十,排名相对靠后。
3 省馆微信平台建议与应用拓展
3.1 均衡分配,维持黏性
各馆微信平台平均推送文章数量差异较大,其中湖南图书馆以1136篇高居榜首,黑龙江省图书馆、甘肃省图书馆和浙江图书馆均超过500篇,远超其他馆。通过线下调研,发现各馆微信运用人力资源分配不均衡。统计分析各馆微信平台推送文章数量和推送时间,各馆推送数量最多的月份为2016年12月,其次为9月和11月;上半年推送数量明显低于下半年。由于用户对微信平台的关注度主要依赖文章更新以及文章高热点性,因此应重视微信平台人力资源建设,提升用户对微信平台的依赖性。
3.2 善用指数,合理评价
综合考量各馆微信公众号推送文章数量、阅读数、点赞数等各指标,可知各馆微信平台服务水平和质量存在差异性,说明各馆微信平台运行能力良莠不齐,不同馆面临的问题以及急需改进的问题均不相同。因此,有必要建立科学的微信平台服务水平评价指标体系,通过评价结果来指导各馆改进微信平台服务质量。
表5 省馆微信WCI统计
3.3 原创为主,转载为辅
通过对湖南、四川、黑龙江、甘肃、浙江等5家省馆微信传播指数、文章推送时间段、推送内容等分析发现,获得读者阅读量最多的文章有两个共性:实时性和原创性。湖南图书馆凭借对热点、趣闻等信息掌握的实时性,吸引大量用户,奠定微信平台多项指标均稳居第一的位置;四川省图书馆凭借对热点新闻的深入解读而提升了影响力。因此,各馆可发挥自身优势,加强原创性。
3.4 加大推送频次,完善平台功能
各馆微信公众号推送频次普遍不高,需要提高推送次数,通过完善功能并开通对应接收,使访问者与图书馆管理者实现实时互动,及时将书目等信息推送给用户,通过公众号对应的接口开发特色程序,包含二维码图书在线扫描,实现图书查询和借阅,替代或完成图书馆APP功能。
3.5 扩大传播途径
对社交网络软件来说,多渠道扩大影响是重中之重。图书馆可以将公众号置于网页最醒目的地方,或在图书馆大厅、阅览室设置微信号二维码扫描区域,或在微信公众号中加强与读者的互动,举办有奖征文和竞技类活动,从而提高微信公众号的影响力。
[1]张正.图书馆微信公众平台的构建[J].国家图书馆学刊,2014,23(2):26-31.
[2]郭春侠,李诗琪.国内省级公共图书馆微信平台服务探析[J].现代情报,2016,36(4):128-133.
[3]石恩名,肖晓军.基于云平台的分布式高性能网络爬虫的研究与设计[J].电信科学,2017,43(8):180-186.