APP下载

图书馆服务质量评价中微博数据的应用研究

2014-02-09文炯

新世纪图书馆 2014年8期
关键词:广药博文聚类

文炯

图书馆服务质量评价中微博数据的应用研究

文炯

论文探讨利用R语言工具对图书馆新浪微博数据进行子主题聚类和挖掘,指出:在文本分词、构建词频——文档矩阵的基础上,使用Pamk算法和Kmeans算法进行微博聚类,获取图书馆服务质量评价与建议信息,挖掘图书馆核心微博用户,便于图书馆利用微博数据评估服务效果,改进服务质量。

微博图书馆服务质量评价文本聚类核心用户

微博(Microblogging)是目前图书馆服务广为采用的SNS形式之一,集信息传播、获取、分享和互动为一体,用户可随时随地通过手机、即时通讯、Web等方式更新博文、组建个人社区,关注目标对象,获取外界信息[1]。用户越来越多地开始选择微博作为评价图书馆服务、提出服务意见的工具和平台。

以“微博”及“图书馆”为关键词,通过逻辑“与”运算符连接,在《中国期刊全文数据库》中进行统计发现,虽然目前国内图书馆学界对“微博”主题挖掘研究的文献不少,但多以语义分析,抽取的主题较为宽泛,而以特定主题为导向,进行“微博”主题下的子话题挖掘和聚类的研究甚少。本文将在上述研究的基础上,以“图书馆”为主题,探讨利用R语言工具对图书馆新浪微博数据进行子主题聚类和挖掘,获取图书馆服务质量评价与建议信息,挖掘图书馆核心微博用户,便于图书馆利用微博数据评估服务效果,改进服务质量。

1 设计思路和方案

R是一种免费、开源的面向对象的可编程语言,通俗易懂,拓展性强,拥有大量强大的数据统计分析功能包和科学数据可视化工具。基于以上特点,本文拟用R工具进行图书馆微博数据的挖掘研究。

图书馆微博数据以文本方式呈现,是高度非结构化数据,在文本预处理基础上,利用Pamk和Kmeans多层算法相结合的方式对微博文本聚类,实现图书馆主题下的子主题划分,甄选图书馆服务质量评价方面的有用数据,并根据微博文本获取相应用户ID,挖掘图书馆微博的核心用户群体,这是本文研究的重点。

1.1 微博文本预处理

微博文本预处理是抽取代表文本特征的元数据并进行量化,以一定特征项加以表示,将基于自然语言的非结构化文本信息表示为数学矩阵形式,实现非结构化数据向结构化数据转变的过程。主要包括中文分词、词频统计、去停用词和文本向量化等操作。本文利用Ansj分词工具,对微博文本分词,并统计词频和分析微博内容[2]。在此基础上,构建语料库,清理微博文本,利用向量空间模型(VSM)进行文档建模,生成词频—文档矩阵,行对应关键词t,列对应文本向量d,将每个文档视为空间向量,向量值反映词t与文本d的关联度[3]。

1.2 微博文本聚类

文本聚类将相似度较大的文档聚为一类,并将相似度较小的文档加以区分,能将图书馆微博文本划分为各种子主题,有效挖掘图书馆服务质量评价方面的有用数据。图书馆微博文本集合庞大且内容多样,需划分的簇数目无法预知,本文利用Pamk算法结合Kmeans算法的多层次聚类策略来实现微博文本聚类。

(1)对微博文本多次抽样,调用Pamk算法寻找各样本k值,并根据optimum averagesilhouette width或Calinski-Harabasz index两大聚类验证指标验证对应k值的聚类效果,找到各样本最佳k值,得到整个数据集k值范围。Optimum average silhouette width是选取最大的聚类轮廓值sk作为最佳聚类轮廓值,与之对应k值为最佳聚类数目且聚类结果为最佳聚类。sk定义为,该值越接近1表明聚类效果越好。Calinski-Harabasz index则结合簇内凝聚度和簇间分离度验证聚类效果优劣并判断最优簇个数。CH定义为该值越大表明聚类效果越好,其对应k值为最优簇个数[4]。

(2)将所有k值以参数形式回传给Kmeans算法进行迭代和重新定位,根据簇内平均值进行相似性计算,将微博文本划分为k个聚类。算法采用渐变中心的优化方法,在每轮迭代中,一旦将某文本归入某个类中心所在的类,即根据该文本向量修改类中心,以使聚类结果的类内平均相似度尽量大。并以夹角余弦度量文本相似度作为分组依据:

(3)以轮廓系数结合簇内凝聚度(cohesion)与簇间分离度(separation)度量聚类效果,判断各k值条件下聚类的优良性。轮廓系数,其取值-1到 1之间,越接近1表明聚类效果越好,取其最大值所对应的聚类结果为图书馆微博聚类的最终划分[7]。

1.3 获取评价信息,挖掘核心用户

阅读分析“图书馆服务质量评价与建议”子主题微博文本,总结相关信息,发现服务中存在的问题,分析用户评价与建议的时间分布与侧重点变化,分析微博文本的情感倾向,以此评价图书馆服务,改进服务方式与方法,调整服务质量管理策略与方向,提高服务质量;同时,获取相关数据,完善图书馆服务质量测评结果;另外,根据微博文本获取相应用户ID,挖掘图书馆微博的核心用户群体,定时追踪,持久关注,一定程度降低微博应用分析成本,简化应用分析步骤。

2 实证研究

本文以“广东药学院图书馆”为例,通过网络爬虫和新浪API接口批量获取图书馆微博数据。以“广药图书馆”“广东药学院图书馆”“广药”+“图书馆”“广东药学院”+“图书馆”为关键词搜索,结合“用户标签=广药or广东药学院+微博关键词=图书馆”的搜索结果,截止到2013年6月15日共计搜索到15 012条微博数据,经mid值比对去重,最后得到有效微博数据14 764条,每一条微博数据内容均包括:微博ID、作者昵称、微博内容、转发的原帖的内容、微博发布时间、该次搜索的时间、转发数、评论数。

2.1 微博文本预处理

本文利用R语言工具中Rwordseg程序包,使用rJava调用Java分词工具Ansj,对微博文本分词,分析微博内容;利用tm工具包生成语料库,使用tm-map命令清理微博文本,删除多余空格、标点符号、数字、停止词和url等;然后利用TermDocument-Matrix函数对语料库进行断字处理,以归一化的相对词频TF—IDF构建词频—文档矩阵,并使用removeSparseTerms函数,取参数sparse为0.8,对初步生成的稀疏矩阵进行降维处理,提高运算效率和分类精度。

对收集到的14 764条数据,提取微博内容分词后得到广药图书馆微博词语24 621个,删去没实质意义的词汇,抽取频次较高的部分词语绘制成表1。

表1 广药图书馆微博文本高频词语统计表(部分)

分析可见,“广药”“药学院”“图书馆”“我”“我们”等词语出现频次最多,即用户多以主观意识出发,对广药图书馆意见和观点的表达多与自身感受相关;“空调”“冷气”“灯光”等词语说明用户对图书馆硬件设施,尤其与时令季节相关的空调开放多有意见;“借阅”“还书”“存书”“开放”“时间”“光盘”“论文”“排行”等词语表现出用户多在意图书馆藏书量多少、开放时间长短、图书借阅与各项服务便利与否;“老师”“态度”“服务”“建议”等词语表现出用户多在意和评论图书馆工作人员的服务态度与方式。可见,微博用户对图书馆服务质量多有评价,但内容广泛,涉及各层面,多以切身感受为出发点,具有较强情感倾向,一定程度上影响其对图书馆的后续使用。

2.2 微博文本聚类

本文对广药图书馆微博文本构建的词频—文档矩阵观测发现,其大小为863mb,直接调用pamk函数无力计算其k值和聚类。故对原始数据集抽样,每次抽取1500条数据,随机抽样100次,每次取样大小均能调用Pamk函数,且100次提取的样本集之和基本等于原始数据集。对各样本集分词,形成词频—文档矩阵,调用fpc程序包,利用函数pamk(data,usepam=TRUE/FALSE),设参数“usepam=TRUE”,根据optimum average silhouette width计算最优簇数目。最终发现,100个k值表现为以下几个数值:2,4,5,7,8,11,15。k值为4、5的出现频率最高,为63次;k值为2、11、15的出现频率最低,为17次。

确定k值范围后,调用cluster程序包,将Pamk算法获取的7个k值,结合kmeans函数对广药图书馆微博文本进行多次聚类计算:kmeans(x,centers, nstart),取参数“centers=k”,设定聚类数目,并设取随机初始中心的次数nstart=50,该较大值可较好平衡随机初始中心选取对算法的不利影响。

聚类完成后,调用fpc包,利用stats函数计算7种不同k值情况下的轮廓系数,分析当k值分别为2、4、5、7、8、11、15时广药图书馆微博文本的Kmeans算法聚类效果,做出聚类评价,具体结果见表2。

表2 聚类轮廓系数表

由表2可见,对广药图书馆微博文本进行聚类时,k值取11、15时轮廓系数为0.2843和0.2613,属于0.26~0.50区间,表明聚类结果缺乏说服力;k值取2、7、8时轮廓系数为0.5114、0.5635和0.5089,属于0.51~0.71区间,表明聚类结果合理但满意度不够高;k值取4、5时轮廓系数为0.7174和0.7290,表明聚类效果高效且令人信服。而k=5时轮廓系数为最大值,即将广药图书馆微博文本聚为5类时,聚类效果最好。最终对14 764条广药图书馆微博数据,取k值为5进行kmeans聚类,聚类效果见图1:(其纵轴为聚类类别,横轴为数据集合中微博文本的排列序号)。各聚类内部距离平方和分别为:5.114 019、5.108 600、4.561 437、3.692 953、3.561 367,该值较小说明各类中对象个体比较相近。组间距离平方和between_SS占到整体距离平方和total_SS的73.7%,说明各类的类间距离较大,类与类间区别较大。

根据文本内容,广药图书馆微博可以分为5大类:①个人生活类,基本为用户自我行为及自我心情的表达,用户并未以“广药图书馆”为主要叙述内容和对象;②图书馆外观评价类,基本为用户对图书馆建筑、附带园林美化设施等发表的看法;③图书馆使用问题类,基本为用户询问在图书馆使用过程中遇到的种种问题,以寻求解决;④图书馆告知类,基本为图书馆相关组织及其工作人员所发的各类服务、活动等的通知与介绍;⑤图书馆服务评价与建议类,基本为用户从自我角度出发,发表对图书馆硬件设施和服务工作的意见和建议,涉及到图书馆服务的各个层面。①、②、③类微博较多,④、⑤微博较少,其中图书馆服务评价与建议类微博信息总计2343条,占整个数据集的15.87%。

2.3 获取图书馆服务质量评价与建议信息,挖掘图书馆核心微博用户

广药图书馆服务质量评价与建议类微博达2343条,对其阅读分析发现,内容主要集中在以下4个方面:①服务设施类,对图书馆各类硬件设施如书架、桌椅、照明设施、饮水器械等进行评论,尤其对与时令季节密切相关的如夏季空调开放发表意见;②服务资源类,对图书馆文献资源存储量、资源配置比重、资源建设途径等发表意见;③服务态度类,对图书馆工作人员的服务态度发表的评论;④服务方式类,对图书馆各种服务方式如图书借阅时间长短、读者排行表彰、光盘获取方式、论文查询途径等发表意见。

其中服务态度类评价与建议最多,达875条,服务方式类评价与建议最少,达394条,服务资源和设施类评价与建议分别达686和567条,部分微博内容涉及2个及以上方面。4类微博发布时间都基本贯穿整个数据集时间段,服务态度和服务方式类评价与建议逐年上升,用户关注重点逐渐转移至服务“软实力”方面。64.89%的微博为抱怨类信息,显示用户对图书馆服务质量不满、信任度降低。利用上述挖掘信息,可评价图书馆服务质量,发现服务中存在的问题,从而改进图书馆服务方式与方法,调整服务质量管理的策略与方向,提高服务质量。另数据集时间分布为2009.3.12—2013.6.15,按一定时间段划分总结,作为图书馆服务质量测评的数据来源与辅助手段,可完善测评结果。

本文抓取的微博字段包括:“MID”“Author”“Weibo”“Forward”“Time_Weibo”“Time_Search”“Count_Forward”“Count_Reply”。可由文本内容(Weibo)获取对应用户ID(Author),即根据图书馆微博文本聚类结果,挖掘图书馆核心微博用户,进行长期追踪。结果发现,2343条图书馆服务评价与建议类微博共指向216个微博用户,其中公共平台用户和机构用户48个,个人微博用户168个,前者发表微博1568条,后者发表微博775条。该216名用户为微博平台中图书馆服务质量评价方面的主要用户。但有时用户会选择在图书馆及其工作人员发表的微博下发表评论意见,因此图书馆微博用户的核心群体除216名图书馆服务质量评价方面的主要用户外,还应包括图书馆告知类微博用户。而图书馆告知类微博1626条共指向47个微博用户,其中机构用户18个、个人微博用户29个,前者发表微博1092条,后者发表微博534条。即广药图书馆微博用户的核心群体为上述263名微博用户。表3为排名前10的核心微博用户及其所发表的图书馆相关的微博数。

表3 广药图书馆核心微博用户表

3 结语

图书馆微博数据看似纷繁复杂,实则包含大量服务评价与意见信息。图书馆服务质量评价因带有用户主观感情色彩往往会被高频率转发和关注,形成较强舆论倾向并在一定程度上影响用户对图书馆的后续使用。因此,从大数据角度出发,对图书馆微博数据进行收集、挖掘和聚类是极其必要的。这不仅能有效收集用户意见,及时发现图书馆服务问题所在,而且能对微博用户进行区分,发现核心用户,便于从长远角度持续、快捷地获取微博中图书馆服务质量评价信息,最终改善图书馆服务质量和形象。

[1]高俊奎,付永宏,吴素彬.美国情报体制发展趋势研究[J].情报杂志,2010(2):27-29.

[2]魏晓宁.基于隐马尔科夫模型的中文分词研究[J].电脑知识与技术,2007(21):885-886.

[3]石佑红.基于支持向量机的文本分类的研究[D].北京:北京交通大学,2007.

[4]朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010,30(2):139-141.

[5]方匡南.基于数据挖掘的分类和聚类算法研究及R语言实现[D].广州:暨南大学,2007.

[6]郭茜.搜索引擎结果冗余信息消解算法的研究与应用[D].上海:东华大学,2010.

[7]肖凤,郑海健,卢闯.基于聚类分析的银行客户关系管理策略研究[J].技术经济,2010,29(1):87-93.

[8]陈希.基于R语言数据挖掘的社交网络客户细分研究[D].北京:北京邮电大学,2011.

[9]刘思喆.R语言环境下的文本挖掘[EB/OL].(2012-03-19)[2013-09-20].http://www.bjt.name/2012/03/ text-mining-in-r/.

[10]Lijian.Rweibo[EB/OL].(2011-03-21)[2013-09-20]. http://jliblog.com/app/rweibo.

[11]Lijian.Rwordseg[EB/OL].(2012-12-23)[2013-09-20].http://jliblog.com/app/rwordseg.

[12]Robert I.Kabacoff.Quick—R[EB/OL].[2013-09-20]. http://www.statmethods.net/.

[13]An Introduction to R[EB/OL].(2013-05-16)[2013-09-20].http://cran.r-project.org/doc/manuals/R-intro. pdf.

[14]薛毅.统计建模与R软件[M].北京:清华大学出版社,2007.

文炯广东药学院图书馆馆员。广东广州510006。

Research on the Application of the Microblog Data in the Library's Service Quality Evaluation

Wen Jiong

This paper investigates the sub topic mining and clustering of the library’s Sina microblog data by using R language tool.It points out that based on the text segmentation and term—document matrix,clustering library’s Sina microblog data by using Pamk algorithm and Kmeans algorithm to gain library’s service quality evaluations and advices and to unearth Sina microblog’s core?users of the library,can be easy for us to evaluate the library’s service effect and improve its service quality.

Microblog.Library’s service quality evaluation.Text clustering.Core users.

G250.7

2013-11-22编校:方玮)

猜你喜欢

广药博文聚类
第一次挣钱
基于数据降维与聚类的车联网数据分析应用
李楚源:广药驰援前线
基于模糊聚类和支持向量回归的成绩预测
最高法驳广药再审申请 加多宝王老吉继续共享红罐包装
加多宝被判赔广药14亿多元 将提起上诉
谁和谁好
基于密度的自适应搜索增量聚类法
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
王老吉引爆商战?两大股东各有算盘