APP下载

大数据环境下微信公众平台非结构化数据融合研究

2015-07-20郭春霞

现代情报 2015年8期
关键词:结构化公众微信

郭春霞

(滨州学院图书馆,山东滨州256600)

大数据环境下微信公众平台非结构化数据融合研究

郭春霞

(滨州学院图书馆,山东滨州256600)

〔摘 要〕微信公众平台具有开源、发布及时的特点,目前它已经成为各机构发布信息的重要渠道。但这类数据又具有非结构化、无语义描述的特点,如何将微信公众平台从非结构化数据转化为可分析、判断的结构化数据,成为一个亟须解决的问题。针对该问题,本文提出一个对微信公众平台结构化数据监测的层次体系。这一方法将通过数据融合方式,从平台资源中抽取数据,构建结构化数据库,进行权重比较,判断情报价值,进而实现对研究领域的态势监测。

〔关键词〕微信公众平台;非结构化数据;同型异源数据;异型异源数据;同型同源数据;数据融合;态势监测

由于手机终端设备越来越智能化,3G手机、4G手机以及WiFi的普及为网民提供了更为优质的上网环境,微信成为人们交流和传播信息最广泛的平台。2015年2月3日CNNIC(中国互联网络信息中心)发布的第35次《中国互联网络发展状况统计报告》显示,截至2014年12月,我国手机网民规模达6.49亿人,手机网民为5.57亿人,手机即时通信使用率为91.2%[1]。2011年1月21日,腾讯公司推出微信,支持发送语音输入、小视频、实时对讲机、图片和文字等功能,适合大部分智能手机,截至2014年7月,已有超过3亿人使用。手机微信成为一个生活方式[2]。

2012年8月,腾讯公司推出致力于为机构或个人提供服务拓展、品牌推广渠道的微信公众平台,其核心理念为“再小的个体,也有自己的品牌”[3]。公众平台从推出至今,通过不断丰富、完善自身的功能,用户遍布社会知名人士、商业团体、企事业单位、政府机构等众多领域。每个公众平台都有所属组织机构发布的重要信息,在这里人们可以更快、更便捷地了解相关机构的动态和活动。如《图书情报工作》期刊截至2015年3月23日,在CNKI中仅列出2015年第3期的全文,没有第4期的任何信息,但却能从其微信公众平台上看到2015年第4期的期刊目录。

微信公众平台已经成为移动设备中开源情报重要的获取源之一。这些信息大部分是一种非结构化、无语义描述的信息。他们的结构不同、内容不同、布局不同,这使得从微信公众平台获取数据带来难度。如何实现将微信公众平台非结构化的、自由的信息转化为可计算的、结构化的数据,成为开源情报获取的一个重要问题。

针对上述问题,笔者提出了一个针对微信公众平台结构化监测的层次体系,并基于这一思路设计了一个技术框架。

1 微信公众平台的非结构化数据类型分析

随着移动互联网、物联网和云计算技术的迅速发展,大数据时代已经来临[4]。非结构化数据成为科研的重点对象。微信公众平台是一个多种信息资源交互的平台,数据呈现多重格式,如视频、音频、图像、文档等,这些数据格式呈现明显的异构性,有结构化数据、半结构化数据,还有非结构化的数据[5]。笔者将微信公众平台的非结构化数据源划分为3种类型,即同型异源数据、异型异源数据、同型同源数据(见图1)。

图1 微信公众平台非结构化数据数据源类型划分

1.1同型异源数据

不同微信公众平台相同类型的数据,为同型异源数据。不同的站点有着不同的信息收集渠道、加工体系和标准,不同站点的信息发布模式均不相同。不同的微信平台,发布同一条信息,即使发布数据类型相同,其发布的具体内容、阐述重点也不尽相同,如果利用惟一数据源进行信息分析,获得结论可能会缺乏全面性,故应将多种数据整合在一起,进行融合分析。

1.2异型异源数据

在不同的微信公众平台上,由于数据不同,就会导致不同的数据呈现形式。同一信息,可以以视频、HTML页面、PDF、Word等形式呈现,但表达的内容大致相同,如果对数据进行监测研究,仅对其单一类型进行分析,显然会导致数据分析结果不全面。我们将这些呈现同一信息的数据源进行采集,对其进行各种分析、融合,这样更能得出某信息研究的整体情况。

1.3同型同源数据

同一微信公众平台,数据类型虽然有不同的呈现形式,但总有些内容不同、文献类型相同的信息资源,这些信息资源构成了每个公众平台的主体,是整个信息平台存在的基础。信息源发布方,可根据访问者的检索历史、浏览历史、近期关注的各种数据进行统计整合,判断用户的需求和兴趣点,从而为机构的项目发展或者战略计划的调整提供参考依据。

2 微信公众平台非结构化数据监测

通过对微信公众平台的非结构化数据源数据类型划分可以看出,如果想将这些不同类型、不同内容的数据进行整合、判断、研究,需要对这些数据进行监测。

2.1微信公众平台数据监测思路

机构在微信公众平台发布同类信息时,经常会体现出不同的侧重点。这些侧重点便是公众平台所阐述的主体内容,而侧重点之间的关联揭示出这一平台中其他要点的骨干结构,从而体现出这个平台对于该领域研究人员的意义所在。本文将这些反应平台信息的侧重点称为内容监测对象,将侧重点之间的各种关系称为对象关系。

将非结构化的数据转化为结构化的监测数据,主要思路就是资源的整合和共享。具体操作起来就是从特定平台采集到的信息资源中,提取对该平台有价值的内容作为监测对象:如调研数据、企业规划、项目成果、科研指标等,并通过语法分析、共现分析、语义计算等方法,构建监测层次体系,实现对某研究领域热点的监测与分析。

简而言之,对于每一条从微信公众平台上采集到的数据,利用监测系统,通过关键词抓取技术,从中抓取嵌在其中的数据对象以及数据对象之间的相互关系。如“2014年度‘复印报刊资料’转载学术论文指数排行榜及重要转载来源期刊发布”这一题名,通过内容监测对象抽取,系统将识别出“2014年”“复印报刊资料”“学术论文指数”,形成了“时间——对象——对象”的结构。通过对数据监测对象关键词的抓取,可以实现数据从非结构化向可计算的结构化转换。结合实际需要,研究人员可以利用转换后的结构化数据,实现对监测目标对象进行跟踪和识别、热点内容关注、特定情报价值的判断和提取等功能,从而帮助图书情报人员实现相关领域的态势捕捉、跟踪、分析和可视化表述。

2.2微信平台结构化监测层次体系

通过上述分析,可细化为一个结构化监测的层次体系(如图2所示)。这一平台重点完成结构化监测的4项任务,即确定监测源、多源信息采集、多源数据融合以及价值体现。

2.2.1确定监测源

确定监测源是指确定需要监测的领域、站点以及站点之下的目录。对于微信公众平台来讲,把需监测相关机构的数据纳入目标监测范围,对其进行监测跟踪。

2.2.2多源数据采集

多源数据采集是指利用多种分布式网络定向采集器定期向目标站点进行采集和收割。将不同呈现形式的数据(如视频、音频、图片、文档等)采集到语义库。

2.2.3多源数据融合

多源数据融合是指把通过不同收集渠道、加工体系和采集模式获取的具有不同数据结构的信息进行整合,形成格式统一、应用广泛的数据集合。这一过程称为多源数据融合[6]。把这些数据融合汇聚在一起进行相关性分析,可以更全面、更透彻地揭示事物联系,寻找新的模式和关系,从而为市场研发、商业模式创新、竞争机会选择提供有力的数据支撑与决策参考。

2.2.4价值体现

经过对数据进行整合分析,可提供热点跟踪、态势分析、重要情报揭示等服务。

图2 微信公众平台结构化监测层次体系

3 微信平台结构监测技术

微信公众平台的监测,一般需要回答3个方面的问题:确定开源情报需关注的领域(包括这一领域的重要机构、人物、项目、计划、战略等),通过监测,所获取的信息资源中是否有需关注内容?如何从众多信息资源中整合出重点情报,进行结构化数据转换?对获得的情报内容如何梳理,判断是否有今后的关注点。

围绕这3个问题,笔者基于将非结构化数据转化为结构化数据的融合思路,按照字段映射、字段拆分、数据记录虑重、异构数据加权的要求[7],设计出上述3个问题的解决方案。构建监测本体指导目标内容监测;基于内容之间的相互关系,利用字段拆分、映射、虑重,实现数据从非结构化到结构化的转化;对整合之后的结构化数据进行加权分析、价值判断,对于有价值的数据进行分析。

3.1构建监测本体,指导目标源监测

监测目标是监测研究团队希望通过对目标的监测,获得与本领域重大活动相关的内容。由于研究领域各不相同,每个领域可根据自己领域的重要机构来确定自己的监测目标,构建一个自建数据库,将重要的监测平台链接切换到数据库中。利用编程程序,在一定的时间内,自动提醒监测团队对目标内容的跟踪,使监测目标能够以结构化表达。

3.2针对个体微信公众平台,实现网页内容结构化表示

确定监测目标之后,明确了监测团队的监测内容,抽取嵌入其中的监测对象,通过字段映射、拆分、数据虑重的方式,对监测对象进行标注、规范,将自由文本转换为结构化的、可以计算的数据,实现对微信公众平台研究领域的监测。

对于每一条从微信平台上采集到的数据源(如HTML页面、声像文件等),微信公众监测平台首先通过信息资源抽取技术,抽取嵌入监测对象中的目标数据,然后将知识对象进行字段映射、拆分。将拆分之后的字段,利用数据虑重功能,将重复数据进行清洗,清洗之后,将最终监测的内容进行标注、规范,形成一个结构化化数据库。基于这些结构化数据,分析数据对象之间的相互关系,利用可视化分析软件,实现对目标的对象的识别、跟踪、热点监测、价值判断等功能。微信平台网页内容结构化转化流程,见图3。

图3 微信平台网页内容结构化转化流程

3.3结构化数据进行加权分析、价值判断

不同的数据类型、不同来源的数据,其权重不同,如科研发布的视频与对该视频的评价的文档权重不同,中国科技部发布的数据与地方情报所发布的数据。权重的测算可以通过2种方法。一种是专家法,请几位该领域的专家,凭借其知识结构与经验进行判断,对数据进行打分。不同的专家有不同的认知,致分值不同,故采用平均值,进行排比。另一种我们可以采用实证统计的方法,微信公众平台不同于网页,每条数据都可以统计关注量,可以分享到其他朋友圈,研究人员可根据关注量与分享量进行实证统计排名。通过权重分析,判断数据的价值,提供态势分析、重要情报揭示、热点跟踪的服务。

4 结 语

微信公众平台已经成为战略情报监测的重要资源之一。笔者提出的微信公众平台开源情报的结构化监测的层次体系和简单的融合方法,将这些非结构化的数据从自由文本转为结构化、语义化的情报资源,并且利用这些资源实现科技战略情报的监测和跟踪。在文中,笔者重点对结构化监测的层次体系、方法技术框架进行了阐述。基于这一思路,相关计算机技术人员,可以开发适用于这一领域的“微信公众平台开源情报自动监测系统”,根据监测所得数据,进行从非结构化数据到结构化数据的转换,实现对监测目标的态势分析、热点跟踪,体现其价值。

参考文献

[1]中国互联网络信息中心(CNNIC).第35次中国互联网络发展状况统计报告[EB/OL].http:∥www.cnnic.net.cn/gywm/xwzx/rdxw/2015/201502/t20150203-51631.htm,2015-03-16.

[2]微信是一个生活方式[EB/OL].http:∥weixin.qq.com/,2015-03-07.

[3]再小的个体,也有自己的品牌[EB/OL].http:∥www.siteinseo.com/www/mp.weixin.qq.com/,2015-03-09.

[4]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):957-952.

[5]李广建,化柏林.大数据分析与情报分析关系辨析[J].中国图书馆学报,2014,(5):14-22.

[6]张智雄,张晓林,刘建华,等.网络科技信息结构化监测思路和技术方法实现[J].中国图书馆学报,2014,40(212):4-15.

[7]化柏林.多源信息融合方法研究[J].情报理论与实践,2013,36,(11):16-19.

(本文责任编辑:郭沫含)

·研究生园地·

·业务研究·

Research on Unstructured Data of WeChat Public Platform on Large Data Environment

Guo Chunxia
(Library,Binzhou University,Binzhou 256600,China)

〔Abstract〕Micro letter public platform has the characteristics of open source and timely release,which has become a important information channel of different institutions.But this kind of data is unstructured and without semantic description.How to change the data from unstructured to analyzed and judged has become an urgent problem.To soleve this problem,the paper proposed a hierarchical reflects of the micro-channel public platform data monitoring.This approach would use data fusion methods,extract data from the platform resources,build a structured database,compare them,judge the value of the information and realize the situation monitoring of research field.

〔Key words〕WeChat public platform;unstructured data;data fusion;situation monitoring

作者简介:郭春霞(1978-),女,馆员,硕士,研究方向:信息分析、文献计量,发表论文8篇。

收稿日期:2015-04-22

〔中图分类号〕G250.73

〔文献标识码〕A

〔文章编号〕1008-0821(2015)08-0141-03

DOI:10.3969/j.issn.1008-0821.2015.08.027

猜你喜欢

结构化公众微信
公众号3月热榜
促进知识结构化的主题式复习初探
公众号9月热榜
公众号8月热榜
公众号5月热榜
结构化面试方法在研究生复试中的应用
微信
微信
基于图模型的通用半结构化数据检索
微信