Web信息流演化模型研究
2015-04-30侯丹郭树行
侯丹 郭树行
摘要:文章首先界定了Web信息流生命周期的研究范围,综述了信息数量、信息效用价值、舆情热度等Web信息流生命指标方面的相关理论及其适用性;其次从生命周期管理模型视角对现有信息增长、信息效用价值、舆情热度进行归纳评述;再次剖析了互联网舆情引导的管理问题;最后讨论了模型进一步研究所面临的挑战及未来的研究方向。
关键词:信息生命周期;信息扩张模型;信息效用价值;舆情热度;Web信息流演化模型 文献标识码:A
中图分类号:TP309 文章编号:1009-2374(2015)16-0011-02 DOI:10.13535/j.cnki.11-4406/n.2015.16.006
现有研究指出Web信息流呈现指数级、爆炸式增长。面对日益增长的Web信息流资源,分析其生命周期,从而对Web信息流加以控制及管理显得尤为重要。互联网的广泛应用,形成了大量Web信息流。由于Web信息流具备不同于传统文献信息的特点,使Web信息流生命周期虽然与传统文献生命周期大致相当,但在许多方面也发生了巨大的变化。Web信息流是指Web信息在网上传输、识别、利用的流转形态。一般认为,Web信息流生命周期包括信息的产生(创造/发布)、采集、组织、开发、利用处置。Web信息流应该覆盖从产生到失去效用价值所经历的各个阶段和整个过程。但是,对于Web信息流生命周期的界定应综合上述学者的观点,即Web信息流生命周期是指从Web信息流产生到最后利用处置的过程中,信息数量、效用价值、热度等信息“生命指标”的变化。对于Web信息流生命周期的研究,不但包括对信息生命周期阶段的划分,还包括对信息“生命指标”的定量分析,从而更加客观、全面地反映Web信息流生命周期的整个过程。
1 Web信息流演化概述
运用互联网计量学的基本理论,一些学者提出了Web信息流扩张模型。一个互联网的潜在收益,会随着互联网节点数量的增加而成指数地增长。即在无限的网络环境下,假设信息的扩散不受任何条件限制,如网站数量、传播速度、访问限制等,则信息就能发挥其内生增长能力,网页数量迅速增加,呈现指数增长规律,也称为“J”型增长。一些学者分析网页数量受到外界条件限制,不可能一直维持几何级数增长。因此提出了运用Logistic模型来描述网页数量随时间推移的变化规律,即Web信息流S型增长模型。另外,参照货币扩张规律,以“信息转发假设”和“信息创新假设”为基础,一些学者提出Web信息流总量增长模型、互联网真实信息量增长模型、互联网泡沫信息量增长模型和Web信息流乘数扩张规律。同时,还证明了指数增长模型是将“信息创新假设”由有限创新能力改为无限创新能力时的特殊情况。
2 Web信息流演化度量
从Web信息流演化度量视角,可以包括如下视角:
2.1 引文分析法
引文分析法的一项重要应用是性能评估,它基于这样一个假设,即引用显示出被引用文献对于后来研究的正的价值。一些研究表明,针对互联网文献这一假设同样成立。对于互联网出版物实施引文分析法能够更好地分析出研究趋势的结论,可以将文献计量学中的文献老化测度指标移植过来,包括对半衰期及普赖斯指数两种度量指标。
2.2 链接分析法
链接分析法就是运用互联网数据库、数据分析软件等工具,利用数学和情报学方法,对互联网链接自身的属性、链接对象、链接互联网等各种对象进行分析,揭示其数量特征和内在规律。互联网影响因子是常用的信息效用指标,它是指:假设某一时刻链接到互联网上某一特定网站或区域的网页数为a,而这一网站或区域本身所包含的网页数为b,那么其互联网影响因子的数值可以表示为。
2.3 舆情分析法
互联网舆论的演变大致可分三个阶段:发表个人意见,形成震源;意见领袖形成,促成互联网舆情;权威意见引导互联网舆情。例如,通过对某网络论坛的分析,得出该网络的度分布为幂律分布,有明显的无标度特征。同时,互联网舆情传播除增长和优先连接外,还包括兴趣衰减、初始吸引和边的添加等事件。部分学者在分析互联网舆情参与者基本属性的基础上,构造了话题参与者的“属性矩阵”,提出意见领袖形成模型的综合评价和排序方法。例如针对论坛内容,一些学者认为可以对由帖子的点击数(或回复数)所形成的原始时间序列进行小波多尺度分析,产生一系列子序列并进行评价,并通过BP神经网络进行类别训练,找出使得内距离最小、类距离最大的若干系数作为特征系数,以此对网络论坛话题的热度趋势进行预测。利用热量传递模型对用户在互联网上的信息活动建模,提出适用于Web环境下的话题抽取与热度评价算法。
3 Web信息流演化管理的问题剖析
互联网真实信息增长模型指出,互联网真实信息数量与互联网节点数、Web信息流转发轮次数(即时间)成正比,但现有增长模型没有考虑由于信息发布者权威度不同而导致的信息社会影响力的区别。同时,不同Web信息流由于处于生命周期的不同阶段,也会导致其转发轮次数效用的区别。Web信息流生命周期应分为信息生成期、信息热化期、信息爆炸膨胀期、信息热度收敛期以及信息消亡期。不同时期同一主题下互联网真实信息数量增长率()应存在相应的阈值。如果超出阈值,则应发出警报信号,比如可将预警区分为蓝色祥和区(信息增长良好区)、绿色安全区(信息增长正常区)、橙色警戒区(信息增长基本安全区)和红色警戒区(信息增长异常区)。通过对信息增长速度的监测,方便相关部门对Web信息流生命周期进行管理及控制。
Web信息流生命周期管理贯穿于Web信息流生命周期的各个阶段。互联网真实信息增长模型,不仅可以分析出Web信息流处于生命周期的哪个阶段,同时也给出了Web信息流生命周期管理的入手点。从信息来源角度看,政府网站、新闻及网络媒体站点权威度较高且大多由正规部门管理,因而可以通过控制相关站点实现对信息生命周期的管理。比如:对于社会有益信息,在信息生成期可以借助该类站点发布,同时在信息热化期持续发布相关信息促使进入信息爆炸膨胀期,同时当监测除信息已进入热度收敛期后,应采取挖掘信息等措施不断引起社会关注,激发信息生命活力,避免信息进入消亡期。而对于负面信息,由于容易造成社会恐慌引起不必要的社会问题,Web信息流管理部门应及时控制论坛、博客、个人空间等带有明显互动或用户自产生内容的站点的信息发布数量。该类站点虽然权威度较低,但如果相关信息大量出现,仍会对社会产生巨大的影响。
4 Web信息流演化的发展趋势
4.1 网络信息融合与集成
随着大数据时代的到来,网络信息异构的情况逐渐增加。各个系统和资源库多平台运行、数据库模式各不相同、数据被割裂在不同的设备上,这样多方式运行的弊端,不仅造成网络信息浪费重叠,同时也造成网络资源和数据无法共享,平台之间信息交流和共享十分困难。如何使Web信息流融合与集成成为网络信息发展的趋势。信息融合应做到:提高信息的完整性,排除冗余与噪声;降低不确定性,提高信息的精确度和可靠性;去伪存真,提高信息的一致性和可信度。目前对异构信息融合与集成的研究,侧重对结构化、半结构化和非结构化这种结构级的融合和集成,而因为各信息源的分布自治性,语义级的异构的融合和集成鲜有成熟的方法和技术,语义级的异构的融合和集成是异构信息有效融合与集成瓶颈。
4.2 动态管理
网络信息在利用的初期,信息价值得到不断挖掘和发挥,但衰退期利用情况大幅度下降,直至被不断新生产出来的信息覆盖,以致在较长时间得不到利用后,便判断为失效信息。这个时候,某些网络信息个体往往还有较多的剩余价值没有得到发挥就转变成为了隐性价值。这种情况的发生大多来源于信息获取渠道的不畅通(比如被不断更新的信息覆盖掉),网络信息管理者应采取相应的干预策略,比如置顶、加精华以及热度排行等。但目前管理者采取行动的标准一般是单一的累积点击率排行,而这种排行没有考虑到网络信息的动态性所带来的误判概率的提高,这种管理实践行为不但粗放而且缺乏科学依据,因此应构建生命阶段模糊识别模型,实施动态管理,采用基于相对指标的定量识别模式来实现对网络信息生命状态的定位,可以根据网络信息的相对利用情况以及目前所处的生命阶段,采取单期或多期的推送策略来适当延长网络信息的生命周期,以实现其价值的最大化发挥。
5 结语
Web信息流扩张模型、Web信息流效用价值模型、互联网舆情热度模型从不同角度研究了Web信息流生命周期的规律,但对于互联网生命周期综合性的研究仍处于初步阶段,有关互联网生命周期管理模型的研究也处于理论研究阶段。由于Web信息流非结构性、动态性的特点,使得Web信息流生命周期的研究也较为复杂。今后的研究应在现有研究的基础上,进一步结合现实网络环境,更加深入、全面地对Web信息流生命周期进行剖析。
参考文献
[1] 张春颖.信息生命周期管理研究述评[J].情报科学,2012,(6).
[2] 刘晓娟,王昊贤,张爱芸.微博信息生命周期研究[J].图书情报工作,2014,(1).
[3] 张青敏.基于系统动力学的网络环境下信息生命周期演化规律研究[J].情报理论与实践,2011,(5).
[4] 陈敏杰,马费成.网络信息的沉睡和唤醒现象[J].图书情报知识,2012,(5).
[5] 刘磊.网络舆情深度挖掘模式研究[J].情报探索,2010,(12).
[6] 马费成,苏小敏.网络信息生命阶段的模糊识别研究[J].情报科学,2012,(9).
作者简介:侯丹(1994-),女,内蒙古人,就读于中央财经大学信息学院电子商务系,研究方向:信息服务与网络
科学。
(责任编辑:周 琼)