基于本体与Web挖掘的微博信任危机预防模型
2013-01-15胡昌龙
胡昌龙,郭 峘
(湖北工业大学管理学院,湖北 武汉430068)
微博,这个网络时代的产品,正在以一种快速而有力的势头进入人们的生活,以其方便、快速、交互、灵活的特点参与到传播当中,并慢慢融入了社会的经济生活、文化生活、政治生活的各个方面。在大众媒介和构建舆论引领新格局中饰演着越来越重要的角色。1988年,Rousseau等人提出了“信任”的广义定义,即建立在对另一方意图和行为的正向估计基础之上的不设防的心理状态[1]。信任是一种常态,相信某人的行为或周围的秩序符合自己的愿望,并相信某人或团体具有言行一致的责任感[2]。M.W.Seeger等人将“危机”定义为“一种能够带来高度不确定性和高度威胁的,特殊的、不可预测的非常规事件”。[3]所谓微博信任危机,是指在微博的网络环境下,因不设防或心理状态的减弱、下降、缺失而带来高度不确定性和高度威胁的、特殊的、不可预测的非常规事件[4]。
1 微博信任危机产生的根源分析
1.1 微博网络交往主体与客体的异化性
网络具有虚拟、幻想的特点,在虚拟的网络世界中,人的身份和行为被符号化,真正的人则隐藏在符号的后面。因此,部分微博网络交往主体会把网络看成是自我逃避残酷现实的一种途径,并将心中的不满和痛苦发泄于网络的虚拟世界中,类似于一种毫无目的欲望追求,以及不健康的“异化抒发”。这种微博网络交往主体作用于客体的信息的异化,直接使得微博信息和相关问题趋于复杂化。
1.2 微博在传播格局中的局限和问题
1.2.1 难辨微博信息的真假 由于任何人都可以注册微博,并且微博上传播的信息量非常巨大,微博网站很难对微博中传播信息的真实性做出准确判断。再加上大多数人拥有好奇心,喜欢围观等心理状态,导致微博上的虚假和负面信息大量传播。这就很难避免“误打误伤”、伤及无辜[5]。
1.2.2 难以掌控微博舆论走向 微博用户“强烈关注时事”、聚焦一些社会热点、难点问题,在焦点问题上集体出声,使微博已经成为“杀伤力最强的舆论载体”。因此,当微博上存在一些不正确的尤其是错误的思想言论时,沉默螺旋效应[6]使一些正确的思想言论很难对大众的情绪进行正确疏导和对社会舆论产生正面的作用[7]。
1.2.3 完整性、系统性受限的信息 微博之所以叫微博是因为它的微型以及容量有限,仅仅可用140个字。这种局限性,很多情况下导致微博内容的指向性不明,微博信息对于人们的有效性、目标性也大幅度降低。也就是说,微博的大量信息中有很多可能是人们并不想要和需要的,甚至于接收这些信息会浪费人们大量的精力和时间。
1.3 认知基模效应
认知基模效应[6]即人们对同一事物的认知不同,在决断一个问题之前,主观地给问题限制一个既定的条件,最后得出一个与事实或发展现状背道而驰的结果。基于这种效应,造成了微博信息在一定程度上传播方向发生偏差,最后导致信息的本来含义被扭曲,加速了微博信任危机的产生。
2 基于本体的Web挖掘过程
本体是一种通过概念和概念之间的关系来有效描述概念层次结构和语义的模型。
Web挖掘是从Web文档以及活动中发现和提取有用的、潜在的、隐藏的信息和模式,是一种在数据挖掘的基础上发展起来的人工智能技术。
依据上面两个概念的定义,建立基于本体的Web挖掘过程。
第一步,确定数据挖掘工作者的任务,从 Web中得到用户需要的相关信息和数据。待处理的对象包含以下信息:Web数据库、Web结构、用户使用记录、静态网页等。
第二步,根据数据挖掘的目的,提取、分解、合并各种不同结构的原始数据,然后使用本体领域的相关知识将这些原始数据转变为带有语义的信息,最后将其存储到关系型数据库表或数据仓库中。在这个过程中必须要注意数据存储的方法,分析挖掘中得到的隐藏信息。
第三步,在挖掘方法本体库和用户需求进行匹配的基础上,使用数据挖掘方法的本体,利用适当的数据挖掘算法对处理后的数据进行挖掘、生成模式,主要算法包括访问路径分析(图1)、序列模式分析、分类规则发现、关联规则发现、聚类分析等。
图1 访问数据分析
面对大量的数据,基于本体的Web挖掘可以更精确,更详细的处理实时的复杂的数据并且分析挖掘数据。将本体应用于Web挖掘,包括两个内容。
基于挖掘方法的本体[8]。挖掘方法本体是指,无论进行数据挖掘的是新手还是专家,Web挖掘方法和相应算法的本体协助其在数据挖掘过程中,筛选出适当的算法和方法。
基于挖掘对象的本体[8]。挖掘对象本体是指Web挖掘的领域本体,为了能满足一定领域范畴内的功能共性,重用其知识功能共性的要求,该本体将体现该领域内的概念和概念之间的关系、主要理论、基本原理、领域内发生的活动等,基于此以建立该领域内知识的共享。
通常的,Web挖掘的处理过程包括确定主题、资源发现、数据预处理、模式识别和模式分析等5个过程,在以上基础过程上,将本体融入到 Web挖掘过程中,建立基于本体的Web挖掘过程(图2)。
图2 基于本体的Web挖掘过程
基于Web挖掘的过程,将其与数据挖掘的主体相结合,给出基于本体的Web数据挖掘过程的系统模型(图3)。
图3 基于本体的Web数据挖掘系统模型
3 基于本体和Web挖掘的微博信任危机预防模型的架构设计
网络服务器、代理服务器等时时刻刻记载着系统中出现的各项重要事件,为微博网上信任危机预防提供了可用的数据,但这类数据通常是根据专家对信息的综合分析或者依靠直觉和经验而得,一般都不够精确和详细。所以,在微博网上信任危机预防中引入本体和Web挖掘的应用,可以从数据资源中得到与微博信任危机信息相关联的系统特征属性,再根据系统特征属性自动创建检测微博信任危机信息的模型,运用于自动识别微博信任危机,可以更好地提高模式识别、规则构造的效率。
依据以上给出的基于本体的Web挖掘过程,设计基于本体和Web挖掘的微博信任危机预防模型如图4所示。
图4 基于本体和Web挖掘的微博信任危机预防模型
基于本体和Web挖掘的微博信任危机预防模型的优点包括以下几个方面。
1)推动微博信任危机预防知识的共享。由于领域本体可以统一领域内的概念,完整地描述微博上各类信任危机信息,同时使信任危机预防的语义描述问题更加具有灵活性,实现一定领域范围内的功能共性,克服了微博网络交往主体与客体的异化性。
2)提高微博信任危机预防系统的功能。因为创建和使用了挖掘对象本体和挖掘方法本体,可以通过映射机制对本体之间进行相互映射,实现异构、分布的数据之间进行相互操作和共享,为微博信任危机信息的互相访问提供了途径,可以提高信任危机预防系统的准确性、可用性、可靠性、可扩展性,克服了微博在传播格局中的局限和问题。
3)使用户操作规程简化。基于本体的Web挖掘,类似于给数据挖掘过程“提供”了一名“领域专家”,以指导参与整个挖掘的过程,挖掘出来的信息更加准确、全面,减少了由人为失误和主观原因带来的一些不好的结果,克服了认知基模效应带来的理解偏差,为用户操作带来方便[4]。
4 基于本体和Web挖掘的微博信任危机预防模型的运行
4.1 建立挖掘方法本体
挖掘方法本体是指由全部的挖掘方法创建的本体。对于用户进行Web挖掘、挖掘结果的决策应用数据相当重要。因此,需要建立精确的数据挖掘方法本体的思路[9]。
第一步,建立单个方法本体。包括:1)各个操作可读取的信息;2)明确各个操作的运行环境,包含前提条件以及此操作前驱操作的兼容性;3)明确各个操作的详细运行结果;4)明确阈值的情况;5)对精度、速度、模型复杂性操作属性影响的估计。
第二步,将全部的挖掘方法本体合并在一起,创建挖掘方法本体。
第三步,在Web挖掘过程中,各个用户还可以设计出新的过程或算法,添加到挖掘方法本体的数据库中。
4.2 构建挖掘对象本体
挖掘对象本体对于数据预处理的结果非常重要,使异构数据经过语义标注、语义提取等方法构成同构化的数据库,直接决定了是否能挖掘到能应用于微博信任危机预防最大限度的数据。
构造挖掘对象本体的方法如图5所示。
图5 构造挖掘对象本体的方法
1)建立所研究的领域或任务相应的领域本体或过程本体,确定本体应用的目的。因为领域越大,相应所建立的本体就越大,所以需要明确本体应用的范围。
2)为了能建立完善的本体,需要该领域专家的参与,对本体所有术语的意义和它们之间的关系进行定义分析。
3)用建立的语义模型表示本体。
4)按明确性、完整性、一致性、可扩展性这四个标准来建立本体。清晰性是指在定义本体中的术语时没有歧义;完整性是指包含该领域内的完整的所有概念本体的特性;一致性是指逻辑上相一致的术语和术语之间的关系特性;可扩展性是指在该领域内,可以不断加入新的概念,不断的发展具有可以扩展的特性的本体特性。
5)对按以上标准所建立本体进行检验,符合要求的本体用文件形式存放,否则就转2)。
在基于本体的微博信任危机预防模型中,由于建立挖掘对象本体主要是对网络上大量的数据进行预处理,这种处理就有必要遵循一个统一的原则,也就是本体所起到的作用。因此挖掘对象本体建立的基本步骤(不包括检验过程)如图6所示。
图6 挖掘对象本体建立的基本步骤
4.3 微博信任危机预防模型的运用过程
第一步,从与用户相关的数据中提取有价值的对预防微博信任危机起到关键性作用的新知识是Web挖掘的目的。为了验证假设能否成立,利用数据挖掘这个过程,确定微博信任危机预防的相关应用主题,建立合适的微博信任危机预防模型。
第二步,基于微博信任危机预防这一主要内容,收集包含往来业务数据、登记用户信息、Web服务器数据、代理服务器数据等各种网络数据源,同时交给预处理模块进行处理。
第三步,依据数据挖掘的主题,通过指导挖掘对象本体,将各种类的异构原始数据源转换为基于本体的标准模式的数据,同时建立数据库。
第四步,依据数据挖掘的主题,通过指导挖掘方法本体,获取有问题的语义,接着准确对决策问题进行描述,让计算机可以基于语义准确地理解决策者的意图,对数据挖掘方法进行适当的选择,以便从目标数据中提取相关的有价值的数据、知识,从而可以对结果进行分析、验证,建立结果集。
第五步,将建立的结果集和规则库中已具有的规则进行模式匹配,结合领域中的规则和专家的相关知识,将微博信任危机信息和非信任危机信息区分开。
第六步,依据预警规则,对微博信任危机的预兆信息进行及时的报警,将不同的报警信号使用于不同的警报级别,同时注重事态的发展,预备信任危机的应急方案。
5 结束语
本文首先对微博信任危机产生的根源进行了分析。针对微博信任危机中来源的信息数据繁多、杂乱并且异构化数据多等缺点,给出了基于本体与Web挖掘的微博信任危机预防模型,使用此模型可以实现精确度很高的语义挖掘,并且可以根据语义挖掘的相关结果制定预防办法。本模型实用性较强,但是本体库内容还需要不断改进,建立更加完善的本体数据库,进一步研究本体和Web挖掘技术相结合的方法,建立可有效运行的算法,提高微博信任危机预防的深度和精确度。
[1] Rousseau D M,Stkin S B,Colin Camerer.Not sodifferent after all:a cross-discipline view of trust[J].Academy of Management Review,1998(3):393-404.
[2] 臧豪杰.信任危机根源探究及对策建议 [J].领导科学,2012(7):3-6.
[3] Seeger M W.Communication,organization and crisis[J].Communication Yearbook,1998,(21):231-275.
[4] 谭春辉,王 晓.基于本体与 Web挖掘的企业网上信任危机预防模型研究 [J].情报科学,2011(5):1 559-1 564
[5] 鲁晓薇.微博时代的信任危机 [J].新兴传媒,2011(2):92-93.
[6] 刘海龙.大众传播理论:范式与流派[M].北京:中国人民大学出版社,2008..
[7] 程 诚.试论微博对舆论形成的影响[J].新闻爱好者,2012(10):1-2.
[8] 邢平平,施鹏飞,赵 奕.基于本体论的数据挖掘方法[J].计算机工程,2001,5(27):15-16.
[9] 邹力鹤,王丽珍,姚绍文.数据挖掘方法本体研究[J].计算机科学,2005(3):197-799.