APP下载

BI在Web2.0网站开发中的应用研究

2009-03-10赵呈领陆娇娇吴林静

中国教育信息化·高教职教 2009年1期
关键词:数据仓库页面数据挖掘

赵呈领 陆娇娇 吴林静

摘 要:针对Web2.0网站当前所面临的问题,文章引入了新型的BI理念,目的是促进Web2.0网站的开发。文章首先以图解的方式对BI做了概述,并阐述它在互联网时代中的作用,同时列举了目前Web2.0网站遇到的种种问题。接着,本文着重对数据仓库、数据挖掘、联机分析处理这三项技术在网站中的应用进行了研究,针对每一项技术列举了相应的案例并进行了详细的分析。最后总结了引入BI理念到Web2.0网站开发中的应用价值。

关键词:BIWeb2.0数据仓库数据挖掘联机分析处理

中图分类号:TP393.4 文献标识码:B 文章编号:1673-8454(2009)01-0039-03

一、BI的概述

BI(Business Intelligence),中文解释为商业智能,这个概念最初是随着数据仓库、数据挖掘、多维分析等新

型信息技术的应用而产生的。它是借助计算机手段帮助企业更好地利用数据、提高决策质量的技术集合,能够对海量的商业信息进行获取、整理、分析,继而产生价值的一个过程。简单的讲就是业务、数据、数据价值应用的过程。[1] 用图解的方式可以理解为图1所示。

从图1可以看出,从业务到数据的过程是传统的交易系统所要做的事情,而BI则是在业务、数据的基础上产生数据价值,这个产生价值的过程实质上就是商业智能分析的过程。此过程如图2所示。

图2所示的流程,简单地说就是数据源经过所谓的ETL(Extraction-Transformation-Loading,数据抽取、转换和加载)过程之后被送入到主题明确的数据仓库(DW)中,生成许多数据集市,经过联机分析处理(OLAP)后再透过表现层展现给用户。用户根据分类、聚集、描述和可视化的数据来支持业务决策。

二、引入BI理念开发Web2.0网站的意义

1.BI在互联网时代中的重要性

某业内人士对BI在现代社会的重要性曾做过如下比喻,《世说新语》中讲: “盲人骑瞎马,夜半临深池。” 这短短十个字隐藏了四个危险:由无知的经理人来经营企业,就如同“盲人骑马”,这是第一个危险;依赖无知的员工,就如同“骑瞎马”,这是第二个危险;参与激烈的市场竞争,就如同“临深池”,这是第三个危险;在全球经济不景气的时候参与激烈的市场竞争,就如同“夜半临深池”,这是第四个危险。所以,“无知”已成为企业最大的威胁。[2]

互联网时代,网络中充斥着海量信息,企业需要对它们进行合理及有效地利用,从而帮助企业在业务管理及发展上做出及时、正确的判断,然后采取明智的行动,做到在竞争中占据主动权。互联网上流传的“尿布和啤酒”的经典故事成了一个利用数据挖掘商业价值最大的神话。原本不相关联的两样东西,通过海量的信息数据处理,也可以挖掘出它们之间潜在的关联,于是再将这种关联商业化,就会得到意想不到的新业务或新的商业模式。这个故事也告诉我们BI能够摒弃企业的无知,并且能够为企业的发展创造出巨大价值。BI的神奇之处就在于运用创造性的思维,将相对固定的方法应用到复杂多变的商业实际中去,创造出意想不到的价值。[3]

2.Web2.0网站面临的问题

谈到Web2.0,人们一般就会想到美国开发出的诸如Myspace、YouTube、Facebook、OpenSocial等在全世界都比较流行的网站。尽管我国Web2.0市场也算较为繁荣,但是中国的Web 2.0网站迄今也没有达到美国的那种程度。其实Web2.0的发展是存在一些问题的,如:同质化竞争、对广告的过度依赖、Web2.0企业的运营能力较弱、定向网络广告传递效率低、对Web2.0技术的忽略等等。人们关注的仅是简单的使用,如何让Web2.0融入到互联网各项应用中仍然需要一个探索的过程。[4] Web2.0目前仍没有一个明确的定义,以至于这个概念被大肆滥用,无论什么网站都或多或少地把自己和Web2.0联系在一起,实际上很多只是概念的炒作。

上文已经对BI做了一个概述,它主要是有助于决策和产品的改进。而Web2.0网站本身就是一个产品,并且具有交互功能。鉴于BI在互联网时代的重要性以及Web2.0网站目前所面临的问题,在开发Web2.0网站的过程中引入BI理念显得十分必要。

三、Web2.0网站中的数据仓库

很多人认为数据仓库与数据库是没有区别的,其实这种理解是不准确的。数据库里装的是没有经过任何加工的原始数据;而数据仓库是为了满足分析需要,对源数据进行了转换的过程。宏观上讲,数据仓库就是堆放公司所有数据的地方,之所以把数据堆在一起,是为了从中获取有价值的东西。

Web站点内的资源本身就构成了一个数据库,那么如何面向目标和主题来形成更有价值的数据仓库呢?要解决这个问题,重点在于数据源的问题。用户在使用Web站点的过程中,有意无意地就给网站提供了一些信息,若这些信息能被有效地识别,则对形成有价值的数据仓库是有帮助的。[5] 下面以大家比较熟悉的Web2.0网站——豆瓣网为例来说明。案例如图3所示。

图中标注的3个区域是交互区,我们可以将其定义为数据入口。此例中,访问者只需单击一下按钮,就可以传递给网站一个有价值的信息。将这些有价值的信息提取出来存放在数据仓库中对以后网站的开发是有益的。由此我们可以看出,建立一个友好的数据入口是数据仓库可以发挥决策优势的基础。

当然也可以通过不断地改善用户注册页、用户发布信息页面、用户评论页等页面的设计来建立良好的数据入口,以便数据仓库发挥其决策优势,继而促进网站的开发。

四、Web2.0网站中的数据挖掘

数据挖掘在学术上的定义是:“在数据仓库基础之上的自动地从海量的数据中快速地获取有价值、有意义的数据间的特定关系并产生新的知识的技术”。[6] 举个形象的例子来说明数据挖掘的原理和作用。我们在商场里买衣服时,销售员经常会向顾客推荐一些衣服,而且顾客往往也会接受这些推荐。这些推荐为什么会有效?其实销售员的这些推荐也不是空穴来风,她们是在最近顾客购买衣服的数据中总结出来的规律。而这种基于真实数据的规律往往会符合顾客的某种心理,从而为商家带来更大的销售和利润。

其实网站的数据挖掘和传统的数据挖掘原理是差不多的。我们在对Web2.0网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户就不愿意将自己的信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况下,就不得不从浏览者的表现数据中推测客户的背景信息,进而再加以利用。

Web2.0时代,互联网使许多隐形知识显性化,还使得一些“隐形网页”也被发掘出来。特别是blog的盛行,诞生了不计其数的“微内容”。那么怎样在这个信息纷繁芜杂的互联网上获取有价值的内容?以比较有名的教育网站——教育资源挖掘站(www.edudig.net)为例来看它是如何从浩瀚的数据海洋中提取有价值的信息的。实际上它是通过用户提交的链接、评论,再通过用户投票的方式把有价值的网站链接推荐到前台首页,有更好的评价功能,不需要编辑审核,且信息源涵盖整个互联网。目前互联网上有相当多的教育博客和教育网站,但不是每一个网页都有价值,许多有价值的内容被淹没其中。Edudig就是让关注教育的blogger到Edudig上提交并推荐互联网上有价值的教育文章、教育网站、教育软件工具等资源。Edudig以庞大的分散内容为基础,由用户决定聚集哪些有价值的微内容。这样一个能够从海量信息中挖掘出有价值信息的Web2.0教育网站给广大关注教育的学习者带来了很大的便利。

五、Web2.0网站中的联机分析处理(OLAP)

Google推出的Google Analytics分析工具可以对整个网站的访问者进行跟踪,并能持续跟踪营销广告,是一种功能全面而强大的分析软件包。我们可以借助此工具从海量的网站访问数据中获取有价值的信息,并对这些信息进行有效的分析。数据分析包括:流量的综合分析、网站营销数据分析、Web设计参数数据分析。

1.流量的综合分析

无论是个人网站的站长,还是企业网站的管理员,都应该时刻清楚网站的流量情况。建立网站必须给网站配备一个功能完整的流量分析系统,这是网站可以持续改进和优化的基础。

网站的访问总量体现的是到访网站的人次。其中访问人包括新访问者和回访者两类。对于运营时间较长的社区类网站,可能回访者所占的比重较高,而对于新建立或以提供资源为主的网站,新访问者的比重较高。因此,对于以提供功能和服务为主的网站,运营的重心应该是如何提高功能和稳定性,以保证其访问总量的稳定和持续上升,而以提供产品和资源为主的网站,运营的重心应该是如何不断推出更多、更新的资源以保证其访问总量。链接来源体现的是到访用户的途径。用户可以直接输入网址访问,也可以通过搜索引擎如百度、Google、SoSo等搜索访问。如果来自搜索引擎的比重比较大,那么要保证流量的稳定和上升,在设计网页时就必须对其进行搜索引擎优化。

2.网站营销数据分析

体验过Google Analytics的用户就知道,在查看某个网站的使用率时,会看到网站平均停留时间和跳出率两个参数,重点分析这两个参数,可以判断哪些页面是用户最常访问的。从网站营销的角度来看,对这些参数进行分析是很有必要的。

网站平均停留时间说明用户在此页面停留的时间,时间越长说明页面的价值就越大,那么就可以考虑在此页面处投放广告。如果页面的浏览量很大但用户停留的时间却很短,那最可能的一种情况就是用户通过搜索到达了这个页面,但是打开之后发现并没有自己需要的内容,于是随即关闭了页面。因此,为了延长用户在网页的停留时间,应该充实网页的内容和增加超级链接。[5]

跳出率表示用户在到达此页面时离开网站的比率。为了降低用户的跳出率,在设计网站的每个页面时,就要考虑到增加导航链接,且不要让用户感到无路可走。

3.Web设计参数数据分析

一名合格的网页设计师应关注用户流量,那么就要分析浏览器版本、操作系统、屏幕分辨率等参数。

浏览器的兼容问题一直是Web设计中比较棘手的问题。浏览器的种类比较多,当然IE是最常用的,但是也有一些用户使用FireFox、Netscape、傲游等。那么就要对用户的访问数据进行分析,毫无疑问,大多数用户仍然是使用IE,所以Web设计过程中满足IE用户正常显示是最根本的原则。精力允许的话,可以考虑将Web页面放在其它浏览器上测试。

不同的操作系统对Web页面设计也存在一定影响,当然大多数用户仍然使用WindowsXP、Windows Server,但是也有一些用户使用Vista操作系统,并有可能很快成为主流。因此,要及时了解Vista对Web标准的影响,做出相应的调整方案。

屏幕分辨率是Web设计要重点考虑的影响参数之一。现在绝大多数用户已开始使用1024×768的分辨率,因为显示效果比较好,所以设计的时候应该考虑到。同时也要兼顾正在流行的宽屏显示器和宽屏计算机,以及PDA和手机等掌上移动设备。[5]

六、结束语

互联网是一个催生概念的行业,也是一个让人萌生很多想法的行业。本文试将BI这种新型的理念引入到Web2.0中,分别从数据仓库、数据挖掘、OLAP这三方面进行了较全面的分析。引入BI理念使得Web2.0网站不断优化,但是本文研究的并不是很深入,有待于进一步研究。另外,如果将Web2.0理念或技术引入到商业智能中,又将会是什么样子呢?这同样值得我们去思考,去探究。

参考文献:

[1]什么是BI(Business Intelligence)[EB/OL].http://www.cnblogs.com/jiesin/archive/2008/06/23/1227694.html.

[2]文本挖掘抢占商业智能掘金制高点[EB/OL].http://article.pchome.net/content-660419.html.

[3]郭艳蕾.商业智能综述[J].商业文化(学术版),2008(2).

[4]刘永军.浅析Web2.0网站的发展策略[J].商场现代化,2008(7).

[5]王建.精通Web标准建站——标记语言、网站分析、设计理念、SEO与BI[M].北京:人民邮电出版社,2007.406-416.

[6]赵月旺.自救之道——数据挖掘[EB/OL].http://www.360doc.com/showWeb/0/0/226142.aspx.

猜你喜欢

数据仓库页面数据挖掘
刷新生活的页面
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究
网站结构在SEO中的研究与应用
浅析ASP.NET页面导航技术