Web 3.0与信息智能获取研究综述

2015-04-10蔡焰

韶关学院学报 2015年2期

关键词：文档关联检索

蔡　焰

（韶关学院图书馆，广东韶关512005）

Web 3.0与信息智能获取研究综述

蔡焰

（韶关学院图书馆，广东韶关512005）

摘要：大数据时代下，如何对数据进行更好的应用，已经成为当前研究热点.Web 3.0技术可以实现信息的深度挖掘，并将散布于网络中的信息点及用户需求点予以有效整合及对接.采用文献研究法，对相关文献进行梳理，进一步的分析Web 3.0的内涵以及其与Web 2.0、Web 1.0的主要区别，并就Web 3.0以及当前环境下信息智能获取关键技术进行分析和探讨，发现Web 3.0下信息智能获取技术已经能够实现协同过滤等难度较大的模型，但是还存在着一些问题，尚待进一步的深入研究.

关键词：Web 3.0；信息智能获取；智能抓取；关联规则挖掘

随着时代的发展，信息技术取得长足发展，Web 3.0概念及相关应用成为当前一大研究热点课题.Web 3.0实现了对信息的深度挖掘，并将散布于网络中的相关信息点及用户需求点予以高效整合与对接，极大的提高了用户检索的精确性及智能化程度.

1　Web 3.0概述

1.1 Web 3.0的定义

Web3.0的概念最初是由微软公司比尔盖茨于2005年举办的互联网战略会议中提出的，然而有关Web 3.0的准确定义尚未达成一致意见.吴胜等人指出，Web 3.0实际上就是语义网，从技术层面分析，Web 3.0就是在语义网基础之上所演变而成的［1］.英国科学家Tim B L主张，语义网可以描述为这样一种网，此种网中涉及一整个或其中某一部分文档，主要对事物相互之间所存在的联系进行描述，其中还涉及语义信息，以便为自动处理提供便利［2］.伯里昂·索尼斯（Brian Solis）指出，Web 3.0在很多方面都具有自身显著特色，并且演化方向也存在多样化特征，例如，Web 3.0能够将网络转化为数据库，以便于网络沿着人工智能技术、语义网以及地理空间等方面发展［3］.

1.2 Web 3.0与Web 1.0及Web 2.0的区别

当前有关Web 3.0与Web 1.0及Web 2.0的区别主要有3个方面.

（1）Web 1.0具有静态性特征，其阅读是单向的，用户并非主动参与；Web 2.0作为实时网络，其最突出特征就是分享性，用户可以在一定范围内进行互动性参与；Web 3.0最大的特点就是网络化及个性化，人工智能服务品质上乘，用户能够进行实时参与.

（2）在技术层面，熊回香通过对比研究得出结论：Web 1.0是建立在静态及动态HTML网页技术基础之上的；Web 2.0主要依托于Blog、TAG、SNS、RSS、Wiki、六度分隔、XML以及AJAX等技术；Web 3.0实现有赖于一系列综合性技术，其中最为关键的当属语义网［4］.在Web的网络管理技术中，主要由Web浏览器和网络管理服务器，以及网络管理对象所构成.网络管理服务器用来对Web浏览器所发出的请求进行接收和响应，并利用Web交互的形式来完成各服务间的交互，同时还要提供全面的管理服务，例如：网络的配置和系统的性能，以及安全和计费等.以先进的管理方式作为管理依据、管理通信协议作为平台，对网络管理数据进行收集和存储，实现Agent接口的访问.

（3）在应用层面，如新浪、网易以及搜狐等传统门户网站所采用的都是Web 1.0；Web 2.0主要应用实例如博客中国以及亿友交友等；Web 3.0的典型应用代表则是脸书、雅蛙以及阔地等网络.很多系统采用各种基于Web的安全技术，具有很好的安全性，容错性和高可靠性.分布式环境下的系统之间相互独立，具有较好的容错性；HTTP服务器和Manager可以在不同的设备上运行，或者多台HTTP服务器同时为一个管理应用系统提供服务，具有较高的可靠性.

2　信息智能获取

信息的智能获取实际上是根据用户在实际的网络生活之中产生的各种痕迹，判定用户的实际需求，并且基于一定的信息关联以及协调过滤，实现对用户信息的智能获取.当前越来越多的工具已经可以实现对用户信息的智能获取，尤其是在用户网络购物的体验之中比较常见.实际上，信息的智能获取就包括了3个方面的内容，即信息的智能抓取、文档关联规则挖掘以及协调过滤.

2.1智能抓取

所谓智能抓取，主要指的是以各个用户的具体需求为依据，以相关网站为范围，以诸如HTML页、字处理文档、E-mail以及电子表格等非结构化数据、半结构化数据、结构化数据、音频以及视频等多媒体数据为对象实施抓取操作，同时在本地数据库中对抓取结果予以保存.廉佐政等人在进行全面分析及对比研究的基础之上，总结出智能抓取最大的优势在于能够确保用户花费最短的时间获取最多的信息量［5］；除此之外，夏洪文等人主张，智能抓取技术还能够显著减轻网站编辑工作人员的作业负担，自动进行采集、添加信息等相关操作，最重要的是，还可以实时进行信息的更新，确保用户随时掌握最新信息动态［6］.

郑慧会等人以Web 3.0为依托，构建学习平台.建立在语义知识检索基础之上的自主式学习首先需要用户完成登录操作，以登录用户的个人资料、喜爱偏好、所输入的搜索关键词历史以及信息浏览历史记录等相关信息为依据实施记录及追踪，与此同时自动针对信息记录实施分析及总结，以便为之后用户开展信息检索操作时能够准确把握每个用户具体的喜爱偏好，从而为其提供更具针对性的信息.在构建以用户兴趣为依托的模型时，概念层次模型是一个不错的选择，首先对文档相似性程度进行计算，从而计算出整体相似性程度［7］；除此之外，利用(Ej，Wj)分表的形式对语义网中的各个节点所具备的特征词及权重进行表达，与此同时，通过计算文档相似度来执行检索文档相似度操作.

以相似度为基础进行模型构建方案依此经过以下几个步骤：第一步，用户完成登录操作，按照相关要求录入个人信息；第二步，系统将会以用户的喜爱偏好为依据自动在相应的数据库中进行检索并完成匹配，在此会出现两种情况：一种是在实现正确匹配的基础之上会相应的开展读者模型匹配操作，与此同时，向用户展示最终的检索结果；读者在接收到系统发送的检索结果之后，需要对其进行评价，用户的评价结果需要准确详细的记录在个性模型当中，并注意及时进行更新维护.另外一种就是出现不匹配的情况时，个性库将会以用户之前的行为记录为依据重新匹配，如果历史记录匹配正确，及时将检索结果进行输出与记录，如果依然无法完成匹配，则将其视为用户新查询，并重新进行模型构建.

2.2文档关联规则挖掘

内容过滤方式是文档关联规则挖掘的重要技术基础和依托，贾自艳对文档关联规则挖掘的内容进行梳理，认为通常所谈及的文档关联规则挖掘主要涉及文本预处理、特征提取以及关联规则挖掘等3项主要内容［8］.

（1）文本预处理.黄少林认为，文档关联规则挖掘的第一个步骤就是针对所采集到的信息实施文本预处理，文本预处理过程一般涉及两项操作，一个是针对英文文档的，另一个则是针对中文文档的，其中前者主要是指提取英文文档词干，后者主要是指针对中文文档进行词条切分处理［9］.

（2）特征提取.完成文本预处理之后进入特征提取环节.杨一鸣等人主张，特别提取主要是指选取文档表示中词条及其对应权值的操作.从一定意义上讲，特征提取的过程也就是挖掘文档共性及规则的过程［10］.词、词组以及短语是文档的主要构成要素，对于内容存在一定差异的不同文档而言，每个词条出现次数的多少都存在一定的规律，从这一角度分析，实施目标特征提取可以以词条出现频率特征为主要依据.

（3）关联规则挖掘.关联规则挖掘是文档关联规则挖掘的最后一个环节.关联规则相互间的相似性程度的发掘主要是在对事务之间的支持度及信任度进行计算的过程中实现的.关联规则挖掘的主要目的就是确定所涉及到的强关联规则，并确保支持度大于或等于已经确定的支持度最低阀值，与此同时，还应对信任度予以严格控制，确保其大于或等于已经确定的信任度阀值最低值.

2.3协调过滤

所谓协调过滤，主要是以具有相同或近似兴趣及经验的群体的喜爱及偏好为主要依据来对用户兴趣进行初步判断，并以判断结果为依据向用户提供能够激发其兴趣的信息，用户利用合作机制针对所受到的信息做出回应，同时进行记录，从而实现对信息初步过滤，帮助他人对信息进行筛选.

刘鹏远等人针对协同过滤展开深入研究，提出传统以内容为依托的推荐算法存在诸如无法进行图片推荐等不足，而建立在协同过滤基础之上的推荐算法对此进行了改进和完善，能够进行包括图片在内的各种多媒体信息推荐，也就是说，其信息推荐不受内容形式的限制［11］.杨恒伏等人对协同过滤技术类别进行总结，以技术基础及依托为主要依据，可以将协同过滤技术划分为依托于用户的协同过滤、依托于项目的协同过滤以及依托于模型的协同过滤等3大主要类型［12］.

3　Web 3.0技术对现代图书馆的影响

基于Web 3.0技术的基本特点，可以预见的是Web 3.0技术对于学校图书馆的信息获取具有非常重要的影响.具体而言，主要体现在几个方面.

首先，Web 3.0的智能数据获取，可以使得读书馆对于其服务的读者感兴趣的书籍或者信息的有效掌握，从而根据这些信息来对图书馆的书籍采购以及电子数据库的准备提供一定的参考和依据.

其次，Web 3.0下的智能信息获取，可以使得图书馆基于一定的关联规则的挖掘，了解其服务的读者群体的内在需求，通过表象发现一些本质性的问题.这对于图书馆提升自身的服务质量，更好的满足读者的实际需求能够提供一定的参考.

再次，基于Web 3.0的智能信息的获取，可以实现对同一个读者的协调过滤，即当使用同一个ID进行登录的读者再次进行数据检索时，优先显示与其之前的选择相吻合的内容，从而有效的提升读者的检索效率.

4　结语

Web 3.0实现了对信息的深度挖掘，并将散布于网络中的信息点及用户需求点予以有效整合及对接，对其研究主要集中在技术发展方面，而本文的综述范畴主要是Web 3.0以及当前环境下信息智能获取关键技术，目前该技术已经能够实现协同过滤等难度较大的模型，但是还存在着一些问题，尚待进一步研究的深入.

根据当前Web 3.0的发展现状以及世界网络技术的发展情况来看，该技术有着非常良好的发展潜力.尤其是随着移动智能终端的普及以及云技术的快速发展，未来的互联网应用必然是基于大数据的，而在这个背景之下Web 3.0能够对大数据进行挖掘，实现对用户的个性化需求的认知和了解，有助于挖掘商业机会，同时也有助于提高互联网的应用效率，必然会产生极大的价值.同时，在技术的发展方面，Web 3.0有望与一些大型的搜索引擎展开深入的合作，对于用户的搜索信息进行全方位的检索，同时当前已经有一个非常显著的趋势，即Web 3.0技术在电子商务领域的实际应用，而随着移动互联网时代的到来，相信Web 3.0技术还有望在移动终端方面得到广泛的应用.

参考文献：

［1］吴胜，高俊芳，蒲筱哥.Web 3.0数据整合的挑战与对策［J］.情报探索，2013，13(6)：56-57.

［2］罗泰哗.Web 3.0初探［J］.情报探索，2009，23(2)：134-135.

［3］Brian S.Web 3.0 is about Intelligence［EB/OL］.［2008-01-10］.http：//bub.blicio.us/?p=432.

［4］熊回香.面向Web 3.0的大众分类研究［J］.华中师范大学学报，2011，6(3)：67-68.

［5］廉佐政，邓文新，吕洪柱.基于语义的Web挖掘信息智能获取研究［J］.齐齐哈尔大学学报，2008，20(11)：45-46.

［6］夏洪文，景兰.基于Web 3.0的个性化信息服务及其系统设计［J］.现代教育技术，2012，13(11)：145-146.

［7］郑慧会，李兴保，刘建美.Web 3.0——网上学习新平台［J］.现代教育技术，2009，13(4)：145-146.

［8］贾自艳.Web信息智能获取若干关键问题研究［D］.北京：中国科学院研究生院（计算技术研究所），2004.

［9］黄少林.基于用户分析的个性化搜索引擎研究［D］.北京：首都师范大学，2009.

［10］Yiming Y，Seán S，Rayid G.A Study of Approaches to Hypertext Categorization［J］.Journal of Intelligent Information Systems，2002，12(2)：5-7.

［11］刘鹏远，赵铁军.利用语义词典Web挖掘语言模型的无指导译文消歧［J］.软件学报，2009，22(5)：56-57.

［12］杨恒伏，李勇帆.Web 3.0环境自主学习平台建设模式研究［J］.现代情报，2011，21(1)：176-178.

（责任编辑：欧恺）

中图分类号：TP393.0

文献标识码：A

文章编号：1007-5348（2015）02-0015-04

［收稿日期］2014-09-19

［基金项目］广东图书馆学科研课题（GDTK1136）；广东图书馆学科研课题（GDTK1211）.

［作者简介］蔡焰(1976-)，女，江西南康人，韶关学院图书馆副研究馆员；研究方向：数据库技术及网络信息技术.

Web 3.0 and Information Intelligent Access Research

CAI Yan
（Library,Shaoguan University,Shaoguan 512005,Guangdong,China）

Abstract：In the era of big-data,how to apply the data better has become quite a heated discussion.Web 3.0 technologies could realize the depth mining of information,and integrate and dock information which users need from the internet.This article will use the literature research,the related literatures to analyze the differences among the Web 2.0,Web 1.0,and Web 3.0 and discussed the key technology to access to the intelligence under the current environment.And it found that intelligence access under the Web 3.0 technology has been able to achieve a sophisticated model such as collaborative filtering,but some problems still remain for further in-depth study.

Key words：Web 3.0；information intelligence；intelligent fetching；association rules mining