APP下载

基于本体的自动化网页搜集器

2011-03-18江河

河北软件职业技术学院学报 2011年1期
关键词:资料库本体论使用者

江河

(太原大学外语师范学院,山西 太原 030012)

0 引言

Google采用关键词查询方式,仅使用少量的关键词查询,却往往传回数量庞大的查询结果。如此冗长的查询结果及排列方式,让使用者必须费时费工地仔细浏览后,才能挑选出有用的信息,这表明搜寻系统本身无法完整精准地了解使用者的查询意图。在网络时代,人们要在网络上搜索想要的有用信息,就必须使用各个独立的搜索引擎,输入关键词来查找信息。为了让使用者能以更快速、更有效率的方式,从大量的网络资料中获取所需的有用信息与知识,我们期望设计出一个主动比对的整合式主题搜集器,不仅能协助使用者查询信息,降低使用者查询作业上的负担,还能支持网页搜索的核心组件,进而提升其系统效能。综上所述,论文的研究主题在于应用知识本体技术设计出相关的知识本体并用Java语言建构出整合式主题搜集器。

1 相关开发技术

1.1 本体论应用

本体原是哲学领域中的观点,主要探讨生命或现实事物的知识本质,并能提供完整的语意模型,具有共享与重复使用的特性。通过本体论来描述知识内容的架构,可以完整地呈现一个特定领域的知识核心,自动地了解相关领域信息、沟通及存取,甚或更进一步推演出新的知识与结果,对于信息系统的建立与维护,是个非常有力的工具。

1.2 相关开发技术

系统的开发工具为MyEclipse,它是Java技术平台的整合式开发环境,具备良好的人机接口及程序侦错机制。当系统开发时,能快速整合程序区块,并缩短系统发展时程。此外,Java也提供诸多整合网际网络应用与资料库的函数与方法。从系统延展性的观点来看,Java绝对是解决跨平台问题的首选技术。

系统采用SQL Server做为本体知识资料库分享平台。MS SQL Server是目前最常被使用的一种关系型数据库管理系统。本体论建构工具Protégé是由美国斯坦福大学研究开发的知识本体自由软件。Protégé是全球支持本体论的平台中最广为使用的一个。

2 系统架构

2.1 构建本体数据库

现今本体的研究大致可分为两个方向:一是针对特定领域构建大量的本体,通过建立特定领域的本体,支持该领域的知识剖析;二是研究如何建构与表示本体。本系统的本体构建属前者。系统的本体论建置即利用建置好的Java程序代码本体论资料库,支持系统进行相关Java网页的过滤搜集。Java程序代码本体论资料库的建置包括Java程序代码相关概念统计与分析及本体论资料库的建立两阶段。

2.2 系统架构

图1描绘出系统的架构,其各部分功能及相关技术详述如下。

(1)关键字及下载目录:执行网页搜集的前置工作包括:将输出区域清空、将输入位所输入的文字转成URL码嵌入搜索网址、将预设下载预设位置的输入字串转成储存位置的文件名称,并清除该位;最后,系统将提醒使用者输入相关预设作业。

(2)谷歌链接:提取一个URL组件并把Action方法中转换好的URL加上搜索网址;接着使用一个缓冲读取,并使用while循环逐行加入String组件line;最后,把line输出成txt文件,作为分析时的参考,档案内容即为该页面的html原始文档。

图1 系统架构图

(3)检索链接:使用前述的正规表示法从line中寻找是否有符合的URL,符合者会下载URL,并输出成txt文件提供给系统做进一步的处理。

(4)检索内容:使用SearchMatches( )方法来判定该网页是否为我们所设定的网页搜集范围,如果是,就将html原始文件之中的html标签移除,只剩下纯文字内容,方便系统做进一步的后续处理与分析。最后,把搜集过的网页数除以总网页数,该值即为目前的搜集总进度。

3 系统验证

我们以“JAVA程序”为关键词进行Java开放原始码相关网页搜集为例,并在Google进行搜索。系统定义网页准确率(RP)及回取率(RR)。NWT表示所有的回传网页数;NWC为正确的回传网页数;NWR则为相关回传网页数。表1是经领域专家逐一比对回传页面后,得到Google的准确率及回取率分别为6%与67%,以及系统输入同样关键词后所得结果。从上述比较中可以看出,除了显现系统比搜索引擎Google有较高的准确率及回取率外,更展现并验证了论文提出技术的可行性。

表1 搜索比较结果

表2 系统性能比较

4 结论

本系统以Java为技术平台提出本体支持的智能型网页搜集分析软件系统。通过软件间的合作与协调,来进行相关网页信息的获取。在系统中本体概念结合相关自由软件,将相关网页管理运作信息完整储存在后端资料库,再提供给后端系统做进一步分析处理。初步系统呈现及实验结果验证,此技术不仅对于网页实时状态的浏览、分析、处理行为分析精确,而且针对网页的处理时间也有效缩短,对使用者有较大的帮助。

[1]李善平,胡玉杰,郭鸣,等.本体论研究综述[J].计算机研究与发展,2004(7).

[2]郁书好,郭学俊.基于本体的教学知识库研究与应用[J].计算机研究与发展.2007(8):161-164.

[3]汪鹏.Ontology知识表示的艺术[J].计算机教育,2004(7):41-43.

[4]王莉.基于Protégé的本体建模方法研究——以学位论文服务系统为例[J].现代图书情报技术,2006(10):55-59.

猜你喜欢

资料库本体论使用者
基于内容与协同过滤的GitHub学习资料库推荐
国家社科基金重大项目“‘古今字’资料库建设与相关专题研究”成果鉴定会顺利召开
施工企业技术资料库的建立与完善
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
张载哲学的本体论结构与归宿
新型拼插休闲椅,让人与人的距离更近
实现科学教材中资料库的教育价值
抓拍神器
微电影本体论辨析