信息采集技术在教育领域的应用与实现
2019-03-19魏巍巍
□魏巍巍
时代的快速发展,使得信息技术不断的挖掘与开发,并且应用于现代教育过程中。为了有效实现网络信息采集技术在教育领域信息采集中的有效应用,必须深入探讨教育技术相关网站的采集特定主题,并且选取符合特定规律与格式的信息,通过信息收集与处理加工,有助于拓展教育领域的应用价值,提高了信息的使用效率。
一、网络信息采集技术设计思路与系统架构
(一)网络信息采集设计思路。网络信息采集系统是由windows平台研发,运用c语言形式编写,并且采用了xml存储格式,与数据库进行对接。网络信息采集系统能够对目标网站进行信息数据的收集,通过固定模式、单线程、制定框架采集,有助于对不同网站制定多元化的框架模式,从而保证采集方式更加多样,采集过程更加便捷。
(二)网络信息采集系统架构。网络信息采集系统的基本框架主要是保存URL履带抓取的数据结构,通过保存已经抓取的数据结构,有效避免系统重复抓取。在目标页面获取模块,对于获取的页面内容进行部分抽取再进行加工处理,完成数据的精确化存储。网络信息采集系统的应用流程必须确定采集信息的所在网站以及采集信息的主题。将采集信息主题输入系统中,在运用搜索功能、搜索网站中,包含与采集信息主题相关的数据信息。信息采集器根据相关标准要求采集信息,对于采集页面进行结构化调整,根据相关规则,实现自动信息聚焦,从而得出初步的信息内容。采集后的信息通过提取处理、格式转换等等,生成信息索引,完成信息采集。将采集后的信息存储到文件中,再根据使用需求,决定是否将文件存储于同类别数据库中,最后进行信息展示。
二、网络信息采集系统核心技术
在网络信息采集系统中,支撑技术的主要有地址查询技术与数据提取技术、模拟填充、数据精加工、自动点击技术等等。地址查询技术是应用布隆过滤器,判断经过函数散列时是否已经访问过,进而避免重复采取某一数据,导致程序死循环。其技术是开源项目,能够为目标网页提供精准的目标搜索导航。在整个信息收集过程中,无论是页面解析或者是文本抽取,都需要运用到数据提取技术,数据提取技术是一种路径表达工具,能够深入了解页码带面中的最小单位从而精准确定目标数据的代码,加强两者的有效结合,对解析界面进行综合分析与目标信息采集。而模拟填充与点击功能则像是百度、搜狐一类具有搜索功能的网页,由于大部分网站中均有搜索功能,应用数据信息挖掘系统,可以应用网站内搜索功能,有效地实现信息抓取。对于信息采集的目标网站来说,通常站内设有检索,但是检索也分为普通检索与高级检索两类搜索方式,普通检索只是提供输入文本框,高级检索则能够除文本框以外进行下拉列表框,或者是互斥选项等。应用模拟填充中自动点击功能可以模拟,用户的检索行为,包括下拉列表检索,或者是填充文本、点击按钮等一系列操作有助于增强搜索的准确性。对于一些动态类网页,如果并未确定数据技术的导向,就需要模拟点击下一页,完成对应页的超链接。经过以上几个步骤后,虽然得到了初步信息,但是也是粗糙的原始数据,必须对原始数据进行精确加工,才能够确保数据的价值与功能。原始数据中通常会出现HTML等文本,可以将占位符号去除,也可以对零散的原始信息进行有效的加工,规范信息格式,例如可以将新闻信息的标题与作者、发布日期统一设定为“某企业对于XXX技术应用展开研讨的通知”。对于作者信息或者是发布日期,存在文字中的引号与括号,或者是一系列标点符号。可以选用表达式定位目标,将这一部分符号抽取出来,再运用自然语言处理。对于pdf文档、图片、音频、视频、压缩包等则需要应用数据提取技术,导入下载程序。
三、网络信息采集系统的实现
为了确保上述方法的可靠性与真实性,本文运用简单的案例来验证。信息采集数据内容是教育技术资源网中的教育信息,信息内容是信息连接地址与信息标题。通过加载页面在设置编码信息,确定目标数据的所在位置,再应用表达式XPATH获取相关数据与信息。通过获取该页面下ID信息,再运用SELECTNODES分析判断代码中是否包含提取的信息内容,也就是本案例中所要提取的连接信息。如果是,代码则表示为SELECTNODES(“//a”)最后将数据搜索已定位在所提取的数据点上,再提取相关信息。根据上述实验,能够看出,运用本文提出的信息采集技术,能够有效地对教育网络页面信息进行高效采集,从而应用到教育技术中,有助于提高教育水平与工作效率,也增强了教育信息的多样化,提高学生的综合素养。
四、其他网络信息采集方法
本文介绍的信息采集技术是应用c语言编写的,可以选用其他方式,例如:JAVA网络信息采集技术。VIETSPIDER HRMLPARSER是HTML DOM解析器,是一项开发能源的网络数据采集器,能够提供图形化界面,有助于用户方便使用。同时,该项技术能够根据搜索主题展开目的特定信息搜索,对于初步获得的信息进行采集和分类,该项技术的最大特点在于能够将数据采集过程变得简捷化,提供图形化界面,满足用户的多元化使用需求。同时应用了爬虫技术,有效提出了模板解析理念,根据站点提供代理或者是多线配置,有助于服务器高效运行。同时VIETSPIDER可以在WINDOES系统下运行,管理人员可以运用VIETSPIDER客户端进行远程客户管理,可以应用于多类数据库系统。VIETSPIDER系统中设置了浏览器功能,支持数据解析以及多类数据的输出格式、数据的改造与除杂,并且VIETSPIDER技术应用设计极为简单高效,专业知识较少,能够提高使用效率。也可以选用组合系统方法HERTRIX+HTMLPARSER,该项系统是JAVA.研发的网络爬虫,用户可以从网络上抓取想要获取的目标资源。HERTRIX能够实现HTML文件的解析,可以应用于JAVA包的转化与抽取。运用HTMLPARSER则能够实现文本、链接、资源的抽取与站点、链接检查等,通过数据检查地址的重写以及冗杂信息的清除,有效地将HTML页面转换为XML页面。
五、结语
综上所述,信息采集过程中由于采集量较大,必须实现互联网站点的自动点击功能与填充功能,才能够完成对网页信息的解析与出题工作。最后要分析采集的网页是否可以进行重复采集,再对数据信息进行精加工,只有满足以上需求,才能够有效实现信息采集技术在教育领域中的有效应用。