APP下载

网络爬虫技术在电力产业中的应用

2018-01-28贺冠博苏宇琦黄源

电子技术与软件工程 2017年18期
关键词:分析

贺冠博+苏宇琦+黄源

摘要

随着技术的进步,将互联网技术和设计研究结构融合在一起,能在提升设计参数有效性的同时,提升设计框架的完整度,确保设计效果最优化。网络爬虫爬取的网页信息以固定的格式获取到本地后,能达到一种比较合理科学性的空间膨胀比,并提升技术分析参数的完整度。因此,要想从根本上优化技术设计框架质量,就要结合网络爬虫技术中的不同框架要素。

【关键词】网络爬虫技术 分析 网络爬虫设计

国际互联网技术的迅速发展让人类步入了大数据、云信息时代,在这种背景下,目前全球网页己经超过20亿,而且正在以每天730万的数量不断增加。在如此浩瀚的信息海洋中寻找信息宛如大海捞针。而搜索引擎技术的出现正解决了这一问题,它充分利用到了信息检索、人工智能、计算机网络、分布式处理、数据挖掘、数据库、数字图书馆、自然语言处理等多领域理论技术,为互联网技术发展提供了充足的参考依据。网络爬虫(Web Crawler)作为搜索引擎中的关键部分,它也被称为网络蜘蛛(Web Spider)、Web信息采集器,它是一个自动下载网页的计算机程序(自动化脚本),能够从一个称之为种子集的URL集合中展开运行流程。具体来讲,它会将URL集合中的所有URL全部放入到某一个有序的待爬行队列中,按照一定顺序从中提取URL以下在被指定网页页面,同时分析页面内容,最后提取新的URL并存入待爬行URL队列中,如此反复,直到URL队列为空或满足某一爬行终止条件,实现用户对Web的有效浏览,因此它还被称之为网络爬行(Web Crawling)。

作为网络机器人中的一种,它随着当前网络资源的爆炸式膨胀而不断实现个性化更新,扩大自身索引规模。传统通用爬虫技术己经不能满足现有索引规模及网络个性化更新速度,更不能满足客户现实需求。所以像主题爬虫的出现则异于通用爬虫,它可以采集全部网络资源,从互联网上采集特定主题资源网页,进而大幅度提升信息资源搜索效率,逐渐成为当前研究热点。在美国的卡内基梅隆大学,众多信息技术研究者就设计了Context Focused Crawler聚焦爬虫系统,提出了网页主题管理WTMS系统,并基于计算ontology相关度设计了主题爬虫,逐步完善其体系结构与框架,提出了目前全新的Web资源爬行系统IBM Focused Crawler。而国内南京大学的学者教授则在近年来设计了IDGS数据采集系统,该系统也基于Web技术与网络爬虫技术实现了网络资源信息自动搜集功能,己经被社会上各行各业所广泛应用。

在我国的国家电网行业,全系统内外网隔离及外部搜索引擎己经无法进入系统内部网络,因此在电力企业内部就必须通过更多网页信息交流及链接交换功能来实现信息检索和传播。为此,电力系统应该基于广域网特点,充分利用网络爬虫技术,对广域网中的有效信息进行分类过滤和快速收集,确保信息的准确性与完整性。电力产业作为关系到国民经济的重要行业,积极应用相关技术推动其优化发展,是产业发展的必然趋势。本文将从网络爬虫技术整体结构介绍入手,对网络爬虫技术基本框架和网络爬虫设计进行了分析设计,并着重阐释了网络爬虫工具在信息调度值班中的应用路径,旨在证明网络爬虫技术在电力产业中的应用作用,并为技术研究人员提供有价值的参考建议。

1网络爬虫技术整体结构

网络爬虫技术结构在建立过程中,要保证每个子目标都贴合系统的实际发展结构和规律,确保运行参数和运行结构的稳定性,也能提升网络爬虫技术的实际效率。在整体结构研究过程中,技术人员要针对灵活性、低成本以及高性能进行集中管控,确保运行参数和运行维度之间能建立有效的平衡结构。另外,网络爬虫技术的健壮性特征也较为明显,正是基于服务器通信结构和服务器系统化反应,能在处理服务器异常举动的过程中,确保对URL进行集中判定,从而对系统中PC结构的基本结点进行辨认,特别是处理错误的程序较为有效。特别要注意的是,在运行网络爬虫技术的过程中,基本框架能对信息和数据运行速度实现有效控制,在规定范围内保持访问间隔运行有效,并对服务器要进行每隔30秒的访问。

2网络爬虫技术基本框架

2.1网络舰虫技术爬行节点结构设计

网络爬虫技术基本框架由不同的PC端构成,其中要对控制节点的设计结构进行分析,在结构设计中要对五个基本模块进行综合分析。

2.1.1URL分配模块

该模块主要是为了有效协调不同结点之间的工作项目,确保参数结构符合实际需求,也为了将不同任务直接分配给不同的项目节点,需要技术人员对工作节点的时序性和工作具体要求进行分析,从而保证任务分配下项目在不同节点能发挥相应的效力。特别要注意的是,不同结点要保证工作不会出现重复,并能根据实际情况集中进行项目添加。

2.1.2结点通信模块

技术人员能利用不同的技术参数对系统进行集中管控,确保管理结构和参数之间能建立有效的平衡,在提高结点通信模块通信效率的同时,能利用采集器对采集网页上的信息进行直接处理,確保信息共享和信息交互。需要注意的是,在模块运行过程中,本身需要具备一定的策略结构,系统要在对等网络建立的过程中确保通信协议符合实际标准,提高通信器的实际价值。

2.1.3URL分析模块

在模块运行过程中,能对即将访问的URL队列模块和己经访问的URL队列模块进行集中处理,并对IP和域名转换模块进行综合审定。

2.2网络爬虫技术控制节点结构设计

在对网络爬虫技术控制节点进行分析的过程中,能对数据进行集中的管控,主要是对运行状态进行观察,并对参数进行调整。要对删除结点结构和监控项目进行综合分析,实现管理效果和管理水平的集中优化。

(1)在对运行状态和运行参数调整的过程中,技术人员要保证对不同结点的运行维度和运行参数进行着重解构,对URL实际数目和参数结构进行集中调整,以保证系统在最佳状态运行实际工作。endprint

(2)技术人员要对系统添加和删除结点进行集中控制,以保证必要操作的完整度,真正从系统的扩展性和容错性出发,提高系统整体质量。例如,要对系统中的ADDnode()以及Deletenode()进行集中记录,以保证信息同步操作的完整度,也实现副本更新的整体处理目标。

(3)在对结点进行有效监控的过程中,技术人员要对系统中的同步模块进行综合管理,确保结点列表内部的信息真实有效,也要对结点中的hash映射信息和数据进行集中处理,减少其随意的向其他结点布置任务的情况。

3网络爬虫设计

3.1网络爬虫分布式设计策略

前文提到了任务在结点之间的分配,需要技术人员针对具体问题进行优化管控,也要对分布式策略进行综合分析,确保设计策略能贴合系统的实际需求。在分布式策略建立和运行的过程中,技术人员要针对具体问题进行优化处理,最重要的就是要将信息划分为分布式信息采集系统和广域网分布式信息采集结构。一方面,分布式信息采集系统要对内连接信息进行集中总结,另一方面,要保证采集器能将信息借助网络远程通信实现信息维度控制的有效性。技术人员要对广域网模式进行集中管控,也要对广域网和局域网之间的结合结构进行综合分析,确保处理机制和结点运行机制贴合实际市场发展诉求。

3.2网络爬虫多线程下载设计策略

多线程下载设计结构最基本的优势就是能对多个单程进行记录,确保不同事件能统一运行。例如,在一个线程运行GUI指令时,需要对数据和信息进行登记,第二个线程运行或执行I/O操作指令的过程中,第三个线程在运行时,需要对整体系统参数和结构进行计算,确保管控结构具有时效性。多线程结构最大的优势就是在程序内部能提高计算机的实际效率,提升程序有效性的同时,建构更加有效的内存空间,从而共享数据信息。只有保证多线程下载设计策略优化运行,才能真正提高整体运行结构和效率。

3.3网络爬虫网页分析设计策略

主要对HTML标记进行分析,其中包括单标记和双标记项目,第一,标记为“单标记”需要在单独运行过程中对信息进行完整表达,常用标记就是

。第二,标记为“双标记”要对初始标志和结尾标记进行结构分析,确保标记结构符合数据要求,常用的标记形式是。

4网络爬虫工具在电力企业信息调度值班中的应用

在技术逐步发展的进程中,将网络爬虫技术和信息调度工作融合在一起,是顺应市场发展诉求的必然趋势,本项目主要是将网络爬虫工具应用于电力企业调度值班工作中。

(1)要在电力企业信息调度值班中运行有效的网络爬虫工具,提升管控制度的优化水平,借助网络爬虫技术实现各应用系统定时自动巡检,快速定位出现访问异常的系统,并对其具体参数进行集中分析和控制,有效记录异常发现时间,在应用巡检工具之前,值班员通过人工巡检各应用系统,检查系统的正常情况,平均每隔2小时检查1次,每次用时30分钟,则每天只能检查12次,需耗时6小时;在使用巡检工具后,可以达到每隔30分钟巡检1次系统,每次用时不超过5分钟,则每天可以巡检48次,耗时仅用4小时。

(2)值班人员也要借助网络爬虫工具强化信息值班调度的实际效果,并能及时通过短信的方式告知其他调度值班人员,以保证人力资源配置结构的完整度,优化技术应用的实际效果,顺利实现信息调度值班项目的优化目标。

(3)电力企业在调度工作中若是发现任何问题,都需要值班人员确后第一时间联系系统负责人,及时处理系统异常问题,有效的提高值班工作中发现系统异常、处理問题的效率,减轻了每天手工巡检系统的效率,为值班工作带来了切实有效的巡检手段。

(4)电力企业要针对信息调度值班工作人员进行集中的技术培训,提升其信息处理能力和技术操作意识,确保整体管理效果和管理层级符合企业发展的实际需求,真正落实技术优势,进一步提高网络爬虫技术对信息调度值班项目的优化水平。

5结束语

总而言之,将网络爬虫技术和信息调度

项目融合在一起,能从根本上提高整体运行结构质量和效率,确保管理措施和管理效果更加符合市场需求,顺利优化仿真系统的有效性,从而保证企业的工作效率,从根本上实现技术工作按照标准化流程优化运行,调度员也能在仿真系统中获得有效的信息和数据,为我国信息项目可持续发展奠定坚实基础。

参考文献

[1]张明杰.基于网络爬虫技术的舆情数据采集系统设计与实现[J].现代计算机(专业版),2015,15(12):72-75.

[2]周大.云环境下Web应用扫描中的网络爬虫技术探究[J].信息网络安全,2013,15(05):20-23.

[3]钟锃光.经济学家也要学点网络爬虫技术——漫谈爬虫技术与经济数据收集[J].经济资料译丛,2014,22(02):94-100.

[4]徐剑,柯贵明.网络爬虫技术在搜索引擎中的应用[C].全国第24届计算机技术与应用(CACIS)学术会议论文集,2013:531-535.

[5]彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2014,33(01):157-160.

猜你喜欢

分析
禽大肠杆菌病的分析、诊断和防治
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
电力系统及其自动化发展趋势分析
经济危机下的均衡与非均衡分析
对计划生育必要性以及其贯彻实施的分析
GB/T 7714-2015 与GB/T 7714-2005对比分析
网购中不良现象分析与应对
中西医结合治疗抑郁症100例分析
伪造有价证券罪立法比较分析