网站信息监测系统的设计与实现

2023-07-06那艳,刘磊

鞍山师范学院学报 2023年2期

那艳,刘磊

(鞍山师范学院信息中心,辽宁鞍山 114007)

校园网站是学校对外宣传、沟通交流、分享学术资源的重要渠道,为广大师生提供教学、科研与管理服务.随着高校信息化建设的快速发展,很多高校引进网站群技术,利用统一技术框架、统一数据平台实现网站分级管理、信息高度耦合与资源共享.同时,伴随网站规模的不断扩大、功能扩展的进一步增强以及信息量的急剧增加,网站管理变得越来越复杂.网站的日常维护和管理旨在确保网站的安全、平稳、高效运行,通过对其内容的及时更新和调整,确保信息发布等功能的充分发挥,实现资源共享[1].针对学校网站平台多样、数据量庞大、更新频繁等特点,快速获得网站最新发布内容、确保网站的安全性、准确性已成为网站管理人员亟待解决的问题.大多数网站把监控研究的重点放在网站安全性上,主要关注网站是否被篡改、网站是否存在暗链、是否包含恶意代码以及敏感词过滤等方面问题,鲜有对网站数据更新方面的实时监测进行研究.

在网站的日常维护管理中,需要定期巡查各站点的新闻发布更新情况,确保新闻的准确性、完整性、时效性.设计一款自动高效的网站实时信息监测系统,利用Python网络爬虫技术抓取网站群地址列表的网页信息,通过与历史数据比对找出最新发布消息,再利用Web页面形式展示今日更新、历史新闻、新闻更新数量统计、网站在线情况、机房环境温湿度曲线图表、网络设备连接状态等信息.网站管理人员能够有效地了解网站群的运行情况,如网站是否发布了实用性、新颖性、可靠性的信息;网站访问是否畅通可达;机房环境是否温度过高;网络线路设备是否异常等.该监测系统能够协助网站管理人员更加高效地管理学校各站点,进而提高工作效率.

1 相关技术分析

1.1 Python网络爬虫技术

网络爬虫(Web crawler)是一种按照一定的规则自动抓取万维网信息的应用程序或脚本.互联网搜索引擎的底层就是爬虫,它可以自动采集所有其能访问到的页面内容,以获取或更新这些网站的内容和检索方式,其工作原理是基于Http中的请求响应机制.首先,定位URL地址,确定要爬取的网页数据;其次,通过Http/Https协议获取对应的HTML页面;再次,从页面中将需要的内容进行保存,如果还有其他URL地址则继续重复执行该过程.Python提供了丰富的扩展库可以实现爬虫,常用的库有Requests、re、Beautiful Soup以及Lxml等[2].Requests库能够模拟Http请求,获取响应,从响应的HTML中获取数据.Beautiful Soup库提供一些简单的函数用来处理导航、搜索、修改分析树等功能,是个工具箱,其通过解析文档为用户提供需要抓取的数据[3].Python语法优美,代码简洁,开发效率高且支持模块多.

1.2 树莓派

树莓派是一款开源硬件,搭载CPU、图像处理器、内存、USB控制器等构成一个低功耗片上系统,是轻量级的Linux计算机.其拥有GPIO数模转换接口,通过该接口可以控制各种传感器、电机等.树莓派具有价格低廉、速度快、便于移动、能二次开发等特点,广泛应用于各个领域,可以提供网络、文件、音视频相关的各种服务,如连接硬件用来做数据采集、监控、分析、发布等.本系统采用树莓派和温湿度传感器设计开发机房温湿度环境监测模块.

2 系统设计思路

系统设计总体目标是使用网络爬虫实现网站信息的自动实时监测,利用树莓派监测机房环境温湿度变化情况等.

使用网络爬虫技术模拟浏览器对学校站群内各站点的首页发起请求,获取服务器响应、进行页面解析后存储数据.系统具有数据采集、数据分析、信息展示、文件归档、清除历史文件等基本功能.(1)使用Python语言环境下的第三方库,通过urllib的Request库和Beautiful soup库等对学校网站群进行数据爬取,抓取内容为各网站发布的文章,包括文章的标题、链接地址、发布时间等.(2)利用Python的TIME库,调用当日的日期作为文件命名的一部分,通过比较采集数据与当日历史日志文件内容,获取当前最新的内容进行汇总,将机房温湿度环境监测数据绘制成温度、湿度曲线图,将网络出口、校内线路以及服务器网络设备运行连通状态绘制成表格.(3)生成HTML页面,将采集到的各种数据进行信息展示.系统会一直处于工作状态,每隔10 min自动运行一次,达到实时响应动态监测的目的,并定期检查更新情况.系统设计框架图如图1所示.

图1 系统设计框架图

机房环境监测模块运行在树莓派上,硬件设计采用树莓派连接温湿度传感器元件DHT11,通过网络将采集数据传输到文件系统进行保存.温湿度监测元件DHT11的VCC电源、DATA数据输出和GND接地的3个引脚与树莓派GPIO对应功能针脚相连.软件部分加载Python相关的GPIO和TIME库,定义数据口、初始化模式.首先,设置GPIO接口为写入数据模式,输出一个低电平信号,0.02 s后输出一个高电平信号启动模块测量,当DHT11接收开始信号后,将温湿度的数据传输至树莓派.然后,设置GPIO接口为读取数据模式,获取到高电平信号后,开始读取模块获取数据.在处理温度、湿度数据时,如果温湿度超过阈值将发送E-mail报警.

3 系统功能模块

3.1 数据采集

数据采集模块的设计目标是抓取网站群的内容更新,网络爬虫模拟浏览器行为对指定URL地址列表进行浏览,设置地址列表字段为网站标签、站点名称、网址、服务器状态、网页编码、是否采集信息等.地址列表可根据实际使用情况随时进行调整,网站标签具有唯一性,这里采用网站域名的一部分;网页编码方式有UTF-8、GBK,要根据不同网站的实际源码编码方式进行选择,否则会出现各种编码问题.利用Request扩展库向站点发起Http请求,获取响应数据,再通过Python中的Beautiful Soup库将HTML文档解析,获取标题、访问链接等信息.

在网络出口、校内线路、服务器和网络设备连接状态的数据采集中,可根据ping命令收发ICMP的包数来判断网络状态.使用 Python的os库调用popen()函数获取ping命令结果,在os.popen()函数与cmd命令窗口之间建立一个双向通道,可以从cmd窗口和程序间相互读取信息.如若命令返回结果中有“icmp_seq”,证明ping命令成功,则将网络状态连通结果返回;否则,ping命令失败,网络状态即为断开.将所有要监测的设备IP建立列表,包括互联网出口、校内各个楼宇三层交换设备、路由器、防火墙、行为管理、服务器、核心交换机等.