APP下载

基于web的数据库技术与应用研究

2020-09-16宋超

科学与信息化 2020年14期
关键词:系统开发数据库

宋超

摘要:本文对基于Web的数据库技术进行探讨,确定基于Web的数据库系统总体框架,详细划分了系统的总体功能并进行分别阐述,通过MySQL数据库设计信息的采集、分析以及管理过程,确定并设计了各模块的主要功能,经实践证实,该系统可实现对系统的有效管理,可自动跟踪互联网信息并进行分析与处理,自动生成网络信息简报,可满足用户对获取信息的需求。

关键词:数据库;Web开发技术;系统开发

互联网技术不断发展的当前,通过网络获取信息具有方便、快速的优势,因此人们已经习惯于这一信息获取方式。本文探讨了基于Web的数据库开发,可实现自动跟踪信息并获取,分析信息并处理,生成网络信息简报,能满足人们对信息获取的需求。

1Web信息获取方法

Web的图形界面良好,容易操作,因此受到人们的广泛认可。Web上的信息资源丰富,但是Web基于文件系统,通过静态HTML文本形式储存,不能像数据库系统一样来对数据进行管理。当前信息量不断增加,为了为人们发现知识以及查询信息提供便利,需要研制基于Web的检索系统及索引。信息获取系统主要有人工转换与自动转换这两种。

人工转换这一方法利用搜索引擎来实现对HTML等信息的获取,经人工处理转化为数据库系统,之后进行查询、排序以及索引,这种方法的优势在于实现难度低,但是其重要缺陷在于周期较长,因此无法满足迅速更新数据的要求。

自动转换这一方法经系统在指定范围内迅速且自动地发现新信息并进行自动更新,能通过搜索引擎实现数据的收集及索引。

2基于Web的数据库开发

2.1系统总体设计

系统为数据库、信息采集以及信息管理等服务器组成,通过互联网实现彼此的通信。系统用户有两类,普通用户以及系统管理员,从系统管理员的权限上划分可以细化为管理员与操作员。普通用户的权限只有对相应文档进行查阅与下载;管理员可登录信息管理服务器创建采集任务,在数据库中存入配置数据。信息采集服务器读取相关数据后,采集信息并分析,在数据库中储存分析结果。信息管理服务器对采集任务结果进行读取并进行统计及展示。

2.2功能模块设计

子系统主要包括采集系统、处理系统、分析体统以及信息服务系统。

(1)信息采集系统

该系统负责对指定范围的网站内容进行定向采集,支持对PDF、word、PHP、ASP、JSP等动态内容的分页抓取,将信息抓取后以文件的形式单独保存,也可以在数据库的字段中进行存储,采集范围可包括整站采集、板块内容以及部分栏目采集。

通过关键词:在常用搜索引擎中自动搜索数据,结合实际需要来设计采集状态、采集数量、开始/结束采集等,具备对站点资源数据进行查找、删除、增添以及修改等管理权限。自动识别采集主体后追踪采集任务。

(2)信息处理系统

这一系统可以设置行业用户信息类以及报纸类等不同网站站点的开发优先级,经专题设置实现对信息的管理及分类,结合需要来对数据进行增添、删除、编辑以及整理等管理维护;以媒体的时间、来源等为依据对采集到的目标媒体数据进行分类统计,之后自动生成信息目录;采用平面媒体报告的形式将所采集的信息展示出来;获取地址中的指定内容;生成信息简报并进行编辑;导入/导出需要采集的站点数据。

(3)信息分析系统

其功能包括对采集到的信息进行分析,对信息的主题进行识别,同时多角度跟踪,通过热词以及聚类等方法来对发展趋势进行判断以及对所需内容进行提取。基于上述功能统计根据信息的站点分布以及采集时间统计,输出图表形式的报告。

(4)信息服务系统

其功能包括对系统账户以及权限进行管理,确定信息采集词;监测专题采集,显示信息详情;对关注信息进行收藏。

2.3整体功能流程

根据专题出结果时,单个网站配置,之后在专题里设置关键词:并添加网址,对筛选进行设置,对采集时间进行设置最后进入信息分析流程。当选择根据词频出结果时,配置单个网站,确定模块或者板块,对筛选及采集时间进行设置,根据热度给出关键词:,最后进入信息分析流程。

进行信息分析时,信息的采集管理包括专题配置以及单个网站配置,确定信息采集管理之后选择采集方式,采集方式包括专题采集、全网采集以及网站采集,之后进行定时采集,对内容进行识别,分析信息并进行统计,生成简报。

分别根据网站采集以及专题采集做出配置说明,采集方式包括全网(主要是搜狗以及百度等潴留搜索引擎)、专题(主要是网站中的某个栏目板块)以及网站(指定的网站)这三种,指定采集数据类型,当进行全网采集时,要求指定关键词:。

信息采集效率直接影响系统的使用效果,因此采用多线程方式来设计总体信息采集框架以提高信息采集效率,各线程执行不同操作,从而充分利用资源。

2.4数据库设计

由于系统设计大量数据表,需要通过多表分离的方式来对荷载进行均衡,为了解决数据的检索及存储问题,采用MySQL数据库,其具有容易操作且高效、安全的优势,能为信息的管理以及统计分析提供便利。建立字段并完善,从而做到准确、全面地查询数据。

逻辑结构中,采集任务信息表最为关键,采用关联设计的方法来对相关的关键数据表进行设计。

3系统主要功能

3.1用户管理功能

正如上文所说,系统的用户有管理员与普通用户两种。具体的权限划分方面,系统管理员可管理各模块的内容,设置采集时间权限等;操作员没有权限操作用户管理模式,但是有对其他模块进行操作的权限;普通用户只有对文档进行查阅及下载的权限。根据这些需求,首先对系统模块功能进行确定,对功能点进行排序标号,组合相应用户类型,在数据库的用户权限表中进行储存,将功能点的耦合度降低,基于此关联匹配新用户与指定用户类型,从而配置用户权限。

3.2采集及分析功能

分析需要采集的网站,基于此定义信息采集规则、处理流程。在网站的对应目录下自定义配置文件,编写对应网站的处理代码。读取采集任务时,先与数据库连接,之后进行SQL语句的编写。采集信息时,对采集任务的网站模块ID、时间间隔、关键词以及采集方式等进行解析读写,基于此将采集线程開启,执行采集任务。当成功采集结果主要内容时,先以文章的位置为依据来编写正则表达式,过滤结构化标签,之后再提取文章主要信息。分析信息时,过滤文本无用符号,先建立系统通用词库,再通过调用功能去除文本通用词,最后采用TextRank~法对关键词进行提取,信息采集阶段已经在数据库中存放了标题,处理阶段已经在磁盘上存放了正文,依次读取文章信息,通过算法分析关键词,待相同采集任务相关的文章都已经分析完毕时,提取热度最高的五个词,这些词就是关键词。

4系统测试

通过黑盒测试法来测试该系统的主要功能模块的主要功能,进而检测该系统稳定性与实用性。经测试证明,系统管理员能有效管理系统,能以用户的需求为依据设置信息采集的目标站点、时间间隔以及主体,能通过多角度跟踪主题的后续发展,且该系统在信息的采集、读取以及分析方面表现良好,可通过平面媒体报告的形式将结果呈现给用户。该系统的拓展性以及稳定性良好,可投入使用。

5结束语

为了能够满足用户的需求,本文对基于Web的数据库技术进行探讨,与Web技术以及HTTP协议相结合确定基于Web的数据库系统总体框架,详细划分了系统的总体功能并进行分别阐述,基于系统整体拓扑结构,通过MySQL数据库设计信息的采集、分析以及管理过程,确定并设计了各模块的主要功能,最终经实践证实,该系统可实现对系统的有效管理,可自动跟踪互联网信息并进行分析与处理,自动生成网络信息简报,可满足用户对获取信息的需求。

猜你喜欢

系统开发数据库
数据库
数据库
基于PLC的火电厂输配煤粉节能程控系统的开发
气象数据传输监控平台的设计与实现
基于网络数据分析的计算机网络系统开发
发射机房运行监控系统关键技术的解决方案
基于开源系统的综合业务数据采集系统的开发研究
数据库
数据库
数据库