APP下载

中小型网站在线决策系统的实现和应用

2021-01-30张青云

电子技术与软件工程 2020年22期
关键词:日志页面服务器

张青云

(山西省人民政府办公厅政务信息中心 山西省太原市 030006)

伴随着互联网、大数据、分布式服务器等技术的飞速发展,标志着以通讯、计算机、网络技术为代表的现代信息技术为代表的新信息技术时代的来临。新信息时代变革对于中小型网站既是机遇又是调整:一方面新技术的迅速发展,给互联网生态不断注入新鲜血液;另一方面,中小型网站受制于资金和自身技术能力,不能很好地在互联网上基于新技术进行进一步延伸和拓展。作为我国经济和社会发展的重要力量,中小企业凭借网站、电子商务、应用等互联网平台在电商、服务贸易等领域发挥着重要作用[1][2][3]。在新信息技术时代大背景下,中小企业网站通过基于大数据的在线决策分析系统提高内部管理效率、降低运营成本、扩大市场机会、提升服务水平具有重要作用[4]。

以往在线决策分析系统基本是面向大企业网站,复杂度高,成本高昂[4][5],少量面向关于中小企业网站的研究多采取定性描述等方式,缺少基于大数据的科学定量的研究方法[6]。决策分析作为网络信息分析和数据研究的重要方法和依托,可以从网络信息资源的管理与科学评价方面为中小企业网站建设提供定量的分析[7]。本研究基于长期市场分析和技术研发,提出了面向中小型网站在线决策系统:通过此系统的专业精准分析进行科学和有效的判断决策。

1 决策支持平台技术概述

1.1 后台数据处理与分析部分

决策支持网站采用B/S 架构,后台数据处理和分析部分支持全国各地的分布式的网站群。系统最低程度地使用用户的资源,包括服务器与人力资源。系统的配置方式通过批处理完成,保证用户的数据传输是安全的。历史数据的存放采用备份与压缩技术,支持大批量的用户的同时使用。有的网站有可能因为自身的原因,不能及时提供数据。本系统具有自动告警的功能,同时,如果系统正常以后,需要有自动获取数据的功能。系统需要具备冗余性和鲁棒性,如果正在计算的服务器资源出现故障,那么要有其它计算机资源接管或者重新执行任务的能力。系统也具有并行计算的能力,充分利用计算机服务器的多核特性。

1.2 前台交互部分

系统前端用户交互部分具有模块划分的能力,不同的用户可以看到不同的服务功能。具有计费、续费、缴费的在线功能,保证页面的刷新速度,能够配置自己站点栏目的能力,能够展现各类图表。系统还需要具备在线即时通信。

1.3 关键技术问题

1.3.1 第一种:数据传输的问题

整个系统平台最关键的问题是用户如何把自己的日志文件或者网站访问情况的信息交付给系统平台进行服务。不同类型的网站的访问信息(或日志文件)获取的途径不同,尽量把不同的日志获取途径统一在几种方式上[8]。

一般来说,中小型网站有如下四类情况:

A.有自己的网站服务器,也有多余的空闲服务器,也有自己的技术人员。同意开放FTP 端口或HTTP 传输日志。

图1:系统架构

图2:系统特性

B.有自己的网站服务器,但是没有独立的网站分析的服务器。不对外开放端口。

C.有自己的网站服务器,也有多余的空闲服务器,没有多余的技术人员。

D.没有自己的网站服务器,使用的是虚拟主机空间。

针对如上四类情况,采用不同的方式来获取日志以及进行分析:

(1)A 类情况:用户注册以后可以下载一个比较完整的软件包,该包安装于客户处的服务器上。这类客户的好处就是:能够保证了自己数据的放心度、保证了访问的速度。

(2)B 类情况:用户可以下载一个日志推送小工具,该小工具安装于客户处的任何机器,例如桌面机。通过端口配置,客户可以主动把日志文件投送的注册是选定的服务器。

(3)C 类情况:操作方式与B 类一样。如果由空闲的计算机资源,可以通过资源置换的方式征用此服务器作为网格计算的节点,此服务器需要安装一个分析引擎。这台服务器来作为整个平台的一个网格节点使用。

(4)D 类情况:让虚拟主机商开放其用户的日志文件,通过B 类的方式获取到日志,进而进行分析。1.3.2 第二种:网格化分析计算问题

图3:集群分析服务示意图

对于网格化计算问题,中心服务器与其他网格节点进行通讯来分配任务,网格节点计算完自己的任务后,把计算的结果传输回节点数据库服务器,要传输的数据量都是有限的,压缩后的数据以及分析处理后的数据都变得非常小。这样,网格节点就可以等待其他任务的到来。如果从客户处的网格节点发生变化,例如终止服务,整个系统统平台不会遗留其他任何数据。另外要驱动网格节点并行启动分析服务,所以有并行运行的能力,同时驱动多核的计算能力。安装在网格服务器上分析引擎也可以通过中心服务器删除。

1.3.3 第三种:数据存储管理问题

数据存储管理首先要解决大量长期数据的保存问题。另外要解决数据在传输过程中的安全问题。还要解决数据的备份与恢复的问题和压缩与解压缩的问题。

1.4 解决方案

本系统的前台采用Web服务方式,注册用户通过浏览器登录后,直接使用对应的功能,对于用户来说就像自己独立使用一套产品一样。而后台就需要大量的技术作为保证,相对于给大客户独立安装使用一套系统,要求服务于大量的网站,同时要保证数据的稳定性及安全性、结果查看的快速有效性,所以产品研发复杂性更高,主要需要实现以下关键技术:

(1)复杂数据的异构管理,包括海量数据的压缩处理;

(2)异地数据的网格化管理。数据不用集中上传,直接进行异地存放,集中式管理;

(3)数据分析的并行处理以及网格化计算;

(4)Web 访问的网格化服务。集中式登陆认证,分布式权限控制;

(5)分布式数据备份与集中式恢复管理;

(6)数据安全性保护。

2 中小网站在线决策系统实现

中小网站在线决策系统是一个面向中小型网站群的服务平台系统,该系统可以同时服务于上万、甚至十几万的网站群客户。这些中小型的网站不需要安装这个系统,而只是通过服务租用的方式来使用,通过配置后,就可以直接使用此系统。通过此系统的专业的分析,网站可以全面了解自身的网站流量、被关注的程度、范围甚至每一个细节,通过网站分析、网站流量分析的结果进行科学的决策来提高其网站的商业价值。

图4:日志采集架构

2.1 系统架构

本系统支持中小型的网站利用本项目实现的服务平台,在线分析自己的数据,从而获得科学的决策依据。因为系统分析的各个网站分布广泛,所以此系统支持远程数据管理的能力。本系统设置中心管理服务器、任务分配服务器,在全国各地设置数据分析节点,整个系统平台构成一个虚拟的运营平台。系统架构图如图1。

在图1 中,当一个用户通过统一的服务平台网址申请一个服务时,中心服务器会根据申请者网站的所在地,就近选择一个服务器作为此用户的服务平台。注册成为一个会员服务用户后,系统会返回一个访问网址,会员就可以通过这个网址来访问这个系统。中心管理服务负责管理整个平台的运营,包括用户认证、计费等。任务分配服务器负责调度所管理的所有服务器。分析服务器(节点数据分析服务器、网格分析服务器)负责分析数据。节点WEB 访问服务器就是直接面对用户的服务站点。该WEB 服务器可以根据负责的用户容量,增加新的服务器来负载均衡。

2.2 系统特性

系统特性如图2所示。

本系统网站数据分析采用以日志分析为主、嵌入式代码为辅的方式,支持大规模的网站群同时使用该系统。中小网站在线决策系统是一个充分模块化和的软件系统,日志搜集、数据传输、日志分析、结果访问采用独立的模块。系统平台每天会自动采集和分析数据,不需要人为干预。日志文件可以通过FTP/HTTP/SSH 等方式自动获取网站服务器的访问数据进行分析。系统采用B/S 架构,任何局域网的用户可以使用Internet 浏览器通过帐号和密码访问系统,并自由组合条件查看历史时间段的所有分析结果。

本系统采用SaaS 的服务模式,支持多线程体系结构,同时支持集群方式的网络架构,可以采用多台服务器服务于同一个网站群。分析引擎完全采用并行化算法,使分析服务完全并行工作,能够利用到服务器的多核能力。

集群分析服务示意图如图3所示。

本决策系统支持整个系统的高可用性架构,如果任何一台“分析服务器”宕机或服务中断,其他服务器会自动接管对应的分析服务,同时会发硬件故障通知邮件给系统管理员。对于数据库服务器,同样可以配置两台硬件服务器,作为高可用架构中的主、备服务器。其中一台数据库主机发生故障,另外一个会自动接管对应的任务,同时通知所有的“分析服务器”与系统管理员。日志文件的采集,采用全自动采集与人工采集相结合的方案。正常情况下,会采用7*24 自动采集,然后交给分析服务程序进行自动数据分析。

日志采集架构如图4所示。

3 决策系统的功能

本系统实现的功能包括综合分析功能,决策分析功能和技术分析功能。

3.1 综合分析

3.1.1 页面分析分析访问者访问本站点,包括页面的刷新等。页面数是衡量一个网站访问量的大小,是否受用户喜爱和关注的重要指标。

3.1.2 访问数分析

主要分析同一个IP 地址在间隔小于30 分钟内,访问同一个站点的访问数。访问数和页面数同样是体现网站访问状况的一个参考指标。

3.1.3 独立访问分析

主要分析一天内同一个IP 地址多次访问本站点的独立访问。

3.1.4 流量分析

分析网站访问的数据的流入和流出统计。帮助用户了解分析范围内各天或时段的频宽使用情形。

3.1.5 访问率分析

分析访问机率,具体指平均每人次点击的页面的次数,指一个用户登入一个网站后点击的页面的总数,该指标一般说明网站的内容的丰富程度。

3.1.6 时间段分析

分析时间段,按月、周、天、小时等不同的时间段内访问网站的页面数统计。并给出曲线图、饼图和表格。管理者可以清楚的看到,哪个时间段内访问的次数最多。

3.1.7 进入页面分析

分析当访问者访问网站时最先访问的页面。

3.1.8 IP 分析

统计访问者的来源IP 地址,并进行群组分类管理设置。

3.2 决策分析

3.2.1 用户群分析

分析用户来源,并按照国家、地区等。

3.2.2 网站栏目分析

对网站的各个栏目访问量进行分析,并生产走势图,并逐层进行深入挖掘。

3.2.3 栏目对比分析

按天、周、月等时间段做时间上的同期比较,并可以比较它们在时间变化上的增量。

3.2.4 本地广告分析

本地广告分析,分析的是客户或者合作伙伴在本网站这里投放的广告。

3.2.5 投放广告分析

分析的是本网站在其它网站上投放广告的点击数,了解广告投放的有效性。

3.2.6 新闻分析

新闻分析是对于指定栏目下的新闻,每天的访问情况的分析。

3.2.7 新客户分析

统计一段时间内的客户分布情况,新客户/回访客户分布。

3.2.8 回访率分析

分析客户的回访情况,不同的客户在某时间段内的回访频度、次数。

3.2.9 停留时长分析(黏度分析)

分析客户的停留时长、访问页面数。

3.3 技术分析

3.3.1 域名分析

通过域名分析就可以清楚的了解访问者访问本站点经常使用和喜欢的域名。

3.3.2 搜索引擎分析

分析访问次数最多的搜索引擎以及查看每个搜索引擎访问最多的关键字。

3.3.3 Spider 分析

从互联网上自动收集网页的Spider 系统程序,分析搜索引擎网页索引数据库,对网站网页文字和链接的更新情况。

3.3.4 搜索关键词分析

分析搜索到网站最多使用的搜索关键字并且通过点击关键字查看到关于该关键字更详细的分析。

4 总结

本研究基于中小型,提出了面向中小型网站在线决策系统。通过此系统的大数据分析,网站基于统计分析结果进行精准判断决策,为提升广大中小型网站的商业价值提供科学有效的工具和抓手。

猜你喜欢

日志页面服务器
刷新生活的页面
一名老党员的工作日志
扶贫日志
通信控制服务器(CCS)维护终端的设计与实现
游学日志
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
一种基于粗集和SVM的Web日志挖掘模型
网站结构在SEO中的研究与应用