APP下载

基于朴素贝叶斯算法的网络教学平台响应时间研究

2019-03-30常志鹏徐娟

数字技术与应用 2019年12期
关键词:网络教学平台

常志鹏 徐娟

摘要:随着高等院校信息化水平的高速发展,网络教学平台重要性日趋显著。本文分析某高校网络教学平台服务响应时间的影响因素,并针对服务器性能、数据庫连接池优化、是否采用服务器缓存、是否集群部署四分类变量,对平台响应时间进行性能测试。随机选择测试数据集中80%数据作为朴素贝叶斯分类算法测试数据,并对20%数据进行响应时间预测。根据朴素贝叶斯分类器后验概率,获取每个状态分类特征对类的贡献率。实验表明,优化Windows服务器性能配置、引入服务器缓存技术、采用数据库连接池Druid、采用集群方式部署,能够有效缩短网络教学平台响应时间。

关键词:网络教学平台;响应时间;朴素贝叶斯分类算法

中图分类号:TP301.6 文献标识码:A 文章编号:1007-9416(2019)12-0112-04

0 引言

随着“互联网+教育”的快速发展,传统课堂教学模式的缺点和不足逐渐显露。传统的教学模式无法满足信息时代学生对于教学的需求。由于区域发展不均衡,学生所接受的教学设备和教学资源不同且有限,同时存在教学资源和教师水平分布不均匀的现象,这制约了教学水平整体的上升和教学质量的提升。网络教学能够一定程度上满足信息时代学生对教学的需求,并且在不断发展和完善。王嘉棣[1]指出,随着网络教育教学在全国的各地的推广,同时逐渐暴露出当前网络教育教学面临的诸多问题。在线教学并没有实现对教学资源的最大化使用,反而存在重复以及冗余等问题。越来越多的专家和学者关注以下两个问题。其一,在线教学资源如何能够被高效率地利用。其二,如何通过网络教学平台实现学习者自主、交互、自动的学习。

构建高等院校网络教学平台推动了教学领域的改革,它可以实现教学资源的共享和实时更新。通过应用大数据对网络教学平台进行构建,不仅满足学生的日常学习需求,同时将教师的课余时间在教学领域进行拓展,提供了一个很好的信息载体平台。胡宇红[2]等人在研究多家高校在线教育教学平台存在的问题,提出加强各个网络教学平台的联系同时减少网络教学资源过度浪费的情况,提升在线平台的质量,只有关注在线教学平台的质量才能保证网络教学健康发展。网络平台应用服务响应时间作为衡量教学平台质量的因素之一,是平台可用性、稳定性的重要指标。文档[3]提出,据统计结果显示,网络平台服务响应时间在4秒以内,大部分用户可以接受;4~7秒以内,30%的用户选择离开;8~9秒,则有60%的用户选择离开;超过10秒,则90%以上的用户选择离开。

1 网络教学平台响应时间分析

网络教学平台响应时间(Response Time)是指从客户端发起请求开始,到请求端接收到服务器端的返回结束,整个过程所耗费的时间。完整地记录了对应系统处理请求交易的时间。如图1的访问请求,客户端的请求及响应时间有:HTTP请求时间(N1)、WEB服务器处理时间(A1、A5)、WEB服务器与中间件交互时间(N2)、中间件处理时间(A2、A4)、中间与数据库服务器交互时间(N3)、数据库服务器处理时间(A3)、数据库服务器响应时间(N4)、中间件响应时间(N5)、WEB服务器响应时间(N6)。网络平台响应时间为N1+A1+N2+A2+ N3+A3+N4+A4+N5+A5+N6。

本文将网络教学平台请求时间消耗主要切分为展示耗时、网络传输耗时、应用处理耗时三部分,如图2所示。展示耗时主要差异在浏览器、用户自身电脑配置的差异上;网络传输耗时,如果涉及广域网,大多情况都会有5ms-50ms的延时;如果是局域网普遍延时都在1ms以内,几乎可以忽略不计。本文重点关注应用系统处理耗时,WEB服务器性能、数据库性能、是否引入服务器缓存、是否集群部署四分类变量对网络教学平台响应时间的影响。

1.1 WEB服务器性能对平台响应时间的影响

研究表明,WEB服务器性能直接影响在线学习平台响应时间。本平台基于windows 2008。系统TCP参数基于带宽、网卡、速率等其他因素考虑,在默认值设置上都是比较保守的,基于默认值而言,windows系统会保留60%左右的性能空间。

TCPWindowSize是指tcp窗口大小。其缺省值为16KB。缺省情况下,本文将试图根据MSS来优化窗口大小,起始值为16384字节(16KB)16KB,最大值为64KB。以太网最大段长度为1460字节,低于64KB的1460的最大整数倍为62420字节,修改为62420字节(略小于最大值64KB),通过修改该参数可以有效充分利用网络,提高服务器的网络吞吐率,是高带宽网络中适用的性能优化参数必选之项。提高效率理论上约为3倍左右。

1.2 数据库连接池对平台响应时间的影响

建立Web应用程序与数据库之间的TCP连接,DBMS需要为其分配多种资源,而在释放连接时,DBMS需要释放掉这些资源,分配和释放资源都是比较耗时的工作,建立和释放连接势必会影响整个系统的性能。实际上,大多数应用程序仅使用1个或几个不同的连接配置。这意味着在执行应用程序期间,许多相同的连接将反复地打开和关闭。

在平台中,我们采用阿里宝宝的数据库连接池Druid,以替换过去使用的DBCP和C3P0,相比DBCP和C3P0会出现数据库无法重连,连接效率慢,Druid是具备更高的稳定性及高效性。

1.3 服务器缓存技术对响应时间的影响

Internet的统计表明,超过80%的用户经常访问的是20%的网站的内容,在这个规律下,缓存服务器可以处理大部分客户的静态请求,而原始的服务器只需处理约20%左右的非缓存请求和动态请求,于是大大加快了客户请求的响应时间,并降低了原始服务器的负载。合理有效地设计和使用缓存是优化应用系统性能的重要手段,在基于Web的支持大量用户的系统开发中,这一点尤为明显。利用有效的缓存,可以避免Web服务器与数据库之间的网络往返,绕过占用很多资源的计算,并节省服务器资源,同时改善响应时间和等待时间。

缓存服务是一种提高服务器性能、降低服务器资源浪费的有效方法。对于安全性要求高的应用程序,采用在WEB服务器上维护缓存数据的方式可以有效地提高页面性能。缓存实现了最近最少使用(least-recently-used)替换算法,而且允许强制缓存清除操作——如果可用内存下降到低水平——则自动从缓存中删除不使用的项目。另外缓存支持依赖性到期特性,它能强制包括时间、键值、文件失效。多级缓存的体系结构如图3所示。

1.4 集群部署对响应时间的影响

目前,国内各高校办学规模不断扩大,在校学生数量不断增加,网络教学平台会出现在线学习课程页面响应速度慢及无响应的情况,严重影响了学生的学习效率、打乱了教师的教学计划。教学平台采用集群部署,能够有效降低这一问题。集群部署[4]是指,利用网络将一组具有独立功能的计算机或系统连接起来作为工作群,作为特定WEB服务器,完成集群中所有结点能一起协同工作完成某项特定任务。

网络教学平台采用负载均衡集群,指对教学平台中的负载进行动态调整,以尽量降低平台各节点负载不均衡的现象。由多台服务器组成工作集群,其中每台服务器可单独提供服务,且无须其他设备辅助。通过负载均衡算法将外部请求按特定规则,均匀分配到具体服务器上,从而实现平台各节点并发数相当,提高教学平台吞吐量。

2 朴素贝叶斯分类算法

2.1 分类问题

分类问题可做如下定义:

已知集合C=y1,y2,……,yn和I=x1,x2,……,xn确定映射规则y=f(),使得任意xi∈I有且仅有一个yi∈C,使得yi∈f(xi)成立。其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

2.2 朴素贝叶斯分类算法

设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1, C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是

P(Ci|X)>P(Cj|X) 1≤j≤m,j≠I                    (公式一)

根據贝叶斯定理:

(公式二)

由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样先验概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以从训练数据集求得。

根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法[5]成立的前提是各属性之间互相独立,是己知先验概率和类条件概率下的一种模块分类器。算法的核心思想:选择具有最高后验概率作为确定类别的指标。当数据集符合独立性假设条件时,分类准确度较高,否则分类可能较低。另外,该算法没有分类规则输出。该模型发源于古典数学理论,有稳定的分类效率。对小规模的数据表现很好,能处理多分类任务,对缺失数据敏感性弱,适合增量式训练。

3 响应时间的影响因素仿真与分析

3.1 实验环境及参数配置

网络教学平台部署于虚拟化服务器。本文采用Python语言与Scikit_Learn机器学习库进行模型训练。

3.2 数据来源及预处理

本文针对某高校网络教学平台,采用性能测工具Jmeter针对表一中不同参数设置,对网络教学平台进行测试。经测试后,我们收集测试总数据集1000条,选择80%作为模型训练数据集,20%为测试数据集,如表1所示。

高质量的数据是准确有效地预测网络教学平台响应时间的基础。对数据的类型进行转换,使其更加有利于分析研究。由于Web服务器TCPWindowSize 设置分别为16kb及64kb。本文将其转换为0-1制,其中0表示16kb,1表示64kb。网络教学平台响应时间为连续型数据,为了方便研究,本文将其划分为A、B、C、D等级。响应时间及等级划分如表2所示。

3.3 朴素贝叶斯分类器模型训练及分析

通过朴素贝叶斯模型预测该平台对特定请求响应时间。系统响应时间有四个分类变量(分类因子),包括在线用户数,Web服务器Windows2008 TCP参数调优TCPWindowSize,MySql数据库Key_Buffer_Size,Redis缓存。使用Scikit_Learn中的朴素贝叶斯分类算法GaussianNB,该算法假设特征的先验概率为正态分布,主要用于连续变量中。本数据集中各特征接近于连续型随机变量,适合本算法。

程序部分代码如表3所示。

测试结果如表4所示。

由表4可知,当选择训练样本为近一周网络教学平台测试数据,训练样本总数为800条数据。其中,响应时间A类型为542条,响应时间B类型为179条,响应时间C类型66条,响应时间D类型为13条,测试样本总数为200条,其中,响应时间类型A为132条,响应时间类型B为31条,响应时间类型C为11条,响应时间类型D为4条。应用 NBC算法进行分类预测,响应时间A类型、响应时间B类型精度较优。

4 结语

实验表明,在网络带宽并没有得到相对扩充、网络流量没有绝对增加的情况下,同时优化Windows服务器性能配置、引入服务器缓存技术、采用数据库连接池Druid、采用集群方式部署,能够有效缩短在线学习平台响应时间,从而加速网络对用户的反应速度,缩短用户感知的时间延迟。但上述的分类中,仅对四类影响网络教学平台响应时间因素分析,在接下来的研究中,还应该深入分析其他因素对网络教学平台响应时间的影响。

參考文献

[1] 陆梦娟,王嘉棣.在线教育市场的发展现状分析及对策建议[J].中国市场,2015(44):73-74.

[2] 胡宇红.浅谈网络教育发展现状[J].东北大学学报,2013(12):77-78.

[3] 陈能技.软件测试技术大全:测试基础流行工具项目实战[M].人民邮电出版社,2008.

[4] 陈丽萍.基于集群的教务管理系统性能优化研究及部署[J].教育现代化,2019,6(20):122-123.

[5] 王辉,陈泓予,刘淑芬.基于改进朴素贝叶斯算法的入侵检测系统[J].计算机科学,2014,41(4):111-115.

Research on Response Time of  Network Teaching Platform Based on Naive Bayesian Algorithm

CHANG Zhi-peng,XU Juan

(Modern Educational Technology Center,Ningxia Medical University, Yinchuan  Ningxia  750001)

Abstract:With the rapid development of informatization in colleges and universities, the importance of network teaching platform is becoming more and more significant. This paper analyzed the influencing factors of service response time of network teaching platform in a university, and tested the performance of platform response time according to server performance, database connection pool optimization, server cache, and cluster deployment of 4-class variables. 80% of the data in the test data set was randomly selected as the test data of naive Bayesian classification algorithm, and the response time of 20% data was predicted. According to the posterior probability of naive Bayesian classifiers, the contribution rate of each state classification feature to the class was obtained. The experimental results showed that the response time of network teaching platform can be effectively shortened by optimizing the performance configuration of Windows server, introducing server cache technology, adopting database connection pool of Druid, and utilizing the cluster deployment.

Key words:network teaching platform; response time; naive Bayesian classification algorithm

猜你喜欢

网络教学平台
基于网络教学平台的对话式课堂建构与教学实践
基于网络教学平台的大学计算机教学改革探讨
对信息时代高职高专外语课堂教学模式的探索
利用翻转课堂促进高职英语教学初探
职业学校应用网络教学平台对提高教学质量的研究