APP下载

大数据背景下高校大学生知识智能推荐系统的设计

2023-07-20王金权

无线互联科技 2023年9期
关键词:数据处理大数据

王金权

摘要:高校大学生重复做大量习题,但知识依然掌握不扎实,一直困扰着教师和学生。为解决这一问题,文章拟采用大数据、人工智能等技术,分析学生知识掌握水平,并在针对薄弱知识点上,推荐适合的知识,加强练习,提高学习效率。文章以大数据技术结合深度学习为基础,研究并开发个性化的知识智能推荐系统,满足不同大学生对知识点的认知水平,达到个性化地推荐适合的知识给学生的目的。

关键词:大数据;智能推荐;协同过滤算法;数据处理

中图分类号:TP391

文献标志码:A

1 研究依据

1.1 研究的必要性及需求分析

随着大数据时代的来临,我国经济、教育、科技等产业正发生深刻的发展变化,人们每时每刻都在获取大量数据。在教育教学领域,高校大学生课程学习体系需要根据时代背景、个性特点进行变革。在众多的教学改革创新模式中,基于大数据背景下的个性化知识智能推送成为教学改革的主流创新方向之一。

在学校信息化教学过程中,利用信息技术辅助教学,学生的考试开始通过计算机或平板等设备,实现无纸化考试,从而积累大量的学生学习行为的数据,所有这些都为大数据环境下的智能推荐系统提供了数据支撑和应用支撑。由于学生的学习情况有差异,若采用相同的习题,学生重复做大量知识点题目,导致已掌握的题目花大量时间,掌握不深的题目却得不到更多时间学习。

从上面的情况可知,在网络课堂和学校,都有大量的学生遇到学习方向不明确、学习效率低的问题。针对该问题,将学生做习题及学习的历史数据进行建模,得出学生认知水平模式,在模型基础上提出基于深度学习的习题推荐算法,研究并开发一个能通过做题历史数据分析后,结合学生的个人学习领域,得出习题推荐的系统,实现对学生的学习情况分析,提供个性化地教学,提高教学质量,有效推动教学改革创新1

1.2 国内外研究现状、水平和发展趋势分析

个性化智能学习是教学领域中的热点问题,也是对传统教学方式的重大挑战。传统的教学方法未考虑学生的学习情况差异,导致学生学习效率低,教师教学质量不高。目前应用机器学习、大数据技术等手段,有很多行之有效的方法处理该类问题。

国内学者和专家也对个性化的智能推荐系统进行了研究,得到比较专业和可行的理論和算法,主要理论和算法有:协同过滤算法理论,它是通过对学习者偏好的挖掘,基于不同的偏好对学习者进行分组划分,并推荐相似的学习资源给各组,协同过滤算法能有效降低模型构建复杂性;二部图的学习资源混合推荐理论,此理论将资源内容特征与学习者特征联合考虑,根据学习者的学习风格和习惯为学习者推荐学习资源。

通过以上分析可以看出,国内学者对个性化知识的推荐技术有较为广泛的研究。在大数据背景下,随着信息化教学平台的普及和智能化教学的常态化,学生学习的数据不断地积累,改变了以往传统的学习模式和教学模式,通过大数据技术采集与处理学生学习数据,把学生掌握知识点的程度概率化,综合学生做题的得分情况,题目与知识点对应情况,构造知识点水平模型,并且基于知识认知水平模型,构建基于神经网络协同过滤推荐算法,从而实现学生获取学习资源的方式从“学习者主动搜索”转变为“学习系统自动为学习者提供个性化学习资源服务”,这正成为大数据背景下高校的教学创新的趋势2

2 系统的研究方案

2.1 主要研究目标与研究内容

本研究的目标是针对不同学生对知识理解能力和已有知识掌握程度的差异,通过对他们的做题数据进行分析,建立数据模型和设计推荐算法,把真正适合学生的个性化习题推荐给他们,提高学生的学习效率和教师的教学质量3

本课题主要研究内容包括认识水平模型建立、设计推荐算法、设计接口系统3个部分。

(1)从学生对知识点的理解程度入手,针对学生的做题数据进行特征提取,结合习题对应知识点结构的特征,通过参考一种典型的离散型认知诊断模型DINA(Deterministic Inputs,Noisy “And” gate model)模型,建立起学生做对或做过的每个知识点的认知水平特征向量,即认识水平模型。

(2)在研究了各类推荐算法基础上,基于神经网络协同过滤NNCFRA算法,使用一种基于外积的特征交互,外积后的向量变成了一个能刻画每维度之间关系的矩阵,然后就在这个特征交互的矩阵上采用CNN,从局部和全局,对每个维度进行高阶的交互,交叉映射后的矩阵形式使学习有效的卷积神经网络(CNN)的交互作用函数变得可行,已知该方法比通用的MLP具有更好的泛化能力,并且更容易深入。

(3)完成上述两个核心内容后,就开始开发一个基于深度学习的知识推送系统。该系统包含3个核心模块:数据预处理模块、功能模块以及接口模块。数据预处理模块实现对在线网络教学系统的学生做题数据搜集、迁移、数据转换、数据平滑、缺失值填充、PCA处理等;功能模块实现建立认知水平模型、习题推荐功能等;接口模块提供用户统一接口,方便开发人员进行二次开发4。除了以上3个核心模块之外,使用图形界面接口开发系统的图形界面。该系统结构如图1所示。

2.2 研究的创新点与技术难点

2.2.1 研究创新点

本研究的系统具有以下创新点。

(1)基于学生对知识点理解程度的认识水平模型在推荐系统的创新应用。

学生做大量习题,但学习效率低,学习效果提升幅度不大。针对该问题,本文尝试通过对学生做题数据提取特征,构建学生对知识点认知水平模型,将其应用到推荐系统中,实现在学生对知识点认识水平上的习题推荐,可以更好地针对学生的学习情况,推荐适合学生加强练习的习题,提高学习效率1

(2)深度学习技术在推荐系统中的创新应用。

目前深度学习在图像处理、语音分析等领域表现出的巨大优势,使得个性化推荐算法与深度学习的结合成为可能。本文试图通过使用神经网络协同过滤算法,解决传统推荐算法存在的数据稀疏和冷启动问题。

(3)开发并应用基于深度学习的知识推送系统。

该系统包含数据采集、数据库链接、数据清理等基本的数据预处理模块,还包含认知水平建模、推荐算法等为基础的核心功能模块。除此之外,系统提供包含丰富接口的接口模块,方便与不同系统对接,有良好的用户界面,方便用户使用。

2.2.2 研究技术难点

本研究系统的技术难点如下。

(1)学习的知识水平模型构建。

现有的学习资源推荐系统,大多采用学生的学习方向、年龄、年级、性别、学习过的科目等特征,忽略了学生对知识点的认知程度。需要对学生掌握的知识点进行合理的电子化建模,并根据学生的认知水平建立模型,是拟解决的关键问题之一。

(2)推荐习题算法的设计。

根据学生的认知水平模型和习题知识点对应模型,两个模型之间如何进行设计,得到习题推荐列表,是本文重点解决的问题。

(3)开发知识推送系统。

需要实现对数据的采集、预处理;数据建模、推荐功能;接口开发、界面开发,为学生使用系统提供良好的操作界面。

2.3 采取的研究方法、技术路线

2.3.1 研究方法

(1)学生知识水平模型建立的研究方法,首先对数据预处理,其次针对学生的做题数据和题目与知识点对应关系的特征提取,通过参考学生认知建模中的离散型认知诊断模型DINA,进行数据建模。

(2)习题推荐算法研究方法,主要使用了新方法,基于神经网络的系统过滤算法,为此采用在大数据环境下,进行模拟验证,再进行比较,确定算法的优化性能。

(3)知识推送系统的构建方法,主要从学生做题的特性、题目与知识点对应的特征到深度学习的推荐算法进行论证分析,然后设计模型,最后技术实现。

2.3.2 系统技术路线

结合国内外的研究成果,本系统拟采用以下技术路线开展研究及开发,如图2所示。在大数据环境下,要充分利用现有的大数据技术,以及计算机人工智能技术对本系统研究的数据及方案进行充分调查和分析,在制定方案后,对系统采用的算法及技术进行优化和测试,从而得到适合本研究的技术方案及设计方案。

2.4 系统研究技术方案及算法研究

2.4.1 数据预处理方案

从在线学习系统收集到的学习数据、答题数据和题库数据,存在许多无用字段,多余数据,是否有缺失值等,这些数据表现出很大的异构性。对收集到的数据进行数据清理、数据集成与融合、数据变换、数据规约。

(1)数据清理,主要对由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的无效数据进行清理。数据清理处理有缺失值处理、噪声处理。

(2)数据集成,对于本系统的设计,由于不同表中互相关联的异构数据源需要集成到一起,以透明的方式访问这些数据源。数据集成的方法有联邦数据库、中间件集成、數据复制。

(3)数据规约,从庞大的学习数据集合中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。数据规约主要包含维规约、数量规约、数据压缩。

(4)数据变换,将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程更有效。所使用的方法策略有光滑、属性构造、聚集、规范化、概念分层。

数据的预处理的实验步骤如图3所示。

2.4.2 构建学生的认知水平建模

假设习题k相关的知识点有N个,那么综合以往的研究结果,我们设学生j在习题k上根据知识点掌握情况的预计正确的情况为:

其中,Bkn表示习题k对知识点n的考查情况,Bkn=1表示习题k对知识点n进行了考查,Bkn=0表示习题k没有对知识点n进行考查;

Cjn表示学生j对知识点n的掌握情况,Cjn=1表示学生j掌握了知识点n,Cjn=0表示学生j没有掌握知识点n;

δjk表示学生j在习题k上根据知识点掌握情况的预计正确情况,δjk=1表示预计学生i可以做对习题j,δjk=1表示预计学生j做不对习题k。

以上是假设学生只要掌握了所有相关知识点,才能做对题目,但在答题过程中,还存在粗心和猜对的情况,故在模型中加入两个参数,粗心因子β和猜对因子γ。粗心因子β表示本来能做对(已经掌握了所有知识点),但实际做错了,猜对因子γ表示本身不应该做对(知识点没掌握),但是却做对了。加入两个因子后,模型变为:

Pjk表示修正后的学生j在习题k上正确的概率,注意此处本质是个条件概率,是在假设一直学生j对某个知识点认识水平Cj的基础上,得出学生j在习题k的正确概率;βk表示学生j在习题k上粗心做错的概率,γk表示学生j在习题k上猜对的概率。

上述模型中,βk,γk,Cjn是未知的参数,需要进行求解。求解完毕后,Cjn就是学生j对知识点n的认知水平。Cj向量就是学生j的某个知识点认识水平。

对某个知识点水平Cj,有2U中可能,U表示知识点的数量。Cj的取值将直接影响到学生j在习题k上根据知识点掌握情况的预计正确情况δjk。这里拟采用EM算法来解决这个问题。

假设每个学生对习题的回答都是独立的,学生i的m道习题答题结果条件分布为

对于J个学生的答题结果条件分布为

边缘分布处理为

两边去对数得

对βk,γk求导

此过程计算,记为过程A。

两边取对数后得:

此过程计算,记为过程B。

在计算过程中,给出参数,γk的初值。执行过程A,得到Cj,把Cj带入过程B,重复执行过程A和B,直到算法收敛1

2.4.3 神经网络协同过滤(NNC)架构分析

智能推荐系统中最重要的数据处理功能和环节是通过神经网络协同过滤(NNC)架构,得出预测待推薦习题的指标,结合智能推荐系统的算法进行智能数据分析。

(1)神经网络协同过滤设计。

在这项工作中,我们通过将嵌入维度之间的相关性集成到建模中,提出了一种用于神经协作过滤(NNC)的架构。具体来说,我们在嵌入层上方使用外部乘积运算,以明确捕获嵌入尺寸之间的成对相关性1。具体算法步骤如下。

Step1:学生的认知水平矩阵、题目对应知识点矩阵作为输入信息,放置在输入层;

Step2:把输入层的数据转换为嵌入矩阵,即嵌入层;

Step3:在嵌入层上方,对Pu和qi使用外积运算来获得交互作用图;

Step4:从交叉映射中提取有用的信号;

Step5:接收Step4得到的信号,输出预测分值。

本系统选取神经协同过滤算法来实现本系统的智能知识推荐系统的算法,该算法包括输入层、嵌入层、交叉映射、隐藏层和预测层5部分组成,图4是本系统的神经协同过滤算法NNC的架构5

(2)基于神经网络协同过滤架构的使用过程1

建模的目的是估计学生认知水平K(u)与题目E(i)之间的匹配分数;然后我们可以根据得分为学生生成个性化的学习推荐列表,数据过滤架构可以分为以下几层。

输入和嵌入层:给定认知水平矩阵VuU和习题矩阵ViI,我们可以通过以下方式获得它们的嵌入模型Pu和qi

Pu=PTVuU,qi=QTViI

其中P∈RM×N和Q∈RN×K分别是知识水平矩阵和题目特征矩阵的嵌入矩阵;K,M和N分别表示嵌入大小,用户功能数量和项目功能数量。

交叉映射:在嵌入层上方,建议对Pu和qi使用外积运算来获得交互作用图:

E=Pu?qi=PuqiT

其中,E是一个K×K矩阵,其中每个元素都被评估为 如:ek1,k2=pu,k1qi,k2

隐藏层:交互图上方是一叠隐藏层,目的是从交互图中提取有用的信号。它经过设计,可以抽象为g=fΘ(E),其中 fΘ表示具有参数Θ的隐藏层模型,而g是要用于最终预测的输出矢量。从技术上讲,fΘ可设计为将矩阵作为输入并输出矢量的任何函数。

预测层:预测层接受向量g,并将预测分数输出为:y-ui=WTg,其中向量w以g加权交互信号。

2.4.4 系统功能模块设计与实现技术

本系统设计主要分为数据导入模块、数据预处理模块、认识水平建模模块、预测推荐习题模块、题库管理模块、题目展示界面模块、登录模块。主要系统模块结构如图5所示。

模块的划分是按照信息系统的划分原则结合智能推荐系统的特点进行划分的,各模块的功能完全是根据智能推荐系统的处理,数据的预处理模块为基础模块,主要负责数据导入、数据清理、数据集成与融合、数据变换、数据规约,给上层提供数据基础;认识水平建模模块、预测推荐习题模块为核心分析模块,负责建模、智能决策分析,把分析得到的结果提供给上层界面层;登录模块、题库管理模块、题目展示模块设计为上层界面模块,负责对用户提供良好的交互性和体验性5。模块的划分如图6所示。

技术实现方面采用的实现技术为:数据的预处理模块,将使用kettle工具,实现数据的抽取、转换、装载。认识水平建模模块、预测推荐习题模块,采用Python编程实现模型,导入数据进行测试模拟,与真实值进行对比,再修正参数,以上步骤迭代进行。登录模块、题库管理模块、题目展示模块,属于界面功能接口,将采用C#编程技术实现可视化的操作界面6

2.4.5 系统的技术指标

本系统要达到以下的指标及要求。

(1)达到能够搭建学生知识水平模型。首先是对数据进行预处理,其次针对学生的做题数据和题目与知识点对应关系的特征提取,通过参考学生认知建模中的离散型认知诊断模型DINA,进行数据建模。

(2)习题推荐算法,要达到基于神经网络的系统过滤算法,采用在大数据环境下,进行模拟验证,再进行比较,最终确定算法的优化性能。

(3)知识推送系统,实现人机交互界面。

3 结语

本文采用的方法和技术路线是充分借鉴了大数据处理技术和个性化推荐系统的最新研究成果,并且已经在前期工作中得到验证,研究方案在理论和技术上均是可行的,研究的系统具有以下的特点。

(1)目前个性化推荐系统技术已经逐渐成熟,但高校大学生的个性化知识推荐的应用研究还在发展中,未来研究工作将在国内外相关研究成果的基础上展开,依托大數据和深度学习现有理论和开源工具,结合高校大学生的个性化学习特点进行创新。

(2)本研究项目涉及的技术领域,大数据技术、人工智能都是我国重点发展的技术,因此具有广阔的市场应用前景。相关技术应用的现实市场需求旺盛,同时系统涉及的主要领域是教育产业,受众群体广泛,服务人数众多,具有可持续发展性。相关研究机构的数据表明未来随着国家教育的发展,市场规模将进一步扩大。

参考文献

[1]陈慧.基于深度学习算法的高校人才个性化智能推荐系统[J].电子设计工程,2021(11):39-42.

[2]赵泉.大数据背景下的智能课程推荐系统研究[J].信息与电脑2019(11):101-104.

[3]陈彬,张荣梅.智能推荐系统研究综述[J].河北省科学院学报,2018(3):82-92.

[4]姚凯,涂平,陈宇新,等.基于多源大数据的个性化推荐系统效果研究[J].管理科学,2018(5):3-15.

[5]张耀,王丹丹,梁志远,崔晓萌.智能运维平台协同过滤信息推荐系统设计[J].电子设计工程,2022(3):52-54.

[6]李梅珍.大数据环境下高校图书馆建立科研数据知识库智能推荐系统的思考[J].图书馆学刊,2019(3):102-105.

(编辑 李春燕)

Research on knowledge intelligence recommendation system for college students under the background of big data

Wang Jinquan

(Guangzhou Modern Information Engineering Vocational and Technical College, Guangzhou 510663, China)

Abstract: In order to solve the problem that university students repeat and do a lot of exercises, but their knowledge is still not solid, which has been plagued by teachers and students, it is proposed to use big data, artificial intelligence and other technologies to analyze the level of studentsknowledge, and to recommend appropriate knowledge, strengthen exercises and improve learning efficiency in the light of weak points of knowledge. Based on the combination of big data technology and in-depth learning, this study studies and develops a personalized knowledge and intelligence recommendation system to meet the cognitive level of different college students on knowledge points, so as to personalize the recommendation of appropriate knowledge to students.

Key words: big data; intelligent recommendation; collaborative filtering algorithm; data processing

猜你喜欢

数据处理大数据
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
大数据环境下基于移动客户端的传统媒体转型思路
MATLAB在化学工程与工艺实验数据处理中的应用
Matlab在密立根油滴实验数据处理中的应用
基于POS AV610与PPP的车辆导航数据处理
依托陆态网的GNSS远程数据处理软件开发