实现级联形状回归方法对视线追踪
2023-06-18崔强田文泉
崔强 田文泉
摘 要:网课的分心问题是网课中一个比较常见的缺点。在家上网课,学生往往会因为其他事情而分心,这会影响他们的学习效果和提高学习难度。有效地解决分心问题是提升在线学习效率的关键要素之一。针对这一问题,可以使用技术手段来解决,使用OpenCV对视线追踪方法对视线追踪在网课中具有广泛的应用前景。随着互联网和智能设备的普及,越来越多的学生和教师选择网课作为教学和学习的方式。而视线追踪技术可以实现在线教学中的眼动跟踪、情感分析、注意力监测等,以提高学生的参与度和教学效果。该方法还能够根据学生的兴趣爱好和学习进度,提供个性化、灵活和多样化的学习资源和内容,以适应不同学生的需求和特点。
关键词:分心问题;视线追踪技术;OpenCV;在线学习效率
一、引言
普及网课的背景和动机主要是因为信息技术的发展和互联网的普及。全球化和移动化的趋势将人们从传统的教育模式中解放出来,使他们能够获得更加自由、灵活和多样化的学习体验。在这种情况下,网课作为一种新的教学模式应运而生,具有时间灵活、地点无限、资源共享等优势,已逐渐被广泛采用。
但是网课教学仍然有不少的缺点,主要表现在缺乏互动性、技术要求高、容易分心和缺乏社交互动方面。实现视觉追踪可以帮助网课解决以上问题,提高教育资源的利用效率,让更多的学生受益。
二、视线追踪
OpenCV中的级联形状回归方法是一种基于机器学习的目标检测算法,它可以用于人脸关键点检测、手部姿态估计等任务。该方法的基本思想是通过训练一个级联回归器,将目标的形状从初始位置逐步回归到真实位置。OpenCV提供了丰富的图像处理和计算机视觉算法,可以用于实现视线追踪功能。
级联形状回归方法就是使用回归模型,直接学习从人脸表征到人脸形状的映射函数,进而建立从表观到形状的对应关系。这种方法的学习依赖于训练集的选取,我们选择从官方的数据库选择数据集,训练集中包含了复杂的姿态变化,学习到的函数测试性能就会比较好。级联方式:由粗到精一级一级的优化前一步得到的形状,2个级联结构,逐步细化特征点位置。人脸特征点检测与形状拟合方法,基于“特征提取”+“回归坐标”的方法,把形状拟合的坐标回归问题,转化为坐标PCA压缩后系数与形状整体仿射变换系数的回归问题(相当于将传统的SDM算法用于深度学习算法当中)。
(一)人眼检测
级联分类器:CascadeClassifier就是OpenCV下objdetect模块中用来做目标检测的级联分类器的一个类,它可以帮助我们检测人脸等物体。它的大概原理就是判别某个物体是否属于某个分类。以人脸为例,我们可以把眼睛、鼻子、眉毛、嘴巴等属性定义成一个分类器,如果检测到一个模型符合定义人脸的所有属性,那么就认为它是一个人脸。分类器对人脸数据集进行训练,生成人脸分类器。用分类器对人脸检测。从摄像头读取数据,将原彩色图转化为灰度图,检测图像resize,调节minNeighbors类似于调节一个阈值,开始在灰度图上检测人脸。根据给定的人脸(x,y)坐标和宽度高度在图像上绘制矩形,输出是人脸区域的外接矩阵框。
对人眼数据集进行训练,从而得到人眼分类器。在人脸检测的基础上,将人脸特征点检测与形状拟合方法,基于“特征提取”+“回归坐标”的方法,对脸上再进行特征值提取,对人眼数据的进行标记,从而达到人眼识别的效果。根据给定的人脸(x,y)坐标和宽度高度在图像上绘制矩形,输出是人脸区域的外接矩阵框和人眼区域的外接矩阵框。
(二)PCA降维
PCA(Principal Component Analysis)是一种常用的数据降维方法,它可以将高维数据映射到低维空间中,同时保留数据的主要特征。PCA的降维过程为,将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。计算标准化后的数据的协方差矩阵。对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。根据特征值的大小,选择前k个特征向量作为主成分。将原始数据投影到主成分上,得到降维后的数据。具体来说,数据映射的过程可以通过以下公式实现:
Y=X*W
其中,X是原始数据矩阵,W是由前k个特征向量组成的矩阵,Y是降维后的数据矩阵。
(三)视线检测方法
再从人眼外接矩阵框中,对特征值进行提取。通过图片对瞳孔和眼角点进行标记,得到瞳孔识别分类器,对人眼中的瞳孔进行坐标化定位。
将眼睛的注视方向归结为十类,上、下、左、右、左上、右上、左下、右下、中间和闭眼状态。以瞳孔中心为动点,眼角为定点,通过分析两者的相对位置来确定视线方向。并与待观测目标(比如电脑显示屏上的某移动的点)所在平面建立对应坐标变换关系,从而获得视线方向。形成射线来模拟人眼的视线效果。通过算法来预测在屏幕上的位置得到具体的坐标。
采集这十类眼睛的样本,利用PCA等方法将得到的图片向量降维,训练出十类分类器。测试时,通过摄像头采集图像先进行人脸检测然后是眼睛检测,将检测到的眼睛归一化到样本的尺寸,同样方法降维后送入到训练好的多类分类器中,输出属于哪类就认为眼睛就注视着哪个方向。根据这一思路可以检测工作效率。
三、小结
眼动追踪应用于网课可以提供更多的教学策略和评估方法,例如通过眼动数据分析学生的注意力、认知负荷、情绪状态等,从而调整教学内容和难度。可以增强教师和学生之间的沟通和互动,例如通过眼动数据实现同步或异步的视线共享,让教师和学生能够更好地理解对方的视觉焦点和思维过程。可以促进网课的创新和发展,例如通过眼动数据结合人工智能、虚拟现实、增强现实等技术,实现更高效、更个性化、更沉浸式的网课体验。
当然,眼动追踪技术在网课中的应用也面临着一些挑战和难题,例如如何保证眼动数据的质量和有效性、如何保护眼动数据的隐私和安全性、如何降低眼动追踪设备的成本和复杂度等。这些问题需要未来的研究和实践来不断探索和解决。
参考文献:
[1].胡宇鹏.时间序列数据挖掘中的特征表示与分类方法的研究[D].山东大学,2018.
[2].胡潇鱼.基于深度学习的视觉跟踪及应用[D].电子科技大学,2021
[3].李钰卿. 基于深度学习的视线追踪技术研究[D].广东工业大学,2021
[4].李生武. 基于卷积神经网络的单目标视觉追踪算法研究[D].陕西科技大学,2021.
[5].屠增辉,刘淼,陈小丽.基于DataX的异构教学数据同步研究和应用[J].中国现代教育装备,2021(19):114-115+118.
[6].杨金英,李延娟.疫情期间网课对教育信息化影响的初步分析[J].中國教育信息化,2020(17):62-65.