大数据学习分析的安全与隐私保护研究*
2016-05-05赵慧琼东北师范大学计算机科学与信息技术学院吉林长春130012
赵慧琼 姜 强 赵 蔚(东北师范大学 计算机科学与信息技术学院,吉林长春 130012)
大数据学习分析的安全与隐私保护研究*
赵慧琼姜强【通讯作者】赵蔚
(东北师范大学 计算机科学与信息技术学院,吉林长春 130012)
摘要:随着大数据时代的来临,学习分析技术成为了教育信息化的新浪潮,其涉及的伦理道德问题尤其是学习分析过程中引发的一系列数据安全与隐私问题也成为了教育领域研究的热点。为应对隐私泄露、访问权限模糊、数据可信性受威胁等问题,文章以技术为视角,从数据收集、数据分析和数据解释等三方面构建了数据安全与隐私保护框架,并提出了相关的数据安全与隐私保护策略,以期提高利用学习分析技术进行大数据研究的成效,实现学习分析技术挖掘教育大数据潜在价值的预期目标,充分发挥大数据学习分析的研究价值。
关键词:学习分析;大数据;安全隐私;伦理道德
引言
大数据学习分析的价值在于利用机器学习、数据挖掘、回归分析、可视化技术等进行收集、测量、分析和报告学习数据,理解和优化学习过程,进而真正实现因材施教,使共性教育向个性教育的方向发展。例如,Knewton教育平台构建了成熟、实时的学生数据分析,能够细分知识点,对每个学生予以单独分析,通过实时预测技术来监测学生的学习情形并及时调整,为学生下一步的学习内容和活动提供最适合的引导,实施个性化教学[1];在机器学习技术的支持下,DreamBox Learning能够记录学生的学习行为数据并将其作为判断学生知识能力的依据,同时针对学习者的学习需求提供个性化的学习路径[2];猿题库通过智能算法对学生做题练习与知识点测评的数据进行挖掘分析,能够准确评估学生的认知能力,然后根据知识水平进行1对1的智能化出题,实现个性化学习[3]。此外,国内大数据领域的领军专家——周涛教授组建了大数据研究中心,运用大数据、云计算、学习分析等信息技术,结合特定的机器学习、数据挖掘算法,着力开展了个性化教育引导、学生学习成绩预测、教学方式方法改善、重大教育决策制定、教务教学管理优化等教育大数据的相关基础理论及应用推广研究。然而,基于大数据的学习分析技术应用也存在一些不可规避的风险,如数据收集过程中存在的安全与隐私问题,涉及伦理道德的挑战,将不利于挖掘教育大数据的潜在价值。
一 问题研究现状
国外研究大数据学习分析技术的安全与隐私问题起步较早,如美国的《家庭教育权利和隐私法案》中明确规定要保护学生学习活动的隐私;英国开放大学根据允许收集和分析学生数据的八项原则,制定了利用学生数据开展学习分析的伦理政策。知名的教育家、科学家、法律学者和伦理学者在2014年加州阿西洛马(Asilomar)会议上制定了关于学习和研究合乎伦理地使用数据和技术的框架,框架的六项原则包括:尊重学习者权利、善行、公正、公开、人性化学习以及持续关怀[4]。此外,Jones等[5]在MOOC数据学习分析研究的基础上,从个体控制、透明性、情境需求、安全性、权限、数据收集限制性及责任心等七方面深入描述了公平信息惯例和隐私保护,以防止学生隐私信息泄露;Kay[6]针对学习分析技术产生的伦理道德冲突,明确指出学习分析过程需要设定数据的范围与界限,充分考虑数据分析对象的利益与情绪,给予数据分析对象选择性参与或退出的机会,同时依据存在的风险及时调整应对措施,保护数据安全;Willis 等[7]在处理大数据学习分析技术的安全与隐私问题时,利用道德推理模式的波特图式(Potter Box)建立了一个灵活的伦理框架,从定义、价值、原则、忠心四个角度为学习分析面临的伦理道德困境提供了应对思路。
与国外相比,国内关于大数据学习分析技术的安全与隐私问题研究较少,正处于初步发展阶段。2015年国务院印发的《促进大数据发展行动纲要》明确提出要健全大数据安全保障体系,强化安全支撑。此外,顾小清等[8]指出学习分析技术存在明显的伦理问题,有可能因收集分析学习者数据而侵犯个人隐私,需要寻找学生隐私与学习分析技术之间的平衡点;杨现民等[9]认为有必要从体制、机制、技术、方法等多个层面加快制定《教育大数据安全管理办法》,进而保障教育数据安全,保护教育隐私数据不外泄、不被恶意使用;徐鹏等[10]指出教育大数据应用过程存在隐私与伦理道德限制,建议通过制定相关的法律制度,避免因学习分析技术应用而造成的伦理道德问题;张文青等[11]则从伦理视角研究了学习分析技术,通过梳理学习分析过程中面临的个人隐私、数据所属权和人文关怀等伦理问题,提出了数据测量、收集和分析应该遵守相关的行为规范。此外,在第七届“信息资本、产权与伦理国际学术研讨会(ICPE-7)”上,来自美国南佛州大学、日本鹤见大学、中国台湾世新大学和北京大学等高校的专家学者主要从理论层面探讨了大数据时代的数据安全与信息隐私等问题,同时深入研讨了数据资源版权、公共文化政策等相关问题,对解决学习分析技术所产生的伦理问题有借鉴意义。
综上所述,已有的相关学习分析技术的研究成果比较丰富,但教育大数据应用存在的隐私、法律保护权利及其它伦理道德规范还缺乏相应的政策法规指导,因此有必要制定适当的法律制度和道德规范,并利用相关的安全技术,进一步加强对学习分析伦理道德问题的研究力度,以期发挥学习分析技术在教育教学中的优势。本研究以利用学习分析技术挖掘教育大数据的潜在价值为目的,通过梳理学习分析技术面临的伦理道德挑战,总结出国外数据保护框架的特点,构建了一个技术视角下的数据安全与隐私保护框架,并提出了相关的数据安全与隐私保护策略。
二 大数据学习分析面临的伦理道德挑战
随着大数据时代的来临,教育信息化过程中学习者所产生的数据越来越多,为了更好地促进学习者学习,实现真正意义上的个性化学习,需要利用学习分析技术分析学习者的海量数据。但学习分析过程因为增加了学习者的透明性,故会带来一系列的伦理道德挑战。
1个人隐私泄露
在利用学习分析技术分析海量数据的过程中,个人隐私很容易泄露,故将学习数据转变为信息与知识时[12],这些数据面临着严峻的风险,处于内忧外患的境地。
内忧主要指的是拥有学习者学习数据的教育机构在处理数据的过程中泄露隐私,Smith等[13]指出数据在处理过程中引发的隐私泄露问题包括信息收集、误用、二次利用和未授权访问等四个维度;此外,内忧还包括拥有数据的教育机构将学习数据出售给第三方、政府机构或者同其它教育机构共享数据[14]。
外患指利用不正当手段获取学习数据的机构或个人,通过学习管理系统的漏洞盗取数据。比如说,当向学习者提供适当的便利条件时,这些机构或个人会要求学习者主动发布他们的个人信息。一般情况下,如果学习者想在学习活动过程获得更多的个性化指导,他们便会主动地提供个人信息。所以,个人隐私泄露既可能是教育机构或研究者们造成的,也可能是学习者本人造成的。个人隐私泄露所带来的风险,可能会危及学习者的生理、心理、财产安全等多方面。
2数据访问权限模糊
在学习分析过程中,学习者的数据可能被用于不同的情景,由于这些数据应用的范围比较广,它们经常被不同身份、不同目的的研究机构或研究者们访问,因此必须对学习者的学习数据设置访问权限。
然而,在学习者拥有海量学习数据的前提下,教育机构中管理这些数据的安全管理员可能因为缺乏相关的专业知识,而无法准确地为研究机构或研究者们指定能够访问的数据范围,此时若从数据利用效率的角度出发,将学习数据的访问权限设置为所有访问者均可默认授权访问是一种极其不理想的方式。研究者为了完成学习分析的工作,需要访问大量的学习者学习数据及个人信息,但能否成功地访问这些数据,是取决于学习者,还是拥有学习者数据的教育机构,还是研究者或研究机构,对此设置的访问权限并不明确。除此之外,不同类型的学习数据可能需要不同的访问权限,如在学习者的学习活动过程中,存在学习者学习浏览历史记录的访问权限;学期结束时,存在学习者学习数据时间、区间的访问限制。总之,如何清晰地统一设置访问权限,是学习分析过程中面临的一个重要挑战。
3数据可信性受威胁
利用学习分析技术,将学习者的海量数据转变为有价值的知识信息,最重要的前提就是要保证数据的可信性。美国管理学家、统计学家爱德华·戴明曾说:“除了上帝,任何人必须用数据说话。”
但是,数据也可能造假、也可能出错,如果利用伪造或错误的数据进行学习分析,往往就会得出错误的结论。由于获取的学习者数据是海量的,这使研究者们难以从中鉴别出虚假的数据,从而导致出现错误的判断。目前,学习平台中学习者虚假学习行为的产生越来越容易,随之带来的负面影响不可低估;学习数据在收集的过程中可能会因为人工干预而使获得的数据产生误差,利用这些有误差的学习数据进行分析,也必将影响学习者数据分析结果的正确性。此外,所记录的学习者学习数据可能会因为保存时间过长而失真,或者由于学习平台自身的升级导致数据丢失、遗漏,使研究者们收集到的数据不能真实地反映学习者的学习状态。因此,收集分析学习数据,要了解数据的真实来源、数据的传输过程和数据的处理过程,调研数据的各项可信度,以防止利用错误的数据得出无意义的分析结果。
三 大数据学习分析的安全与隐私保护框架
为了更好地解决大数据学习分析存在的伦理道德问题,首先应考虑在学习分析过程中如何保护学习者的数据安全。对此,国外研究者从不同的视角构建了保护数据安全与隐私的框架,如Prinsloo等[15]从社会批判的视角提出了六项原则伦理框架,即道德实践、学生代理、学生身份和性能的动态构造、学生的多维复杂现象、透明度和教育大数据的使用;Pardo等[16]则从法律的视角确定了四项原则伦理框架,即透明度、访问权、学生控制数据、问责与评估。鉴于此,并结合学习分析过程中遵循的行为规范,本研究以技术为视角,从数据收集、数据分析和数据解释等三方面构建了大数据学习分析的安全与隐私保护框架,如图1所示。
图1 大数据学习分析的安全与隐私保护框架
1数据收集
学习者的数据来源比较多样化,包括学习管理系统中的基本信息、学习平台的学习行为数据和网络服务器的浏览数据等。因此,学习分析过程的第一步便是从各种系统中收集学习数据。由于学习数据的来源不同且数量巨大,故需要借助数据溯源技术和云计算技术来完成大规模学习数据的采集与存储——利用数据溯源技术的注释方法对学习数据进行标注,进而记录学习数据的来源与传输,之后根据记录内容,对海量的学习数据实施溯源追踪,将同一出处、同一学习者的学习数据存放在一起,以免造成学习数据的丢失、遗漏等;利用云计算技术收集、存储学习数据时,则可从云计算提供的Iaas、Paas和Saas服务层面来增强学习数据的安全与隐私保护。此外,在使用云计算技术和数据溯源技术收集数据的同时必须坚持知情同意原则,即提前征得学习者的同意,以在数据收集环节更好地保障学习者隐私数据的安全。
2数据分析
数据分析是学习分析技术在教育应用中的核心环节,需要利用网络分析技术对学习者的数据加以分析,并经过整合、分类、关联分析等操作,形成分析结果;或者利用学习者数据构建的用户模型预测学习者的学习情况,生成预测模型。但若想在数据分析过程中高效地保护学习者数据的安全,仅靠网络分析技术是不够的,还必须使用数据匿名技术,坚持匿名原则。如利用K-anonymity、I-diversity、T-closeness等匿名保护技术可对学习数据实施匿名处理,而隐藏学习者的标识和属性信息可以减少学习者的隐私泄露、提高学习者数据的安全度,从而避免出现因分析数据所造成的伦理道德失范问题。
3数据解释
数据解释的目的在于更好地呈现数据分析结果,以便对学习者的学习活动实施干预,实现个性化的自适应学习。一方面,数据解释可以通过利用可视化技术生成学习者的学习报告,进而呈现在学习仪表盘上。另一方面,作为学习分析过程的最后一个环节,进行数据解释时仍需重视学习者的数据安全问题,避免出现违反社会伦理道德的行为,而这可以通过数据加密技术来实现。利用数据加密算法中的DES密钥加密算法和RSA公钥加密算法对数据分析结果进行加密处理,可以防止未经授权的机构或个人窃取、篡改分析结果。为保证最终学习分析报告的准确性和合理性,使用可视化技术和数据加密技术进行数据解释时必须坚持公正原则,以规避对分析结果利用不当而引发的伦理道德风险。
四 大数据学习分析的安全与隐私保护策略
学习分析技术在教育中存在的伦理道德问题向研究者提出了挑战,要求研究者既要利用学习分析技术挖掘教育大数据的潜在价值,又要正确地应对伦理道德问题。而寻求这两者利益平衡的途径之一,是遵守教育机构相关的行为规范。如Bienknowski等[17]就曾借鉴美国的《家庭教育权利和隐私法案》展开研究,阐明了数据访问与学习者隐私保护之间的对立关系。为了解决学习分析技术涉及的伦理道德问题,本研究从数据收集和整合的角度出发,针对数据安全与隐私保护问题提出数据使用时应遵守透明原则、征得学习者的知情同意以及提高数据质量等策略,以期更好地发挥大数据学习分析技术的研究价值。
1遵守透明原则
利用学习分析技术收集学习数据时,为避免个人隐私的泄露,研究者需要遵守透明原则,提高学习者数据的透明度。也就是说,在学习分析的过程中,学习者的哪些数据可以被利用、利用的目的与条件、数据的访问权限及学习者个人信息的保护等都要公开详细地予以说明。因为学习者在学习平台实施学习活动时,往往不会注意自己的学习记录、个人信息是否正在被保存、被收集或被利用。因此,明确告知学习者哪些数据会被收集使用、收集使用的范围、使用学习数据的价值以及学习者需要承担的风险等,才能符合道德决策中自主原则的要求。当涉及数据的具体操作时,可以通过学习网站公告或者以E-mail的形式告知学习者。除此之外,教育机构也应该承担起保护学习者学习数据的责任,并及时提醒学习者注意学习管理系统之外存有的风险。总之,提高学习者数据的透明度,遵守透明原则,有助于降低学习分析技术在教育领域引发的伦理道德失范风险,尤其是能减少学习者个人隐私泄露的概率。
2征得学习者的知情同意
研究者在进行大数据学习分析时,应征得学习者的知情同意。Toch[18]在一项关于社交网络隐私风险的调查中发现:周围的朋友或同学会看到网上发布的内容,使用户感觉有潜在的风险。而当学习者得知自己的数据会被利用时,为保护自己真实的学习数据,学习者的学习活动往往就会呈现出一种虚假的表象。因此,研究者只有取得学习者的知情同意、获得学习者的信任,才能保证获得的数据真实,进而保证研究的质量。但征得学习者的知情同意,需要明确数据获取的访问权限,否则便有可能会因为学习数据存在被泄露的情况,而使研究者得不到学习者的信任——所以,研究机构必须对数据访问权限不透明这一问题予以高度重视。概括地说,最初的研究计划要明确规定数据的访问权限,清楚地表述出可授权访问的学习数据;之后获取学习者的知情同意,以保证学习数据不会被越权获取;最后通过明确清晰的访问权限规定,保证学习者数据的有限访问,以避免未经授权的研究者访问学习者的学习数据。
3提高数据质量:真实性和完整性
如前文所述,在大数据学习分析过程中数据的可信性受威胁,因此有必要提高学习者数据的质量。一方面,应保证学习数据的真实性。即利用大数据分析技术来识别虚假的学习行为,通过分析大量收集的有关学习者的位置、学习内容和时间等信息,鉴别其学习行为真实发生的可能性。例如,如果学习者浏览某网页的时间过长,或者鼠标的位置长时间没有改变,那么该学习者学习行为的真实性就值得怀疑。另一方面,应保证学习数据的完整性。即收集到的学习者数据如果因其保留时间跨度较长而失真,为了不影响学习分析技术的效用,便可以将其删除。如果因其它原因而导致学习数据丢失、遗漏,则可根据学习数据对于研究过程的重要性,来决定是将其删除还是将其补充完整。总之,不论通过何种方式来保证数据的真实性和完整性、提高学习者数据的质量,都将有利于发挥大数据学习分析技术的研究价值。
五 总结
学习分析技术在教育应用中存在的安全与隐私问题,严重阻碍了对教育大数据潜在价值的挖掘。本研究根据教育大数据学习分析过程出现的伦理道德问题,从技术层面构建了数据安全与隐私保护框架,以增强学习者数据的保密性和安全性,同时揭示了使用相关的安全技术对解决学习分析伦理道德问题的重要性;而本研究提出的数据安全与隐私保护策略可以减少学习分析过程中的伦理道德风险,便于充分发挥学习分析技术挖掘教育大数据的潜在价值。需要指出的是,为更好地应对大数据学习分析面临的伦理道德挑战,相关法律制度和道德规范的制定及实施应与大数据学习分析相关安全技术的使用保持同步、互相补充,如此才能有效发挥教育大数据学习分析的成效,促进个性化学习。
参考文献
[1]Knewton.Knewton’s technical white paper[OL].
[2]DreamBox Learning.DreamBox Learning: Adaptive,engaging,and motivating math[OL].
[3]姜强,赵蔚,王朋娇,等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015,(1):85-92.
[4]NMC地平线项目.新媒体联盟2015地平线报告高等教育版[J].现代远程教育研究,2015,(2):3-22.
[5]Jones M L,Regner L.Users or students? Privacy in university MOOCS[J].Science and Engineering Ethics,2015,(8):1-24.
[6]Kay D.Legal,risk and ethical aspects of analytics in higher education[OL].
[7]Willis J E,Campbell J P,Pistilli M D.Ethics,big data,and analytics: A model for application[OL].
[8]顾小清,张进良,蔡慧英.学习分析:正在浮现中的数据技术[J].远程教育杂志,2012,(1):18-25.
[9]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016,(1):50-61.
[10]徐鹏,王以宁,刘艳华,等.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013,(6):11-17.
[11]张文青,穆晓静,傅钢善.伦理视域下的学习分析研究[J].中国教育信息化,2015,(9):3-5.
[12]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,(2):5-11.
[13]Smith H J,Milberg S J,Burke S J.Information privacy: Measuring individuals’ concerns about organizational practices[J].MIS Ouarterly,1996,(2):167-196.
[14]Smith J,Dinev T,Xu H.Information privacy research: An interdisciplinary review[J].MIS Quarterly,2011,(4):989-1016.
[15]Prinsloo P,Slade S.An evaluation of policy frameworks for addressing ethical considerations in learning analytics[A].Siemens.Learning analytics and knowledge[C].ACM: Leuven,2013:240-244.
[16]Pardo A,Siemens G.Ethical and privacy principles for learning analytics[J].British Journal of Educational Technology,2014,(3):438-450.
[17]Bienknowski M,Feng M,Means B.Enhancing teaching and learning through educational data mining and learning analytics: An issue brief[OL].
[18]Toch E.Personalization and privacy: A survey of privacy risks and remedies in personalization-based systems[J].User Modeling and User-adapted Interaction,2012,(12):203-220.
编辑:小米
Research on Security and Privacy Protection of Big Data Learning Analytics
ZHAO Hui-qiongJIANG Qiang[Corresponding Author]ZHAO Wei
(School of Computer Science and Information Technology,Northeast Normal University,Changchun,Jilin,China 130012)
Abstract:With the advent of big data era,learning analytics has become the new wave of education information.The involved ethical and moral issues especially the data security and privacy issues caused during the process of analytics.To deal with the problems of privacy disclosure,fuzzy access permission and threatened data credibility,this paper has built data security and privacy protection framework from data collection,data analysis and data interpretation.Meanwhile,the relevant strategies of data security and privacy protection were also proposed,in order to improve the effect of using learning analytics to conduct big data research,achieve the expected target of employing learning analytics to tap big data’s e potential value,and fully function the research value of big data learning analytics.
Keywords:learning analytics; big data; security privacy; ethics
收稿日期:2016年1月12日
作者简介:赵慧琼,在读硕士,研究方向为大数据学习分析,邮箱为zhaohq071@nenu.edu.cn。
*基金项目:本文受教育部人文社会科学研究规划基金“大数据支持下的个性化自适应学习及教育测量研究”(项目编号:15YJA880027)、教育部人文社会科学研究规划基金“基于知识图谱的开放学习资源自主聚合研究”(项目编号:14YJA880103)、“中央高校基本科研业务费专项资金”(项目编号:130021049)资助。
【中图分类号】G40-057
【文献标识码】A 【论文编号】1009—8097(2016)03—0005—07 【DOI】10.3969/j.issn.1009-8097.2016.03.001