以大数据技术服务国家教育与人才战略
2018-08-07张力玮杜永军郭伟
张力玮 杜永军 郭伟
编者按:2018 年4 月13 日,教育部印發《教育信息化2.0 行动计划》,提出要实施“教育治理能力优化行动”,充分利用云计算、大数据、人工智能等新技术,构建全方位、全过程、全天候的支撑体系,助力教育、管理和服务的改革发展。为了解大数据技术在助力我国高校吸引高水平人才、教师队伍管理方面的应用情况及发展潜力,我刊特专访政府治理能力大数据应用技术国家工程实验室副主任、电子科技大学教育大数据研究所所长夏虎。
一、大数据技术可以让高校快速地找到
符合要求的目标人才
《世界教育信息》:尊敬的夏所长,您好!很高兴您能接受本刊的专访。当今时代,人才被视为第一资源,中国高校也亟需国外人才资源为己所用。您认为大数据技术会对高校精准引进人才产生什么样的影响?
夏虎:高校要提高办学水平和质量,必须依靠大量的优秀人才。随着高校的快速发展,尤其是“双一流”建设的开展,高校人才竞争愈演愈烈。各高校使出浑身解数,争抢“院士、万人、千人、杰青、长江、四青”等有“头衔”的高端人才,而海归人才在关注领域、创新思维、研究方法上有其独到之处,能够帮助国内高校在某一学科或领域迅速开辟新的阵地;其掌握的国际学术资源和语言优势,亦可成为高校国际化发展的一大助力。国内高校引进一定比例的海外博士,对提升高等教育教学质量,推动国内高校教育国际化进程,具有非常积极的作用。然而,在人才引进方法上,目前我们缺乏科学性与精准性。例如,在高校官网上搜索潜在对象,然后通过邮件、电话、陌拜的形式与潜在人才进行接触。这样的方式往往是投入了大量的时间成本和人力成本,但收效甚微。
互联网出现以后,我们在网上敲击的每个字、每个操作都会被记录在信息系统中,当数据积累足够多时,便形成了大数据,数据开始变成资源,人们开始利用数据“淘金”。现如今大数据的应用非常广泛,常见的便是企业通过对于客户的画像来实现精准营销、降低营销费用,通过对内部设备等的精准掌控来降低设备的维护修理费用等。高校人才也不例外——他们发布的每一篇文章、经历、科研成果、参与会议的数据都会被记录在信息系统中,将这些数据整合、分析,便能对高校人才进行精准的画像,清晰地展现人才的经历、成果、影响力等,这需要一个大数据分析系统来完成,也就是我们的教师画像系统。教师画像系统采集互联网上公开的论文、专利、人才简历数据,分析人才的学习经历、聘任经历、教学成果、科研成果等,来形成人才的全面画像,更清晰地展示人才的优势、特长领域和课题、兴趣爱好等,帮助高校识别哪种人才是自己最需要的。六度分隔理论告诉我们,社会网络中人与人的距离大约平均为6,也就是说,最多通过六个人,你就能够认识任何一个陌生人。而学术圈层本身小于社会圈层,这个平均距离会更小。因此,在人才全面画像的基础上建立各人才之间的人际关系拓扑,通过目标人才关系的一层一层延伸,可以快速地找到适合高校的目标人才突破口,从而避免花费大量的人力和时间在搜索目标人才、建立与目标人才的联系上面。
二、大数据技术通过刻画人才的全面画像、建立人才圈层网络来精准引进和挑选人才
《世界教育信息》:如何利用大数据技术精准地作出人才“画像”,精准地引进和挑选人才?
夏虎:首先是人才的全面画像。前期调研发现,超过70.6%的科研人员至少有一篇个人主页,其中85.6%来自高校,剩余14.4%来自公司企业,这也使得我们采集到的科研成果数据是丰富多样的。教师画像系统部署了包括Linkedin、AMiner、国外知名高校官网、国内外知名期刊会议论文网站等数十个爬虫,以获取人才相关的信息,它们包括专利、论文、高校聘任经历、学习经历、所获奖励、职称等。但仅仅靠互联网数据的采集并不能形成全面的、准确的人才画像,这是由于互联网上的数据分散、孤立、缺乏关联性,能得到的信息都是片面的、琐碎的,甚至有重名、歧义等。为实现以人才为主体的信息聚合,建立隐马尔科夫模型(HMM),自动从科研成果中抽取科研成果的作者信息,包括姓名、学校、年份、研究方向、其引用情况等信息,科研成果代表模型中的可观察输出,拥有该科研成果的作者为模型中的隐含状态,科研成果之间的引用关系为隐含状态之间的依赖,之后采用维比特算法求解模型上的最大概率,得到科研成果的归属作者,由此建立人才的个人完整信息库,分析人才的主要成果、研究领域、影响力等,形成人才的全面画像。多个人才的全面画像汇集,可以构建一个高质量的人才库,学校便可以找到符合学校条件的人才名单,迅速地搜索到目标人才,这就完成了学校人才引进的第一步:挑选人才。
其次是人才圈层网络建立。引进人才是高校的最终目的,那么在构建的人才圈层库如何快速地获得与人才接触的方式?在人才库的基础上,我们构建了人才圈层网络,挖掘人才与校内外人才之间的关联和亲密程度。由于科研人才之间呈现出集群特性,总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集群程度的意义是网络集团化的程度,连通集团概念反映一个大网络中各集聚的小网络分布和相互联系的状况。真实世界中的网络结构时常变换,因此,本系统采用社区发现算法(Community Detection)来检测社区,构建高校学术圈层网络。
高校学术圈层网络即“社交网络”中的“亲密团体”,也即算法中提到的社区,如果两个科研人员在科研上互动频繁,那么两者之间的社交关系密切,而亲密的社交关系往往蕴含着更相似的研究方向,进而可能拥有较强的线下社交关系。在社区发现算法中,每个个体都有一个关系链,这条关系链以自己为中心,属于星型结构,在学术圈层的构建过程中,科研成果之间的引用关系、科研人员的研究方向及所属单位等关联信息都是关系链的体现,为不同类型的关系链分配不同的权重,就形成了具有权重的有向图,而当众多关系链聚合在一起,就形成了辐射状树形结构。首先将复杂网络的邻接矩阵作为输入,利用社团亲近度算法来判断该科研人员存在于哪个学术圈;再利用社团密度算法作为评价社团的标准,用这个密度算法可以很好地“去噪”,得到更加精确的结果。结合上述两个算法,最终建立可靠的高校科研人才网络。利用该网络可以快捷查找各个学科不同研究方向的优秀人才,并了解不同人才的发展倾向。同时,沿着人才关系脉络(合作者、校友、同学、师生等),从人才A顺藤摸瓜找到人才D,避免陌生拜访反馈不积极的问题。
《世界教育信息》:引进人才的全过程需要了解人才各方面的情况,而不單单是一段时间所取得的学术成就。您认为如何利用大数据技术了解和预测人才的各方面情况,如生活方式、习惯、即将在某方面取得的成果等?
夏虎:高校引进人才的目的多种多样,或是加强本校优势专业建设,或是提升教学质量,或是提升科研成果,总之是为了本校发展,因此,人才队伍的建设是高校建设的重中之重。人才引进来以后着重的则是人才的产出:是否能达到当初引进人才的目标?人才的发展现状是什么?是否存在人才流失?这是高校必须要面对并且解决的问题。通过教师画像系统,则可以清晰地看到引进人才的发展轨迹,预测人才未来的成果。
通过一系列指标对比,例如海归博士教师入校以来首次产出科研成果的年限、海归博士教师的科研成果与入校年限之间的关系、海归博士教师成才率与特别优秀教师成才率、海归博士教师入校前三年科研成果产出优秀情况与特别优秀情况、海归博士教师的外文产出平均水平与全校外文产出平均水平对比等指标来判断引进的海外人才对高校发展的贡献,并以此预测人才未来将在哪些方面有更大的作为,是否可以承担更重要的课题研究等。
三、大数据技术在校内教师人才队伍管理方面应用广泛
《世界教育信息》:大数据技术对于校内教师人才队伍管理有什么作用?
夏虎:大数据技术是一种趋势,它的应用场景很多。通过近两年的发展,我们切实看到了大数据带给民生的便利,从国家到普通百姓。2015年,国家发布《促进大数据发展行动纲要》;2016年,出台《促进大数据发展三年工作方案(2016-2018)》;2017年,教育部印发《关于全面推进教师管理信息化的意见》,指出形成教师队伍大数据,将教师队伍大数据作为教师工作决策的基础支撑和重要依据。利用大数据进行多角度、多层面、多方位的关联分析、融合利用,评价教师队伍发展状况,找准教师队伍发展问题,研判教师队伍发展趋势,确定教师队伍发展重点,提升教师工作决策的科学性、针对性和有效性,这是各大高校未来发展的趋势。
传统的教师发展研究主要停留在经验层面,传统的教师信息系统只能看到单一的信息,教师画像除了在人才引进方面能提供给高校高效的渠道和思路以外,还能对本校的教师进行精准刻画,分析教师发展轨迹,进行个性化培养和引导。教师画像系统通过数据库接入、数据开放接口、离线数据导入等多种形式接入校内各部门的数据,如人事系统、科研系统、财务系统、教务系统、各学院、图书馆、留学基金委等系统,并且对接入的数据按照教育部发布的教育信息化行业数据标准和高校自身的实际情况,建立符合校情的数据标准,进行数据补全、冗余去除、数据关联、格式规范等数据治理,然后经过自建模型的分析和预测,得到我们想要的结果。
为教师发展提供决策依据。通过系统分析经过标准化后的数据,形成高校校内教师的画像,可以清晰地量化教师工作绩效,如教学工作成果、科研成果影响力及转化率、同行评价等,再结合高校内部的评价体系,为教师的入职、晋升、聘任、培训和奖惩提供定量化决策依据。避免了传统教师绩效评估受到的人为因素影响,使得评估结果更加客观、准确,同时也能激发教师们的积极性,营造公平、活跃的竞争环境。
预测校内潜在教师新星。教师画像分析教师发展轨迹,基于教师基础信息数据(包括学习经历、海外经历、工作经历、岗位聘任经历、科研项目、学科成果等),围绕教师职业素养、专业知识、专业能力、工作绩效等多方面构建教师成长轨迹,建立特定教师群体的分析,找出影响教师的发展因素,从而制定个性化成长方案。根据教师发展轨迹,预测发表论文数量、能否入选人才计划和优秀青年教师、更擅长教学还是科研等,寻找教师个人发展意愿和潜在能力的平衡点、融合点,制定适合教师的个性化发展路线,培养多样化、个性化的教师队伍,引导教师可持续发展,实现教师个人与学校发展的“双赢”。
例如,通过观察和分析本校教师的海外经历与教学/科研成果的对比、海归博士的外文产出平均水平与全校外文产出平均水平对比,学校可调整海外人才引进比例,或者增加本校教师海外进修比例,探索教师队伍规模与高校发展匹配程度。通过观察本校教师入校年限、学历、级别、高水平论文、科研成果产出分析,预测本校年度论文产出、科研成果数量,匹配合适的项目经费。
快速组建高质量科研队伍。高校的科研项目会跨学院、跨专业,尤其是重大的国家和省级课题,需要多方协调合作,因此科研团队的组建非常关键。通过教师画像系统可以迅速地为项目匹配到合适的科研人才,组建高质量的科研队伍,队伍成员各司其职、发挥所长,合理配置校内人才资源。
四、大数据技术在应用之时
可以做到保护人才的隐私和安全
《世界教育信息》:大数据技术应用过程中的隐私和安全问题备受关注。在您看来,应如何保证人才的隐私和安全?
夏虎:如今,“大数据”已渗透到生活的各个领域。首先,学校做数据收集,不会去强调每个人的情况,而是察看教师整体的发展状况,为学校的决策提供数据支撑;其次,数据接入时,所有的敏感信息(包括身份证号等信息)都会被进行匿名处理,即为每一个教师建立虚拟ID,形成教师真实信息与虚拟信息的唯一性映射。之后再根据数据源存储环境的不同,采用不同的数据迁移与同步方案,将处理后的数据接入画像系统的数据池。再次,无论来自于校内还是校外的数据,均需要经过五重加密保护;最后,数据不会对外公开,仅仅开放给教师画像系统使用。系统将按照用户角色进行权限控制。
五、以市场需求引导技术创新
和创新合作模式
是促进教育大数据产业快速发展的关键
《世界教育信息》:您认为应该如何增强产学研用结合,为促进大数据产业尤其是教育大数据快速发展?
夏虎:高校属于学术圈层,能够产出很多科研成果,但是这些成果往往都待在实验室里、论文里。只有将高校这些成果转化到实际的社会生产中,科研才能为人类文明发展贡献力量。
增强产学研用结合,首先是坚持企业的主导地位,以市场需求引导技术创新。把科学发现、技术发明从大学和科研机构的实验室里解放出来,把科研人员的内在驱动力激发出来,坚持“企业为主体,市场为导向,产学研用相结合”的价值理念。突破产、学、研、用各自为政的壁垒,立足于社会发展和国家利益,将隶属于各个不同管理体系的科技人才和资源进行有机的结合,从而实现科研产出的最大效应。因此,推动和促进产学研用结合,就必须进一步解放思想,解放科技人才,改变“先有成果,再找企业”的思维模式,进一步明确应用科研要以市场为导向,紧盯需求,形成以企业为主体的“产-学-研-用”的机制,实现产学研用的“无缝链接”,在与企业紧密合作的基础上推动科研创新和人才培养。
然后是创新合作模式。以成都寻道科技有限公司为例,2014年,它依托电子科技大学教育大数据研究所,突破传统产学研合作模式,成为国内首个教育大数据领域产学研一体化的平台。目前,公司规模已达70人,4位创始人都是博士,研发团队里面50%以上都是硕士。此外,研究所还拥有一个70人的研究团队,包括2名“青年千人计划”入选者、5位教授,由他们来保持教育大数据研究的先进性。经过三年的发展,这种模式体现出了以下优势:第一,实体模式的公司运作方式使该类合作有了落地的平台,有利于研究所科研团队与公司研发团队的积极性,为实现共同利益追求而紧密协作;第二,将所里的人才资源优势与企业的产业优势相结合,能够有效整合和集成双方在高校的资源和力量,实现科研与产业相结合以及应用研究、产品开发、生产营销一条龙,加快了高新技术成果转化和产业化的步伐;第三,通过产学研一体化,降低了公司技术创新成本,掌握了核心技术或专利技术,能够迅速建立技术壁垒,而公司产品的快速落地实践,也为研究所提供了技术验证的平台以及海量的实测数据,为师生的实践创新提供了良好的平台;第四,一体化的创新模式打破了产学研之间的封闭隔绝状态,促进了各方创新要素优化组合、核心能力整合以及人员的双向流动,提高了双方整体的技术创新能力。
编辑 王昕 校对 许方舟