上海交通大学开放数据给学生创新舞台
2016-06-06符冰金耀辉
文/符冰 金耀辉
上海交通大学开放数据给学生创新舞台
文/符冰金耀辉
开放数据(Opan Data)最早是由政府发起和推动,旨在为公众提供信息透明和决策依据。如今,开放数据的受关注度越来越高,国内各大城市也把开放数据作为智慧城市重要组成部分。与此同时,高校作为一个有鲜明特点的环境和群体,在相应的智慧校园的建设中,也离不开校园开放数据。
开放数据的含义和现状
开放数据是一类可以被任何人免费使用、再利用、再分发的数据。开放数据几个主要特性是:可获取性和可访问性、再利用和再分发、普遍参与性。开放数据与大多数的大数据不同,开放数据是公开并且有目的性的。最基本的例子比如手机的GPS(全球定位系统),或是天气预报,就是开放数据。开放数据的目标是,相关组织主动发布开放数据,人们可以使用、分析和应用个人所需的数据,带动公众力量最大限度的挖掘数据价值。
从2009年起,随着各国政府(比如美国,英国,加拿大,新西兰等)相继宣布了他们的公众信息开放计划,开放数据受到了主要关注。2012年起,随着上海和北京相继推出政府数据服务网,揭开了国内政府开放数据的序幕,开放的数据内容涵盖了公共安全、公共服务、交通、环境、卫生等重点领域,不仅为公众和企业的数据查询提供方便,也将为互联网应用产业带来巨大潜力。
就高校而言,国外不少高校制定了本机构的数据管理政策,对数据共享进行指导和规范,像伯克利大学、滑铁卢大学都建立了开放数据平台,并且提供服务。而国内高校开放数据还未真正起步,智慧校园相关的一站式服务还仅限于整合现有业务系统资源。管理者限于对普遍用户需求的精准把握以及对所掌握数据资源的谨慎性,导致现有存量数据并没有发挥出应有的价值。因此,推动校园开放数据,借助众包模式群众智慧,共创智慧校园势在必行。
高校开放数据的意义
大数据时代的基础要求
开放数据有利于盘活存量数据,实现数据价值。大数据时代,数据是根本,高校也不例外。随着信息化建设的推进,高校各业务部门通过交换平台实现了基础的信息共享,但仍然有大量数据沉淀在各自的应用系统中没有被充分利用。数据被利用起来才有价值,管理者虽然可以通过建设数据仓库来实现一定的决策统计分析,但大量数据仍然没有转化为信息并被利用,一方面是由于用于共享的交换数据仍然占很小的比例,大部分并没有实际用起来;另一方面是由于各部门对数据的敏感性、隐私性、安全性考虑而限制开放。
智慧校园建设的重要组成部分
数据是智慧校园的基础,开放数据则是打开智慧校园的钥匙。智慧校园的根本是信息的精准推送,用户随时随地想要什么信息就能方便的获取到才体现智慧。智慧校园不是一个人、一个部门的事情,需要群策群力,共同建设。智慧校园最有效的推动力是大量的活跃的个体,核心力量是数据分析者和开发者,包括创新开发团队和第三方公司,公共部门要做的就是做好开放数据提供平台。校内师生不仅仅是数据的生产者和消费者,更为重要的是,也可以作为数据的分解者,这就是智慧校园的生态系统。如何调动全校的力量,探索适合自己的智慧校园建设模式,是各高校应该着力探讨的方向。
有利于提高运行效率、激发创新
开放数据不仅仅只是增加信息透明度,更多有效信息的传播通常能使得运行效率更加高效。网络、食堂、教室、一卡通等公共资源的运行数据,如果放在开放平台上,就有可能被深度挖掘,变成有用的信息。从最基本的用途讲,用户就可以选取合适的时间、方式以最高效的方式去做自己的事情。进一步讲,无论从兴趣还是从创新创业角度,开放数据都会大大激发用户参与度,开发出各类创新应用,这是从管理者层面凭一己之力很难做好的。下文提到的智慧校园开放数据大赛就是很好的例子。
高校开放数据推进的关键要素
数据分级分类开放
随着信息化建设的推进,高校各业务系统通过整合数据源、完善门户、开发流程等应用集成技术,基本都在各自云数据平台建立了业务数据存储和数据仓库。但开放数据不是所有数据都公开,核心是要在开放数据层面和信息安全层面找到合适的平衡点。开放数据是一个逐步的过程,也伴随管理决策者对开放数据的理解和意识,学校层面应研究制定适合本校的开放数据管理政策,各业务职能部门制定详细的数据分类与分级方案,根据实际需要面向特定对象或用户个体开放。
具体来说,数据可按部门和业务系统分类:人事、财务、资产、科研、一卡通等等,这些可称为校务数据,是从管理层面来看的,每一类数据可按照表1中四个级别定义。
表1 数据分级定义
1.保密数据。显然,这是国家法律法规以及各高校政策规定的需要保密的数据,属于私密数据,只能内部开放使用。比如涉密的科研课题相关数据。
2.敏感数据。敏感的含义相对较广,包括从管理层面考虑的个体群体对某些数据信息的接受程度、文化观念差异等复杂因素,为避免不必要的负面效应会比较谨慎,也包括从个人层面对个人信息、行为轨迹等隐私信息的开放接受程度不同,会造成大量数据都在此列。比如一卡通消费记录、考试成绩等等。敏感数据的开放原则是在主管部门和个人授权许可的前提下控制性开放。
3.一般数据。可以理解为按需开放的数据,不涉及保密和隐私,只要有需求,满足相应接口定义就能开放。比如环境信息、运动场馆信息等等。
4. 公开数据。比如网站、搜索引擎获取到的公开的信息。
校园开放数据平台建设
开放数据仅仅是第一步,如何管理应用好这些数据,还涉及到数据治理、权限控制、落地机制等诸多环节。做好开放数据平台建设,重点要做好落地环节(如图1)。
图1 校园开放数据平台层次示意
落地环节保障了数据到信息的转化,是智慧校园精准信息推送的基础。其中关键要做好对开发、运维者的服务和资源配给,同时又要兼顾管理需要。
1.完善的统一身份认证和授权体系。高校都十分注重组织架构和人员身份的管理,统一身份认证和授权体系保证了各业务、数据的分级授权控制,确保信息安全。
2.云服务平台。面向开发者提供的可靠、便捷的私有云资源,开发者无需投入过多精力在基础架构运维上,可以更聚焦于应用和创新。
3.接口开放的能力。不仅要包含传统的网页端接入能力,更要包含互联网新媒体环境下移动客户端、微信端的接入能力。开放形式可以根据具体内容、要求,通过标准API的形式,也可以用更直接的方式基于Web以特定格式提供下载。
可持续发展的运营机制
运营是个商业化的概念,是指不断体现产品商业价值的持续投入。具体到高校来说,开放数据的落地就是应用,传统的大数据往往是数据的拥有者和管理者独自在玩,他们作为开放数据平台生态系统的数据消费者,往往注重了强关联性的业务层面的数据使用,无论从功能需求上还是从UI设计上,都很难创造出吸引大多数年轻的学生群体的应用。而学生中的草根团队作为一个个活跃的群体,却往往处于四处爬数据甚至用钓鱼方式获取数据的尴尬境地。开放数据给了这些草根团队广阔的舞台,他们的热情和参与度可以作为智慧校园开放数据的有力补充。需要建立以管理者为指导、充分带动、发挥学生能动性的运营团队,不断丰富和完善开放数据内涵。
交大智慧校园开放数据的模式与实践
上海交通大学在开放数据与共享上积累了一定经验,建立了一套较为完整的授权体系,并利用开源软件建立了开放数据平台,通过进一步探索开放更多校园数据,可以为师生提供一个实践开放数据和构建智慧校园的生态环境,让师生在丰富多样的开放数据世界中,充分发挥想象力和创造力。
校园开放数据平台
开放数据要求数据不仅要从政策上开放,还要从技术上开放,基本的准则是:简单易用、易发现、易获取。开放数据是一个迭代的过程,可以先从小的、简单的、快捷的数据开始开放,尽早且频繁地让现有的或潜在的用户使用或再利用那些数据。
1.公共开放的CKAN平台
CKAN(Comprehensive Knowledge Archive Network)提供了一种让数据发布者便捷高效的展示开放数据以及再提交开放数据的方式,并且已被美国、英国、澳大利亚部署用于国家层面的政府开放数据平台建设。CKAN是可以方便的搭建集数据发布、数据共享、数据搜索和数据使用为一体的管理平台,并且提供了强大而完善的RPC APIs供用户调用。它的基本组成是数据集和组织,数据集是数据存储的基本单元,其中可以包含多个资源文件,提供丰富的元数据,同时可以方便快速地搜索和下载使用。组织是用来创建、管理、发布数据集集合的,用户可以在组织中扮演不同的角色,并被赋予不同级别的权限来创建、编辑和发布数据。
公共开放的原始批量数据提供,使得使用者不存在对原始提供者的依赖,可以更自由地发挥使用。上海交通大学网络信息中心利用开源平台CKAN搭建了校园开放数据平台,目前已有6个组织和20个数据集,提供CSV、TXT、PDF、JSON等多种便捷方式公开下载使用,其中也包括了为首届智慧校园开放数据大赛提供的三个重量级的数据集。
2. OAuth体系保护的API建设
API方式是高校信息系统开发标准接口方式,也是开放数据的重要提供形式。API方式的优势,一是可以结合高校自有的统一身份认证和授权体系实现对用户资源保护的权限控制,在管理角度和保护用户角度做到很好的平衡;二是API通常和一个实时更新的数据库连接起来,这意味着任何通过API的请求数据都将是最新更新的,不必实时盯着数据集更新。
上海交通大学已实现基于OAuth授权体系保护的API建设模型,在各业务系统建设的同时,API建设也在同步进行,并在学在统一的技术规范下已经建设完成了约40个开放API,范围涵盖用户基本信息、教学信息、信息流控制、工作流信息、非结构化存储等信息化常见的多个领域,已经被多个应用广泛使用。对开发者来说,只需要申请一个令牌,就可以方便的调用API获取相应资源。API方式的不足之处在于开发和维护量的高成本投入,尤其是开放资源越来越多的趋势下。
智慧校园开放数据大赛
将数据转化为成果落地智慧校园,需要添加催化剂,鼓励大众参与。比赛形式是较为直接的激发大众创新的最有效的手段,甚至可以成为解决实际问题的众智众包平台。上海交通大学通过举办首届智慧校园开放数据大赛,最终效果超出了预期,吸引了校内外500多人参与,经过宣讲会、数据训练营、初赛决赛,学生的参与度、想象力和数据分析能力超乎想象,甚至通过数据挖掘发现了管理的盲区。开放数据大赛的成功可以归结为于以下几个方面:
1. 高质量的开放数据
开放数据大赛首次开放了校内某半年的一卡通消费流水、WIFI上网日志、气象信息共计千万级别的记录信息,赛前的数据清洗就花了两个多月的时间,在最基础的匿名化和去隐私化处理上,剔除了大量无关数据,保证了数据的可靠性。
2. 数据训练营的引导与宣传
数据训练营为开发者包括初学者提供量身定做的装备,引导学生抓住重点,帮助他们迅速走上正轨。通过28天的社群化、实践化学习,掌握数据建模与数据分析基础技能,并为训练营成员提供专业的数据分析工具和资源。这种领入比赛门槛的做法也吸引到了文科学生参与到作品的可视化展示中。
3.丰厚的回馈机制
学生参赛的目的性很强,或为实实在在的奖金,或为展示自己能力,或为创新创业找伙伴,但最终参赛者拿出的是一个个优秀作品(如图2)。比赛不仅仅是最后决出参赛者名次,大赛也请到了管理学院、数学系、工业设计系等校内多个院系的专家教授以及校后勤集团、赞助企业、投资人,汇集各方力量,从可行性的角度共同商讨智慧校园开放数据环境下的创新创业机会,促进作品以校内应用或创业项目的形式落地。
精彩比赛之余,也看到有待进步的地方,比如数据集的种类和规模可以继续扩大。对数据质量、用户隐私、网络安全的把握还需努力,毕竟比赛数据是经过处理的,真正将开放数据应用到用户端,还需要做更多的工作。
图2 智慧校园开放数据大赛作品示例
学生创新团队
开放数据的智慧校园发展有两条线,一是自上而下的学校层面沿着推进信息化建设的方向完善各个业务系统向智慧校园过渡,另一条线就是从下而上用户层面迎合草根用户实际需求创建的各类接地气的创新应用。开放数据在学生团队运作下,可以发挥更大价值,学生团队是学校在建设智慧校园过程中不可忽视的一支互补力量。学生的思维天马行空较为发散,某方面讲这是优点,但需要引导,相对而言,导师指导下的学生团队更容易迸发凝聚的力量。在交大推进开放数据的过程中,前后就有开放移动网络与信息服务创新工作室(OMNILab)、科赛竞赛平台(KESCI),上海交大数据分析俱乐部(D.A.CLUB_SJTU),成为开放数据推广运营的主力军。
校园开放数据是高校管理者与师生沟通的关键,彼此在共同的数据上对话,才可有依据地进行有效对话。开放更多的数据,让师生都有感,管理者也会明白数据对师生的重要性,彼此就会产生正向循环。下一步,学校层面除了加速数据的开放,也期盼用户端提供更多的创意、需求回馈,彼此找到真正的运作模式;师生除了扮演监督的角色,也盼望多加参与数据的使用,回馈需求想法;运营者是管理层面与终端师生用户重要的沟通平台,应运作使力促进各方的相互协同,朝向更互信互利的共赢模式,共创智慧校园。
(作者单位为上海交通大学网络信息中心)