APP下载

基于数据中台的行为追溯系统设计与应用

2023-11-07王超

电脑知识与技术 2023年26期
关键词:中台系统

王超

(1.南京邮电大学信息化建设与管理办公室,江苏南京 210023;2.南京邮电大学智慧校园研究中心,江苏南京 210023)

0 引言

信息追溯广泛应用于食品安全和生产经营[1-2],特别的,信息追溯可以在流调中搞明白在过去一定的时间段,重点人群的行动轨迹、遇到的人和发生的事[3-4]。有别于食品追溯[5]等,将获知某人在过去一段时间内的行为轨迹定义为行为追溯。行为追溯数据获取的难点有以下两方面:一方面,一般情况下每个人完整的行为轨迹只有他自己知道,并且随着时间的推移,记忆会逐渐模糊,长期不梳理会导致数据丢失或错误。另一方面,存储在个人穿戴设备的行为轨迹信息也可能是部分的(如仅有位置信息没有动作信息)、间断的(有时未穿戴设备)、分散且难以集中获取(多设备信息不互通也不能开放查询)的等。在高校场景中对在校师生进行行为追溯虽然人员名单相对固定,但是数据采集设备多种多样,人员管理分散,数据处理的专业水平参差不齐,具有一定的挑战。

数据是行为追溯的基础,为了提高追溯的准确性,需要从多个维度统计数据。过去,这些数据往往分散在不同的系统,然后分别导出表格,通过U盘、邮件、即时通信软件等形式发给专人汇总进而进行查询、分析和汇报。存在问题如下:一是数据实效性差,某一个环节不能及时发送数据会导致整体工作延期;二是数据安全性弱,数据文件在互联网环节中常常不加密转发,有时直接发在群里,对无关人员暴露,导致数据泄露;三是数据准确性不能保证,在处理数据的时候可能出现复制粘贴导致的数据缺失、重复、公式用错等问题;四是数据质量不稳定,在表格填写时,大小写、空格、表格类型不一致都会给后期数据处理带来不便。高校数据中台作为智慧校园的重要组成部分,解决了数据分散、数据质量、数据安全等问题,有效支撑上层应用的建设。依托数据中台的行为追溯,不仅可以支撑流调场景,还可以绘制师生画像,高效地辅助学校精准决策。

本文介绍基于数据中台的行为追溯系统设计与应用。首先,阐述行为追溯系统的基本原理和功能;然后,探究如何基于数据中台构建行为追溯系统,并详细介绍其设计流程、技术架构和实现方式;最后,将通过实际案例,阐述行为追溯系统在高校中的应用与价值,并对未来的发展方向做出展望。

1 设计

行为追溯系统是一种能够记录参与者活动并提供分析反馈的软件系统。其基本原理是从不同来源收集数据,将数据存储到数据库中,然后分析了解用户行为和事件的关系。行为追溯系统可以拆分为数据输入、存储、流转、处理、展示等几个环节,如图1所示,接下来将从具体环节入手进行设计。

图1 行为追溯系统组成部分

1.1 数据输入

数据输入是整个系统最关键的环节,数据是一切的基础。要做到数据输入的自动化、智能化,让使用者能够方便快捷地录入和管理数据。首先分析需要哪些数据,然后考虑数据输入的形式。行为追溯的基本要素是人物和事件,区域内出现的人和事都是系统的关注对象。在高校场景中,首先需要统计一张完整的人员基本信息表,应至少包含学工号、姓名、性别、身份证号、手机号、学院等字段,不仅需要包括在册的人员数据,临时访客更应重点关注。其次,事件信息包括门禁出入、刷卡消费、任教上课、监控抓拍等。把以上信息通过自动化手段或人工输入的形式录入到行为追溯系统,减轻重复性工作量,为工作带来便利。

已经接入数据中台的数据可以直接对接使用,以适宜的频率定时同步,不能自动对接的数据,在行为追溯系统中设置录入模块,单条或者以文件模板的形式,由相应的管理员和负责人录入并建立审核机制。

1.2 数据存储

数据存储时应优先保证多副本以不间断提供高可用服务,最好定期备份在异地。系统应记录数据的录入时间、录入人、修改时间、修改人等关键信息,记录完整的数据修改日志,对数据存储进行全流程监控防止数据丢失和篡改等。从中台同步的数据应当优先在数据源中进行修改然后在行为追溯系统中进行同步,行为追溯系统中特有的数据也可同步至数据中台供其他系统调用,此时数据中台可承担一部分数据备份的作用。

对于私有化存储所在的服务器需要配置好网络准入规则、定期修改密码、接入安全设备管理。对于身份证号、位置信息和手机号等敏感数据进行加密存储。缩小运维人员范围、签订数据保密协议、建立健全数据库审计,非必要不直接操作数据库修改数据。随着数据量的不断增加,还要优化物理硬件和数据库参数,保证数据查询和存储的效率。

1.3 数据流转

数据流转时要兼顾便捷性和安全性,为防止多个数据源造成数据口径不一致,各单位都要统一在行为追溯系统取数据。建立非必要不下载的观念,简单的统计工作可以直接在系统内完成,如果下载,系统自动为文件加密,密码在系统中经过多重的身份校验后提取。

支持在系统中对数据集合创建快照然后生成分享链接,链接的查看权限可以指定到人或群组。分享链接设置有效期后自动失效,对于某些字段可以创建脱敏规则。在保证数据安全的情况下,极大提高数据流转的效率和灵活性。

1.4 数据处理

数据处理主要包括以下几点:一是数据自动统计,预置一些常用的处理规则,并能够自定义规则处理数据(SQL);二是数据匹配,批量数据匹配补全,类似于办公软件中的VLOOKUP公式;三是数据筛选,满足多种条件如相等、不相等、包含、不包含。对于上述的数据处理工作可以编写脚本并定时执行,然后自动发送邮件提醒结果。对于重要指标配置通知告警,及时关注数据变化。数据处理的主旨是让数据管理员从重复的数据劳动中解放出来,让重复性的操作自动化。

1.5 数据展示

数据展示使用数据大屏展示一些关键指标,为决策提供数据支撑,要求能手动配置指标项和拖拽位置大小,定制展示主题颜色,更重要的是能授权哪些人看哪些大屏。基于数据中台的数据展示可以展示数据的动态变化,对于展示的指标可以点击下转到详细信息。

2 实现

系统采用主流的SpringBoot编写后端,React编写前端,Postgres数据库存储结构化数据,结合手工行为追溯描述系统实现,模块间数据流向如图2所示。

图2 行为追溯系统中数据流向示意图(虚线表示可选的流向)

2.1 数据输入

手工录入通常以天为单位,管理员向各个数据提供者索要数据,然后整合到一张大表中。数据输入基本依赖文件互传和表格软件内复制粘贴来实现。通常的做法是,首先按日期创建文件夹,然后把数据文件移入文件夹然后改名,以备查备份;接着准备一个新表格,将获取的数据文件中的数据内容以无格式形式粘贴进来,进行手动去空格、去重、大小写转换等处理。数据采集的过程往往费时费力:一是,各数据提供者不能及时提供数据需要反复提醒催促;二是,数据提供者不够细心、水平有限,不能按模板提供数据、格式混乱。并且,数据的输入整理是重复性工作,有时也会出现疏漏造成数据不准。

行为追溯系统的数据录入模块需要解决上述问题,提供以下功能:

1)在线收集功能。对预先定义的群组内成员发放问卷快捷收集,保证数据收集输入工作平稳、快捷、有序。

2)自动提醒功能。提前预设每天要收集的项目,分配好责任人、联系方式、时间节点和通知规则,责任人需要在规定时间内按照要求上传收集到的信息,否则会收到提醒信息。

3)自动检测功能。对于责任人上传文件的字段内容进行自动检测,提醒上传者哪些地方数据可能有异常,按照提示自行修改。

4)自动清洗功能。在录入数据时进行校验和清洗,如去空格、手机号格式校验、身份证格式校验、身份证最后一位X自动转大写等。导入数据时某些字段缺失的,如仅有身份证号,在系统中自动按人员基本信息表进行匹配补全。匹配不上且存在手机号的,电话沟通确认身份再由相关管理员补录。实在不能确认身份的,则进行特殊标记,由相关责任人督办查人。

5)单条录入和批量导入功能。单条输入时允许自动联想和自动补全;多条导入时应准备好导入模板,提供导入预览和导入确认环节。

6)移动端适配。数据输入适配各种形式的网页端,界面应当清晰明了,提供移动端适配方便随时随地录入。

2.2 数据存储

手工阶段通常将各文件存储在本地电脑,或将文件存储在加密的云空间中,便于后续的分享。行为追溯系统为解决上述问题将数据集中存储在高可用部署的结构化数据库中,每天进行定时备份。

2.3 数据流转

手工阶段的数据流转通常依赖即时通信软件建群,在群内共享数据。要求每个人只能看到与自己相关的数据,但是群内共享导致数据的无关暴露,文件下载后还会存在本地有数据泄露的风险。此外,因为即时通信软件本身的不严肃性,用户可能会将群内软件随意分享给他人,毫无监控手段。进阶的,可以使用远程办公软件,建立加密团队,为每个人每个文件夹设置操作权限,文件下载后只有自己的账号能够打开,方便快捷,极大地提高了安全性。

行为追溯系统的数据流转模块需要解决上述问题,也要提供远程办公软件类似的功能,首先系统是限制白名单访问的,对每一份数据建立权限控制模型,限制数据查看、编辑、移动、下载等行为。此外,行为追溯系统是私有化本地部署,数据不上云更加安全。

2.4 数据处理

手工阶段往往要处理多张表格,按照一定的规则整合起来,进行一系列公式、筛选最终得到需要的数据,然后进行决策。

行为追溯系统将重复操作组合成脚本,能够一键运行和定时执行,配合数据展示模块让使用者对数据有宏观和微观的理解,强有力地支撑各项决策。

2.5 数据展示

手工阶段的数据展示包括定制化大屏或通用的数据展示大屏,前者只是单纯的数据展示,后者能与数据联动在页面中数据下钻。但是数据是分散的,数据展示前要先进行数据导入。

行为追溯系统天然地将所有数据整合起来,接入数据中台,数据一旦变化能很快地刷新展示,通过自定义大屏展示内容,给大屏配置操作权限,使用起来灵活方便。

3 应用

行为追溯系统使用范围广泛,可以支撑流调或绘制师生画像。

1)流调。当行为追溯系统接入了门禁出入、刷卡消费、任教上课、监控抓拍、核酸明细等数据后,首先能够根据重点人员名单查人员轨迹,然后根据轨迹中的重要地点和时间查附近时空出现的人员,满足流调的一般场景。

2)师生画像。行为追溯系统可以绘制每位师生的时空轨迹,统计出某人经常出入的场所,比如某个人经常出入图书馆,可以简单判断他是一个爱学习的人。此外,除了时空信息还可以记录如消费种类和金额、借阅书籍详情、逗留时间等进行进一步研究。

行为追溯系统的核心是数据的录入、存储、流转、处理、展示,在这个数据为王的信息时代,只要收集到数据,在合法合规的前提下,更多的应用场景等待挖掘。

4 结束语

为解决行为追溯过程中的困难和不便,设计了基于数据中台的行为追溯系统,针对数据的输入、存储、流转、处理、展示等方面进行建设性优化,有效地简化行为追溯复杂度,让管理者从重复工作中解放出来,让结果更加真实可信,给未来决策提供强有力的保证。本系统充分经过充分论证,能为其他领域设计行为追溯系统提供参考借鉴。

猜你喜欢

中台系统
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
WJ-700无人机系统
人力资源和社会保障信息化系统“中台”建设探讨
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
基于PowerPC+FPGA显示系统
以技术开发中心为中台,数字化转型之见解
基于UG的发射箱自动化虚拟装配系统开发
半沸制皂系统(下)
连通与提升系统的最后一块拼图 Audiolab 傲立 M-DAC mini