铁路数据隐私计算体系构建研究
2023-09-20姜德友
黄 磊,姜德友
(北京交通大学 经济管理学院,北京 100044)
铁路各业务领域都积累了丰富的数据资源。数据要素流通赋能铁路创新发展,而安全可靠是数据要素流通的关键前提和保障。目前,铁路系统内的数据要素流通方式有3种:(1)通过两系统间的数据接口方式;(2)通过专业大数据平台,为专业内各系统提供数据共享服务;(3)统一通过铁路数据服务平台汇集铁路数据,然后依照权属提供给铁路内部其他需求方。向铁路系统外部进行数据共享的方式是通过数据接口,将需求的相关数据集共享给对方。
由此可见,铁路数据共享主要通过数据接口,将共享数据集以机器可读的方式提供给需求方。这种“数据搬家”式的数据共享模式,会导致数据管理权关系的传递,难以保障数据的隐私安全。隐私计算技术能够帮助解决多方数据主体在数据共享中的数据隐私保护问题,即在数据“不搬家”的前提下,实现数据共享的目的与价值。开展铁路数据隐私计算体系的构建与研究是十分必要的,其提供的安全可控、可计量的数据共享应用环境,可作为以数据接口为主要数据共享方式的既有铁路数据服务体系的有效补充。
1 隐私计算理论与技术概述
在多方数据共享的过程中,可能会面临多种安全威胁和敌对行为,包括数据窃取、数据篡改、合谋攻击、未授权访问、否认服务攻击等,造成数据在输入阶段、传输和共享过程中的隐私泄露,以及过程结果篡改等隐私问题,如图1所示。
图1 多方数据共享中的隐私问题
作为一种多理论和技术的集合,隐私计算主要涵盖了多方安全计算、联邦学习和可信执行环境等3个关键研究领域。
1.1 多方安全计算
多方安全计算(MPC,Multi-party Computation)是一种在保障各方输入信息不被泄露的前提下,实现多方共享计算的技术,使得互不完全信任的参与者间能够进行安全的联合计算,各方可共享计算结果,但无须公开各自的私有数据。
自20世纪80年代Yao[1]首次提出该理论以来,多方安全计算的理论研究主要集中在复杂性、效率、安全性等方面,构建了丰富的协议体系,如同态加密[2]、混淆电路[3]、秘密共享[4]、不经意传输[5]等协议体系;实践研究则更关注实际应用中的问题,如计算和通信开销、可用性、可扩展性等,例如,Wang等人[6]将可鉴别混淆电路与BMR(Beaver-Micali-Rogaway)协议结合,设计了多方混淆电路,减少了通信开销。
1.2 联邦学习
联邦学习(FL,Federated Learning)是一种分布式机器学习方法,允许多个设备或服务器在保留本地数据的情况下进行协作训练[7],目的是解决移动设备的数据隐私问题。
FL的核心理念是在数据生成的地方进行计算。这种方式确保了数据的隐私性,同时,克服了集中式学习所需要的大量数据传输。根据训练数据在不同参与方间的样本分布特点,FL可划分为横向联邦学习(HFL,Horizontal Federated Learning)、纵向联邦学习(VFL ,Vertical Federated Learning)和联邦迁移学习(FTL ,Federated Transfer Learning)[8]。FL的一个重要研究方向是如何设计高效、可扩展、健壮的FL算法。目前,FL的主要算法有FedAvg[9]、FedProx[10]和FedASAM[11]等。
1.3 可信执行环境
可信执行环境(TEE,Trusted Execution Environment)是一种在硬件层面提供隐私保护的技术。TEE为数据和应用程序提供了一个安全的运行环境,该环境在物理和软件层面均进行了隔离,有效抵御外部攻击和内部泄露。TEE的经典实现包括SGX[12]、TrustZone[13]等。
TEE可保护数据在使用过程中的隐私,比如在云端进行计算时,即使云服务提供商也无法访问到数据的内容[14]。这种技术有助于建立隐私计算的信任基础,并广泛应用于云计算和边缘计算等场景。
2 铁路数据隐私计算需求场景
2.1 动车组检修中多方数据共享
目前,铁路动车段能够开展动车组的一~四级修,主机厂负责返厂修。针对动车组的检修,需要动车技术资料、车载监测数据、轨旁行车安全地对车监测数据和检修维修数据的共享。在此过程中,动车检修故障预测与健康管理(PHM,Prognostics and Health Management)平台起到了关键作用。PHM平台需要从动车组车载信息无线传输系统(WTDS,Wireless Transmit Device System)获取车载状态数据和地对车数据,从动车组管理信息系统(EMIS,EMU Management Information System)获取车辆履历信息和故障信息,从动车组空心车轴探伤管理信息数据平台(EXTMIS)获取探伤和镟轮数据,以及从受电弓及车顶状态动态检测(SJ)系统等获取检测数据,如图2所示。此外,这些系统有时也需要相互获取数据,以满足检修的需求。
图2 PHM与各系统间数据共享需求
由于数据安全、技术隐私保密和数据价值等问题,动车段、主机厂、各统建信息系统均不便将数据共享、转交给他人。因此,需要构建多方参与的隐私计算体系,根据维修、检修、厂修需求,基于隐私计算技术,在各参与方原始数据“不搬家”的前提下,获得所需要的铁路各类监测系统对动车组各部件的健康状态统计分析结果数据,从而为各自的维修、检修、厂修方案制订提供支撑。
2.2 海铁联运潜在货源、箱源发掘
我国的海铁联运占比率长期在2%左右,占比率较低。《推进铁水联运高质量发展行动方案(2023—2025年)》中要求集装箱铁水联运年均增长15%以上,其中强调,要“实现车、船、箱、货等信息的实时获取”。海铁联运涉及的主体包括港口、铁路部门、物流/船公司、理货公司、海关和港务局等,如图3所示,这些主体间的信息流通至关重要。
图3 海铁联运数据共享主体
提高海铁联运占比率的关键在于如何获取准确的需求与潜在需求信息,动态优化铁路港口运输组织与列车开行方案。目前,铁路与港口交换的数据较少,需要开展潜在箱源数据挖掘,分析出铁路适运和货主适运的潜在箱源数据,而这些原始数据均具有高度的隐私安全性。运用联邦学习和多方安全计算等隐私计算技术,可在不泄露双方需求与原始数据的情况下,使铁路方获得一定时间段内,分货类、分流向的海铁联运潜在适运箱源数量,从而实现确保数据安全前提下的,海铁联运适运潜在箱源的挖掘识别。
2.3 高速铁路沿线风险监测
高速铁路(简称:高铁)沿线环境安全风险主要来自沿线周边的异物入侵和自然灾害。高铁沿线风险监测需要整合高铁地理信息系统(GIS,Geographic Information System)、基础设施、安全监测等内部数据,以及铁路外部的遥感卫星、气象、地质、沿线环境等多源数据。然而,由于气象、地震、遥感等外部数据源的数据量庞大、更新频率高,各自数据安全监管存在差异,导致原始数据难以有效汇聚到铁路相关部门。因此,可基于隐私计算技术,与气象、地质、遥感、公安等部门进行数据共享,在各方数据“不搬家”的前提下,铁路相关部门可获得高铁沿线相关风险的预警信息。
2.4 动车行驶里程计算
动车组的行驶里程数据直接影响铁路部分结算公司的收益,目前,该数据由各铁路局集团公司自行上报,主要存在3个问题:(1)上报的数据可能因技术设备差异、人为错误等因素产生数据误差,导致铁路结算公司对运营成本误判,影响其业务运作;(2)出于数据安全考虑,结算公司无法获取动车组在各铁路局集团公司区段内的追踪监测数据,因此,无法实时、准确地获取动车组的行驶数据,也无法有效核实上报数据,增大了结算难度;(3)数据信任问题。
应引入隐私计算技术,设计动车行驶里程联合计算方法,构建可信的数据共享机制,解决数据误差、数据安全和信任问题。
3 铁路数据隐私计算体系构建
铁路大数据服务平台是智能铁路数据共享服务体系的基础和核心,其提供的主数据、GIS数据、铁路多种业务数据,已为京张(北京—张家口)高铁、京沪(北京—上海)高铁及多个铁路局集团公司的安全建设和运营提供了数据共享、大数据分析与决策支持服务。为满足上述场景中数据共享各方对数据隐私安全、数据价值保障等更进一步的诉求,本文构建铁路数据隐私计算体系,作为铁路大数据服务平台的补充和延伸。
铁路数据隐私计算体系架构如图4所示。该架构以安全计算、区块链、计算任务调度控制、安全协议为核心,通过项目管理、用户管理、模型数据管理、通用算法等4个模块提供服务支持,在铁路大数据服务平台的基础上构建,旨在实现铁路内部系统间、铁路内外系统间的数据安全共享。
图4 铁路数据隐私计算体系架构
3.1 安全计算模块
安全计算模块主要依赖于多方安全计算和联邦学习集群来实现。通过联合统计功能,能够在保护各参与方数据隐私的同时,对分布在各方的数据进行统计分析,为数据预处理和模型设计提供了全局的数据概览。通过联合建模功能,能够在无须直接共享数据的情况下,协调各方共同训练出一个全局模型,从而显著提升模型训练的效率和性能。此外,安全计算模块还提供安全求交、匿踪查询、联合查询和联合预警等功能。这些功能使得各方在保护数据隐私的前提下,能够进行数据交换和查询,以及对数据进行监控和预警,对数据安全管理和风险控制具有重要作用。
3.2 区块链模块
区块链模块通过身份认证、可信授权、日志审计、模型追踪、安全存证、智能合约等功能,确保隐私计算交易流程的真实性、完整性和不可篡改性,从而增强铁路数据隐私计算体系的可信度。
通过身份认证和可信授权,可有效防止非法用户访问和篡改交易流程数据。通过日志审计和模型追踪,可追踪隐私计算流程的全周期。通过智能合约,计量各方通过隐私计算获得数据共享的应用量,为各方提供的数据共享服务价值提供结算依据。
3.3 计算任务调度控制模块
计算任务调度控制模块负责协调和管理计算任务。在多方数据共享和复杂计算需求的场景中,通过多方任务协同调度功能可确保计算任务的高效运行。通过内外部节点注册管理和集群管理监控功能,可实时了解集群的运行状况,及时发现和处理问题。通过任务日志管理功能,可记录和审计计算任务的执行情况,发现与追踪可能出现的问题。
3.4 安全协议模块
安全协议模块通过同态加密、秘密分享、密钥交换等多方安全计算的基础技术和工具,保护计算过程数据和结果数据在传输和处理过程中的安全性。同态加密功能可使数据在加密状态下进行计算;秘密分享和密钥交换功能可使得多方之间安全地共享数据和密钥,防止数据在传输过程中的泄露。
4 体系应用
4.1 动车组检修多方数据共享场景
在动车组检修场景中,通过本文体系中安全计算模块的联合统计和联合建模功能,可在动车段不获取铁路统一建设的系统和主机厂系统原始数据的前提下,分析和预测检修需求和周期,提高检修效率和效果。此外,区块链模块的日志审计和模型追踪功能可帮助追踪和记录动车组检修过程,确保检修的准确性和可追溯性。同时,计算任务调度控制模块可有效地管理和调度与动车组检修相关的计算任务,提高计算效率。
4.2 海铁联运潜在货源、箱源发掘和高铁沿线风险监测场景
在海铁联运潜在货源、箱源发掘和高铁沿线风险监测场景中,安全计算模块的安全求交、联合建模等功能可帮助各方在不直接共享数据的情况下,构建模型,发现潜在的适运货源和运营安全风险,提高运输效率和安全性。在该过程中,安全协议模块的同态加密和秘密分享功能可保护数据在传输和处理过程中的安全性。同时,区块链模块的智能合约功能可为各方提供数据共享服务价值的结算依据。
4.3 动车行驶里程计算场景
在动车行驶里程计算场景中,通过安全计算模块的联合查询功能,可在保护各铁路局集团公司数据隐私的同时,准确计算动车行驶里程,为铁路结算公司提供准确的数据支持。此外,计算任务调度控制模块的任务日志管理功能可记录和审计计算任务的执行情况,帮助发现和追踪可能出现的问题。同时,区块链模块的安全存证功能可确保计算结果的真实性和完整性,增强结算过程的可信度。
5 结束语
本文探讨了铁路数据隐私计算体系的需求场景,提出了一种以应用需求为导向的铁路数据隐私计算体系,介绍了体系框架,并详细阐述了体系框架中各模块的具体功能,以动车组检修多方数据共享、海铁联运潜在货源、箱源发掘、高铁沿线风险监测和动车行驶里程计算等实际应用场景为例,展示了本文体系如何在保障数据隐私的前提下,实现数据的安全共享和价值最大化。本文体系在其实践过程中仍面临诸多挑战,下一步将密切关注各参与方对数据隐私安全的诉求程度,选择适用的隐私计算技术,进一步优化和完善铁路数据隐私计算体系。