基于区块链的科技金融大数据开放共享体系研究
2018-08-22王洁魏生戴科冕
王洁,魏生,戴科冕
(1.东莞市电子计算中心,东莞 523007;2.广州银行总行智慧银行中心,广州 510620;3.广州八斗金链科技有限公司,广州 510600)
1 科技金融服务体系的构建
科技金融本质上是金融制度创新与科技创新的耦合,即为初创期到成熟期各发展阶段的科技企业提供融资支持的一系列金融工具、金融制度、金融政策与金融服务的系统性安排。科技金融服务体系主要的工作目标是,通过顶层设计和跨部门、多政策的联动,以及财政、税收、金融、信用工具等的组合运用和模式创新,多渠道整合投资、贷款、担保、保险、租赁、典当、资产管理、知识产权运营、科技创新孵化等金融领域资源,把服务切实贯彻落实到科技型中小企业的投融资服务环节中,为那些难以达到传统金融机构服务门槛的科技企业,提供融资机会和发展机遇[1-2]。
科技金融服务体系的最佳实践应是:搭建开放式科技金融服务平台,建立网格型科技金融服务网络,打造科技金融服务生态圈,在科技职能部门引导下,让众多机构共同参与,建立完备的科技企业资信数据库和金融数据交换网络,让尽职调查、风险评估、投贷汇相关的业务信息系统与数据开放平台相对接,不断积累优化数据库内容,持续拓展整合投融业务开展所需的数据资源。
与传统集中式技术相比,区块链技术(Blockchain)具有去中心化、去信任、集体维护、开放性、自治性、信息不可篡改、匿名性等独特特征。本文介绍了基于区块链技术架构构建科技金融领域多机构共同参与的企业信用数据联盟链与开放数据交换网络的实践探索。
2 大数据共享体系要求与必要性
2.1 传统数据治理模式的局限性
面向企业的科技金融服务,通常是在政府牵头下,由多方参与的科技金融服务平台和科技金融服务生态圈提供。但是一系列数据共享与数据治理方面的矛盾就产生了:
(1)数据多中心化的现实不可改变。无论从安全、便捷、所有权、隐私权角度考虑,在大数据时代,政府、非政府组织、企业、社会团体都更倾向于创建自己的数据网络、数据库、云计算中心,并实施与自身业务有关的数据挖掘(Data Mining)、联机分析(OLAP)、开发利用等操作。
(2)多元数据共享整合机制缺乏。政府治理下的信息共享,从管理重点来看,可以分成纵向信息共享和横向信息共享两类,即便于独立管理的领域间、层级间、专业间的信息共享和便于决策支持的集中式的跨领域、跨部门、跨平台的信息共享。从形式来看,可以分为点对点(P2P)信息共享和资源管理中心型信息共享与交换两种模式。但是由于社会诚信缺乏、部门条块分割、责任认定模糊,上述传统的信息共享模式都无法有效地解决问题,系统建设和工作流程重复难以避免,公众在其他部门办理业务时常需要“被证明”或“自证明”[3]。
(3)数据互联技术能力制度障碍仍然存在。举例说明,数据及系统接口未曾实现标准化,信息共享通道连接困难,数据交换一致性保障和相互信任问题难以解决,不同机构之间的数字证书认证体系没有建立互信互认机制,数据资产化管理机制的政策探索严重滞后等。这些关键因素都阻碍了业界更进一步探讨数据交换机制、数据更新机制和大规模数据资源开发利用机制的完善。
(4)数据主权和对等管理模式未界定。即政府、企业、社会、个人等多元主体在大数据发展中的权利和责任尚未得到清晰界定,举例说明,数据主权主要涉及到所有权、管理权和使用权三个方面,对等管理指的是跨机构业务数据、单据操作中的对等管理。带来激烈争论的新欧盟通用数据保护条例(GDPR)已于2018年5月生效,适用于在世界各地收集有关欧洲客户或员工的敏感数据的大数据公司。这个法律框架将彻底改变整个数字经济领域。
综上,由于体制制约、技术局限、需求多样、数据资源共享机制不健全等原因,提供金融服务和企业征信的机构与业务数据提供方等相关机构之间存在着相互信任难、信息共享范围不广、效率太低,数据资源更新不及时不一致,业务协调困难等问题。总而言之,这种碎片化状态加剧了现实中存在的分裂格局,十分不利于形成大数据驱动下业务多元整合的决策或服务。因此,当前阶段,亟需探求出一种能够相互信任,共享实时、内容一致的新的信息资源协同共享模式[4]。
2.2 打造数据开放共享平台的意义
科技金融业务中的数据服务只是一个代表性业务需求。在海量涌现(Volume)、实时更新(Velocity)、形态多样(Variety)、质性各异(Veracity)的大数据时代,信息数据资源的共享和应用,是一种具有通用性的共性需求,要求各级各类机构跨部门、跨领域、跨平台之间实现完整及时的信息流转和业务的协同共享。
数据开放共享平台是一种很好的形式满足上述问题[5]。
开放是一种方式。线上、线下业务资源和操作记录的电子化、数据化和交互接口化,是各行业领域业务系统对接与资源互换互认互信的前提。数据利用、共享、流转和二次应用是大数据产业发展的基础,是市场需求和数据价值的体现。
开放是一种策略。上面已经论述,系统及数据不共享开放,会引发重复工作及反复验证、数据隔离与封闭、价值沉没及损耗、信息孤岛等一系列问题,但是,反过来说不受控的共享开放也可能给机构和社会带来的损失,例如出现当前泛滥的数据黑市、隐私信息泄露、钓鱼事件等问题。
开放是一种能力。因为数据交换面临的核心难点在于,无法保证数据使用方不再发生未经数据管理者或所有者许可的数据“二次”流动,数据的安全、隐私无法保证,以至于数据管理的责任和权利无法正确匹配。开放是一种挑战。随着共享数据系统的规模不断庞大,存储及利用及保障的难度则提升,数据被盗取后风险极大;调取数据的延迟性不断增加,数据汇总与更新速度将越来越慢。
只有建立数据开放共享平台,通过机制设计和技术实现,而不是仅凭管理者和使用方承诺,来保障数据的内容一致性、安全性和数据源所有者的权益,做到让数据交换各方真正放心,才能推动大数据产业的发展和加速数据的顺畅流动。
2.3 基于区块链的数据交换流转模式的创新
区块链是下一代互联网的基础技术,也是推动大数据发展的关键基础设施。区块链系统的开创性主要体现在五大分布式技术的联合运用,即分布式加密、分布式共识、分布式传输和分布式数据库。利用区块链技术为数据流通提供新的解决方法与思路,可以颠覆传统共享经济商业模式。
区块链极有可能是一种有能力解决本论文场景问题的关键技术,原因在于[5-7]:
(1)区块链是一种可靠数据库技术,能在不可靠的网络环境下实现节点间数据的准确性、一致性和完整性;区块链还是一个自信任、防篡改、能利用多签名进行复杂的数据应用管理权限的分布式账本记录系统,保障利用少量节点无法对数据进行篡改和删除,还可以即时同步,集成不同数据库中的信息,实现数据共享以及安全存储。未来与大数据技术成熟结合后,可以无限扩充数据规模和信息维度。
(2)作为比当前互联网更加安全的价值互联网的基石,区块链与共享经济的内涵不谋而合。不仅企业可以自由地共享其产品、服务,以及数据、信息、任何可数字化上链的实体,甚至到普通的消费者也可以共享自己富余的资源。
(3)区块链去中心化和去信任的特征对于数据资源共享模式而言尤为重要,原因在于区块链体系中的每一个节点具有均等的权力和义务,不需要依赖第三方和脱离了中心化管理,依靠大量算法和算力去保证整个记账体系的信用。
(4)区块链的开放性和联盟特性,使得构建跨组织边界的多机构交互的应用系统有天生优势。区块链的底层架构是开放的体系,可以方便地增加新的节点,或使用跨链技术让区块链与其他区块链进行对接。因为采用联盟链技术,与具体交易无关的其他节点未经认证无法接入和读取数据。
(5)区块链比较适合电子证据和智能合约的保存和执行,原因在于,一是去中心化分布式存储、全量数据链式存储和特定的共识机制,可以避免个别哈希算法被新的算力撞破时证据被篡改;二是基于区块链技术保存的证据信息具有可追溯性,数据使用方可以通过工具查询和算法验证对方的信用记录准确性,以及追溯账户信息完整的所有变更历史,从而通过技术提供信用背书。三是按照触发条件自动执行的代码级的区块链智能合约,同样具有不可篡改特性。
由此可见,区块链技术的广泛应用和深度挖掘其潜力,有助于商业模式创新,甚至可以摆脱传统商业模式中对市场寡头的服务依赖,可以解决行业间的信息共享难题,打通大数据技术信息孤岛问题,建立全新产业生态系统。同时,基于区块链的新共享经济发展模式将利于政府监管与政策的实施[6]。
3 区块链驱动的大数据开放共享体系
在本项目中,科技金融服务平台的职能简单来讲就是整合多方的企业数据来源,为“投、担、贷、租”相关的金融机构提供贷前、贷中、贷后等信贷业务操作中的关键数据支持,涉及创业投资、风险投资、小额贷款、融资担保、融资租赁、资产评估、产业基金、产业园区等领域[8]。
在系统研发与实施中,面向多方的信息、证明、文件等电子数据交换与验证场景,总遇到几类问题亟待解决[6],例如:①以关键字为基础的数据检索,无法高效发现和验证数据;②数据变化的追溯、扩展及更新难以实现;③数据所有者失去数据的控制权、所有权,数据安全及主权无法保障;④数据交换及使用缺乏透明性,无法有效检测及防患数据交换参与方串谋等舞弊行为等。
本文提出打造一个基于区块链的大数据开放共享架构和数据交换系统模型的“五部曲”[9]。该架构有助于解决数据交换中面临的信任孤岛、数据主权和对等管理的痛点问题,保证数据源机构提供信息、证明、文件等电子数据的不可篡改性、不可抵赖性、真实性、合法性和准确性,实现多方之间的互信、互认、互操作机制的单一窗口实践应用,满足数据开放流通过程中包括授权、存证、验证、溯源等业务场景需求。
3.1 建立统一的区块链基础设施平台
作为统一的数据交换区块链基础设施,为了搭建科技金融领域多机构共同参与的企业信用数据联盟链和开放式数据交换网络,首先应当建立统一的区块链基础设施平台和为对接机构提供数据交换接口SDK,类似为每一个数据交换节点机构安装数据“水龙头”。本项目基于开源的八斗金链区块链平台扩展开发,总体逻辑架构如图1所示。
基于开源区块链技术,八斗金链区块链采用分层架构、云链结合、优化共识算法、容器、微服务架构与可伸缩的分布式云存储技术等创新技术方案,面向企业及开发者提供一站式规划、采购、配置、开发、上线和运维的区块链平台服务,可快速自主搭建一套基于自身业务高安全、高可靠、高性能的企业级区块链系统,大幅提高用户使用区块链的效率,有效降低企业的初始成本和使用成本。该平台参照工信部标准与规范进行改造,由自下而上的基础设施层、容器层、核心技术层、共识网络层、链路适配层、服务层、服务接口层和应用层组成,这种分层架构设计有利于帮助企业快速简单地落地区块链场景[9]。
图1 区块链基础设施的逻辑结构
(1)基础设施层:提供区块链相关的基础设施服务,具有点对点、不可篡改、可信任和价值转移的特点,可以基于传统硬件集群、数据中心系统、基础设施云IaaS架构(含公有云和私有云)、区块链专用的BaaS底层云服务(由IBM、微软、亚马逊等提供)。
(2)容器层:以云和容器方式(如 Docker、Open-Stack)提供无限扩展的存储、高速的网络、按需弹性伸缩和故障自动恢复的节点等区块链资源。可以封装成区块链安装镜像,告别繁琐而复杂的区块链环境搭建和配置,平台相关代码均封装成基础库,让业务逻辑独立于区块链平台。目前正在与国内几家知名云平台进行战略合作沟通,可以实现在云平台上快速部署。
(3)技术核心层和服务层:分别提供区块链基础服务,包括登记与认证服务、分布式账本DLT服务、共识算法选择和智能合约服务共性服务等。目前阶段基于Hyperledger Fabric开发,具有极强的可靠性和扩展性。下一步可根据市场需求逐步支持Corda和EEA等优秀区块链框架,为上层应用低成本、快速的提供高安全、高可靠、高性能的企业级区块链系统。
(4)应用层:在基础层服务的基础上,可以搭建可信、安全、快捷的区块链应用,必要时可引入智能合约引擎,支持去中心化的业务流程和DApp应用开发。
(5)服务接口层:提供基于场景的区块链平台通用性的对外接口服务,例如,数字化资产发行流通服务、私有股权登记转让服务、公示公证服务、积分互换服务、联合征信服务、数据交易服务,存证查询验证服务、供应链溯源服务、供应链金融服务等。
(6)智能合约引擎:目前提供Hyperledger标准智能合约接口,用户可以根据不同应用场景构建不同的智能合约,后续将与合作伙伴一起为用户打造通用场景智能合约库,企业可以在此基础上快速构建区块链应用场景。
(7)应用开发与运维监控工具:提供一系列工具,支持开发平台进行智能合约的在线编辑与发布,聚集于业务需求实现,同时平台集成众多成熟的开发插件,降低区块链开发门槛和提高开发工作效率。
3.2 搭建高效的企业级区块链数据库
在上述区块链网络基础上,作为第二步,本项目搭建了一个分布式去中心化的区块链企业数据中心应用系统和一个基于区块链网络监控平台,如图2所示。依托公钥/私钥PKI非对称加密和验证,这个数据库系统既可以既实现数据资源的登记、流转、使用、查询、溯源、分享及二次利用等功能,又满足多方(企业、机构等)对数据验证认证,数据准确保障等需求,同时还兼顾高效存等技术需求,可以通过联盟体共同认证,允许多方搭建节点,共同维护数据;提供更好的开放协助平台,便于多方业务接入,提供API、SDK、H5等多种工具方式,允许各方快速登记与检索数据,提升数据的共享、交换效率。
图2 分布式区块链企业数据中心系统
3.3 基于区块链的数据协同共享模式
基于上述的企业级区块链基础平台和区块链数据中心应用系统,本项目搭建了多机构参与的区块链数据交换网络,如图3所示。在此基础上,依托区块链技术的本质特征,我们提出一种基于区块链去中心化数据共享模型的信息数据协同共享模式,试图解决第2节中提及的传统信息共享模式中,存在着跨部门信息协同一致难和相互信任难的核心问题。
图3 区块链数据交换网络
该创新模式集合了传统模式的优点,可以在多个主体之间实现点对点形式的信息共享交换,具备去中心化和去信任的特点,同时又能做到信息的分布式安全备份,实现一次共享、多次使用、信息可追溯管理的效果,增加了信息共享的范围和效率。区块链技术具有的特性在以下四个领域带来价值,一是支持了在匿名地址节点之间交换数据,协作性和效率有所提升,有效打破了数据壁垒,二是建立了一套透明、不可篡改、不可逆、可追溯的分布式账本,防止了出现伪证、抵赖、非法信息和不一致性等现象,三是建立了数据交换的标准与规范,保障了数据交换的业务运作、共识决策、权力义务履行、安全审计的实现,四是利用纯记账方式建立了区块链监管节点,提升行业合规监管效率[9]。
在董祥千的研究[10]基础上,我们做了如下工作机制改进:
(1)数据交换网络中的每一个主体都是企业信用数据联盟链与开放数据交换网络中的节点,均具备路由发现、信息交换、数据处理、账本记账等功能,每一个节点之间都能实现直接对接,从而实现点对点、点到多点的交互。通过共识机制和智能合约自动运行,实现数据的登记、存储、更新、交换、备份和验证。
(2)数据交换前,建立数据接口定义描述与查询索引机制,即提取数据包多层面元定义或描述信息(Schema),如数据集所有者、生成时间、模式信息、使用情况(工具、使用频率)等基本信息以及数据集的内容结构信息,以解决后续可连接数据集的高效发现问题[10]。
(3)为了解决交易性能问题,学习北航链的双链架构[11],ABC账户区块链(Account BlockChain)仅存储账户信息和交易后的信息,但不执行交易,TBC交易区块链(Trading BlockChain):TBC仅存储对交易有用的信息并且执行相关交易;所有参与的机构分享元数据(Metadata)及协议(Protocols),但不分享数据(Data就是账户),所有参与的单位都可以与其他单位互相交易,而保证隐私性。这种机制一是意味着在交易后,银行或者机构可以给予访问区块链权限,而底层的客户端的数据只能由相关银行和监管机构可以看到;二是支持交易查询速度可以提升,成本也极大地降低;大量计算也可以并发,也保护隐私。
(4)由于当前区块链技术在存储规模和并发效率上的局限性,区块链数据交换链上目前阶段只保存标识数据包唯一性的数据包哈希值,因此原则上,所有拟交换的数据均以资产数字化方式进行预编码,原始数据储留在由数据提供者完全控制的数据空间或分布式数据共享云平台上,留待核验时调用。
注:资产凭证生成规则是:资产凭证=Hash(认证机构+时间+资产编码+资产文件Hash+资产数量+区块链网络节点信息+其他)。
(5)将数据信任、数据归属权和数据管理等的所有事务处理都作为交易,统一了事务处理逻辑,把资产凭证按UTXO交易记录模型方式发布上链,所有历史交易信息记录均全量保存在每一个区块链数据节点,并以非对称密码学和区块链的块链存储格式方式保证信息的不可篡改、不可伪造性和不可抵赖性。
(6)利用共识算法来生成和更新数据,只有算力大、信誉度较高、或拥有投票权的节点才有机会成为共识节点,从而激励各参与方遵守系统协议,既解决了系统资源浪费也提高了系统事务处理能力。
(7)区块链网络上的任何节点都可以查询整个区块链上的数据记录,这提高了网络上数据的可审计性。同时,区块链的交易记录全网透明公开,消除了信息不对称造成的风险,提高了用户对网络中信息的信任度,有利于审计和监管[12]。
(8)依托大数据技术记录数据访问日志,分析实现数据监控、溯源等操作。
3.4 创新区块链的存储索引服务方式
针对区块链数据领域项目的数据应用共性需求,本项目提出了“集装箱模式”,如图4所示,提供区块链永久存储、快速检索服务,加速可信数据的快速检索服务。
图4 “集装箱”区块链的存储索引服务方式
集装箱是一套开源程序,由非盈利机构部署在云+云储存上,批量存储单个或者多个区块链,为各区块链项目提供集装箱服务,易全球拓展。集装箱装配器可以快速复制、迁移至更多数据“港口”上。港口由当地开源联盟组织自发建立,他们专注投资云服务器、云存储等硬件基础设施。集装箱只支持输入,不支持修改。集装箱根据交易区块定期产生,为交易、历史交易提供交易证明。集装箱区块链节点可自动加入,但要求有集装箱联盟整体认可,通过算力进行存储证明。
集装箱可以保障数据提供方对数据的可控性,从而解决数据共享过程中数据高效发现、交易追溯、安全应用等方面的问题,一是需求方可以通过索引及接口机制获取数据集,二是需求方可以执行数据校验任务,三是数据提供方可以控制用户行为及数据流通。
3.5 基于智能合约的数据协同共享机制
八斗金链区块链平台的另一项关键创新是智能合约建模技术解决方案和智能合约云市场BaaS平台,提供智能合约编辑器、智能合约浏览器、智能合约监控后台等工具,可在线编辑和维护标准以及业务定制两种类型智能合约,支持合约的注册、下载、发布、触发、执行和注销。
本项目利用了上述特性和工具,应用智能合约去实现交换数据的登记、审核、分发、交易、更新以及数据权属变更等管理操作,区块链基础设施平台则采用类似数字化资产的管理模式,自动自主控制智能合约代码的检查、验证、保存并强制按触发条件执行,合约的可靠性和有效性同样采用算法方式进行维护。数据交换联盟体参与各方以不同身份角色进行业务接入区块链网络,共同维护合约规则,智能合约也可以以开源的方式共享发布到智能合约云市场BaaS平台,提升合约的共享、交换效率。
参照相关研究[3,5],相关工作机制如下:
(1)生成智能合约。针对其拥有的数据的管理权限,需要制定一份规范,规定了数据所有人、使用者、受让方的权利和义务,然后承诺以智能合约电子化形式编程。每个参与方都掌握一对公钥和私钥,各权利相关方用各自掌握的私钥进行联合签名以确保合约的有效性。通过联盟的共同认可后,智能合约转变为机器语言部署上链自动执行。
(2)数据读取使用。当数据使用方使用数据时,首先应先基于其公钥解析其身份证明、信用状况等信息验证其权限,再对数据进行处置或应用,例如信息的增加、删除时。
(3)数据变更使用,如发生变更或交叉验证场景,则需要利用私钥进行数字签名,制成共享表单并记账,使用者的新增权利,同样需以智能合约电子化形式编制,并通过网络扩散到整个区块链上的相关业务机构。
(4)数据使用控制逻辑举例。
●数据资产发布上链;
●数据资产的使用随机生成一个序列号;
●用户必须在智能合约生效后,获得该序列号,通过序列号通过接口获取数据资产;
●每个用户使用过数据资产,即在自己的账户上都有这个资产;
●可以通过用户账户资产控制权限及权限泄露控制;
●所有数据资产的提取,必须通过区块链交易成功后,才可获取;
●权限控制规则,可以设定权限系统,根据用户授权模式实现。支持两种访问模式:①自动授权(制定规则,满足规则自动实现);②手动授权(每次访问,都需要人工审批)。
4 项目实施情况与成果汇报
东莞市电子计算中心基于区块链技术,牵头联合多家机构,建立区块链信用联盟链与开放数据交换网络,共同打造科技金融信用服务平台和企业创新大数据系统,涵盖东莞市由41家科技金融工作站形成的科技金融服务网络体系和省、市、镇三级联动数据报送工作机制、科创板454家挂牌企业、12000多家科技企业(全市规上企业和高新技术企业)的科技创新、企业信用等多维度数据资源;借鉴桑坦德企业指数(SEI)的理论基础和GEDI的研究方法,结合企业结构化数据和网络属性数据,首创企业创新能力评价系统和企业创新活跃度评价系统,对企业自身的经营管理、成长能力、创新投入、创新产出、创新活跃能力、科研项目及技术人才等方面进行综合分析与评价;推动金融机构创新金融服务和产品,为包括东莞银行、中国银行、建设银行、招商银行、平安银行、国富创投、融易创投、清大创投、粤科小贷、东莞证券在内的12家信贷、风投、证券机构,提供符合其风险偏好和创新能力的目标企业提供有效参考,促成科技企业融资贷款近47.57亿,其中科技贷款40.18亿、风险投资7.30亿、种子基金投资910万,累计申请专利约1000件,授权专利约1500件,近40家企业在新三板挂牌上市,近30家企业被纳入东莞“倍增计划”试点企业。
5 对未来应用的思考
本文分五个步骤,系统化地提出一种以联盟链方式进行跨部门、跨层级、跨平台的数据开放共享活动的研究。基于区块链的不可篡改、非对称加密、可追溯等特性的解决方案,为实现数据交换的实时性和一致性创造了机遇,为参与各方营造一个高度安全、深度信任的数据流通环境,部分解决了数据开放共享研究领域长期想解决而没有解决的难题。
本项目有很强的现实意义。例如在金融监管领域,监管部门可以引入基于区块链的点对点数据授权共享机制,为互联网金融企业提供可信数据分析产品,通过将区块链存证系统接口前置接入各互联网金融业务平台,能够有效地实现在保护业务隐私的前提下对互联网金融业务进行事前监管,一旦出现违规经营,链上完整、不可篡改的数据记录将作为监管审计调查的有效证据链条。
但是源于当前业界区块链的技术不成熟、发展环境局限和政策障碍,此类解决方案仍然面临不少挑战,有待进一步研究。