浅谈大数据生命周期
2020-09-02宋福琳
摘要:大数据是时代经济的产物,它与传统产品有着很大的不同。随着大数据的运用逐渐增加,大数据产业也在不断地发展,大数据交易则成为创新的商业模式,但大数据交易市场并不完善,尚未形成统一的机制。学习大数据的生命周期,并根据其做出方案调整,有助于完善大数据市场。所以,在本文中,我们在以往学者的研究基础上,进一步探讨了大数据的生命周期。
关键词:大数据;生命周期;数据交易;数据保护
一、大数据生命周期研究的重要性
近年来,大数据已经渗入我们的生活,大数据的时代已经来临。随着数据的不断增长,如何有效利用数据成为一个关键问题。这就需要发展一个完善的大数据市场,以实现高效的数据交易。
目前,国内外有很多大数据交易市场。国内,贵阳大数据交易所等和中国联通、宝钢集团等众多企业合作,利用电子交易系统向全球提供和大数据有关的交易。国外的Azure、Datamarket等,拥有众多公司和机构收集的授权可交易数据。然而,现有的大数据交易市场还存在很多问题。如果想要解决这些问题,就必须了解大数据的生命周期。
数据生命周期是指数据从产生到销毁的整个过程。师荣华等人[1]认为:数据生命周期是根据科学研究的流程发展衍生而来,从数据生成、数据处理到数据存储、归档,最后再利用的一个循环过程。其实很多场景中,大数据生命周期和信息生命周期极为相似。
二、大数据生命周期的研究内容
现阶段大数据生命周期的主要研究范围包括大数据生命周期模型和大数据生命周期管理两个方面:
关于大数据生命周期模型方面。林焱等人[2]认为,进行数据管理的前提是解决数据周期的复杂性,即对数据执行的各种操作:传输、归档、复制、删除等,并提出用DCC、DDI 3.0和UCSD 三个数据生命周期模型来解决此问题。马晓亭等人[3]根据大数据生命周期理论具体分析了图书馆读者隐私保护生命周期管理模型,并根据大数据的生命周期发展规律,提出在完善和优化传统的防火墙和数据加密等安全防护技术外,还应采用大数据安全性评估、云存储安全管理等技术不断提升风险评估和安全管理水平。这些技术可以运用到大数据交易过程的数据保护中。
关于大数据生命周期管理方面。索传军等人[4]认为:数据生命周期管理的核心是在不同的阶段能让各种信息的价值得到体现。企业高效地挖掘出自己所拥有数据的价值,并进行有效管理,从而降低企业的成本,提高收益。
三、大数据生命周期的总结与分析
根据国内外对大数据的研究,我们将大数据的生命周期总结为五个阶段。
(一)第一阶段:数据收集。随着设备的进步和物联网的发展,收集有用的数据变得越来越容易。数据收集分为三个步骤:
1.收集数据,通过不同的收集方法收集不同类型的数据,但所有原始数据由数据所有者存储。
2.加工数据,数据所有者在采集后需要对原始数据进行处理,包括脱敏、分类、清洗、建模分析等,并将清理后的数据进行合理分组。
3.验证数据,为了确保清理后的数据是可用的和有意义的,数据验证是必要的。此外,要随机选择样本数并检查其可用性。
(二)第二阶段:数据分析。在原始数据集的收集和预处理之后,由机器学习和数据挖掘技术支持的数据分析是从数据集中提取商业价值的最重要的阶段。数据分析有很多好处,包括提升社会影响力营销、提高基于客户的营销和销售营销的机会[5]。
(三)第三阶段:数据定价。目前,由于缺乏统一的定价机制,各家数据交易平台定价规则不一,导致数据市场定价混乱,严重影响了交易秩序。而一个合理的价格可以保证数据所有者和消费者双方的经济利益。一般数据平台的定价策略有固定定价、平台预订、协议定价等。目前的定价模型分为两类,一类是基于经济理论的定价模型,比如:成本模型、消费者感知模型、差别定价模型。但是由于大数据产品的特殊性,常见的是另一类基于博弈论的定价模型。比如:基于博弈理论的拍卖定价、讨价还价模型等。
(四)第四阶段:数据交易。随着数据量的迅速增长,数据获取技术也迅速发展,包含了全面内容和细节的海量数据集变得越来越有价值。无论是政府还是企业都需要这样的数据来帮助自己更好地完成工作。
大数据交易的主要目的可以分为两个方面。一方面,数据交易者可以从数据交易过程带来客观的利润。另一方面,满足了消费者对数据的需求。消费者可以利用这些数据来改进他们的产品或服务。例如:阿里巴巴等平台会产生很多大数据,当其中的地理位置等数据被物流公司使用时,就可以满足其合理规划其物流中心的需要,而这些平台也可以获得可观的利润。这是一个对交易者和消费者都有益的过程。如果没有数据交易,数据就是静态的信息孤岛。因此,数据交易让数据流动起来,实现数据的商业价值,建立一个双赢的市场。
与传统商品交易一样,大数据交易最基本的要求是公平和真实。但是,大数据作为一种数字商品,其特殊性又决定了与传统商品不一样的交易手段和方式。因为所交易的大数据商品是虚拟商品,而交易过程又是通过网络进行的,商家和消费者都是“盲”的。這就要求供应商、消费者和第三方平台之间要做到真实和公平。[6]因此,有人提出建立一个具有公平协议的公平交易市场。有人认为要加强保密技术。但笔者认为解决这个问题需要多方合作。首先,需要一个可信的大数据平台。其次,是要规范交易制度、完善定价机制。再次,政府要起到积极的引导作用,尽快出台相关政策。最后就是交易者之间要严守规范,避免权利受到伤害。
(五)第五阶段:数据版权保护。这是大数据生命周期的最后一个阶段,也是不可缺少的一个阶段。因为大数据的复制成本很低,如果买方对已购买的大数据进行了转售,卖方的数据价值将受到重大影响,这样会导致市场混乱。因此,必须对数据的版权进行保护,以确保所有者的合法权利。
目前所拥有的数据保护主要有以下几点:第一是内容的加密、内容水印和数字签名的创建。第二是访问控制。它负责身份和访问管理,并为需要访问受保护的数字内容的用户提供凭据。此外,该组件还能监视授权用户的行为,并为不同的用户设置不同的访问权限。第三是许可证管理。它向授权用户发布许可证,例如密钥、身份验证代码等,并控制和检查许可证的有效期[7]。
四、结语
本文根据之前的研究成果进行了总结分析,进一步了解大数据的生命周期,并对数据交易和数据保护方面进行了着重分析,这有助于解决大数据市场面临的一些问题。本文所提出的关于大数据生命周期的有关内容存在不足之处,恳请各位前辈予以批评指正。
参考文献:
[1]师荣华,刘细文.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011,55(1).
[2]林焱,周志峰.基于数据生命周期模型的数据资源管理剖析[J].图书馆学研究,2016(14).
[3]马晓亭,陈臣.基于大数据生命周期理论的读者隐私风险管理与保护框架构建[J].图书馆,2016(12).
[4]索传军,王涛,付光宇.国内外信息生命周期管理研究综述[J].图书馆杂志,2008(7).
[5]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1).
[6]王德夫.论大数据时代数据交易法律框架的构建与完善[J].中国科技论坛,2019(8).
[7]陈兴蜀,杨露,罗永刚.大数据安全保护技术[J].工程科学与技术,2017,49(5).
作者简介:宋福琳(1994—),女,河南人,南京信息工程大学在读研究生,主要从事会计研究。