TD数据仓库的海量存储
2018-11-24颜廷熙
颜廷熙
摘 要 TD (Teradata Data Warehouse Appliance) 广泛适用于新采用数据仓库或想要补充现有企业级数据仓库的公司。该平台可用作整合数据仓库、周期性数据集市、灾难恢复或应用程序实施于 EDW 中前的测试分析沙箱。是数据仓库一体机 ,能对数据仓库的海量和长期存儲,并增加您的数据和分析功能。
关键词 数据仓库 海量存储 数据恢复
TD数据仓库是集成、细致和丰富的数据的一个集中的和历史的存储库,为多个集团的多决策应用程序提供支持并且是企业数据分析的单一来源。
TD(Teradata)数据结构-逻辑结构:
1 TD优势说明
以城市轨道交通6条线路为例;提供轨道交通数据源的多元异构数据及衍生数据的海量存储和长期存储。
数据采集平台系统(DAP):按每年300G;清分系统(ACC):每天15M,按后期增加票种票价计算,每天约30M,合计每年20G;线网运维管理系统(OMC):按每年20G;应急指挥中心系统(ETC):按每年20G, 则上述数据总计:DAP+ACC+OMC+ETC=300*6+20+20*6+20*6=2060G,约3T。按100T容量计量,预留TD数据空间预留20T,则可以存储约25年。
在实际建设使用过程中,还可以采用数据压缩手段进一步提高数据容量。数据压缩的将采用MVC(多值压缩)、ALC(算法压缩)、BLC(块压缩)三种不同手段,根据不同数据情况采用适用的方式进行压缩处理。
ALC(算法压缩):允许用户自MVC(多值压缩):对于大表中经常出现重复值的字段,通过在table header存储字段值,在记录行中仅存储标识符的方式进行数据压缩;
定义压缩和解压缩算法,或使用Teradata标准函数来支持数据压缩;算法压缩必须以UDF的方式预先定义,并且在建表语句中详细说明;
BLC(块压缩):BLC块压缩是指对于此表的整个磁盘数据块进行压缩,以减少数据存储空间。
2效率高
采用 MPP(Massively Parallel Processing,大规模并行数据处理系统)架构设计,构建类似“动车组”的一体机数据处理系统,中心包括12个一体机单元,各一体机单元并行处理,集中调度管理。
每个一体机单元能够支持120个会话并行处理。每个会话能够并行处理80个线程。
实例:使用刀片70万数据匹配出行数据、约120分钟;TD约10分钟。
Teradata数据库可实现负载均衡和负载优先级的管理。通过系统信息能够侦测报表和查询在系统响应时间上是否有提升,这些提升可以通过Teradata负载管理以及负载限制来实现。负载管理的原则是为需求资源较少的负载分配较多的资源,使其能迅速结束,从而很快释放出资源。
同时根据TEADATA虚拟存储技术从数据“温度”这一视角来自动、智能地进行数据放置管理的数据库管理软件。这一内置的智能可以在不干扰用户或管理员的前提下自动将使用最频繁的数据或者叫“热”数据放到速度最快的存储单元并将使用频率最低的数据或者叫“冷”数据 放到速度最慢的存储单元。数据的合理放置可支持热数据的高性能访问从而助力实时决策,同时在数据渐渐成为历史或日益变“冷”并迁移到成本较低的磁盘时提供自动化的生命周期管理流程。这样客户就能以较低的成本实现存储容量最大化,并获得更高的性能。
3可靠性高
(1)能够提供存储数据的安全保护功能:Teradata用到的有RAID1和RAID5技术。
(2)Disk Arrays -磁盘阵列,Teradata用到的有RAID1和RAID5技术。
RAID1的特点:数据镜像,提供最好的数据可用性和性能,但是空间损失很高;
优点:数据可用性最高,更高的读能力,写操作没有性能损失,快速恢复能力;
缺点:50%的空间损失。
(1)Clique - node 级的容错机制,通过Vproc Migration技术,当一个TPA节点失败时,Teradata自动重启然后原来运行在失败节点上的Vproc漂移到clique内的其它节点上运行。
(2)Locks -保证数据一致性,防止多个用户同时修改相同的数据。
(3)Fallback - AMP级的容错机制,可以在数据库级和表级定义。当一个AMP因为硬件或软件的原因掉线的时候,使用Fallback机制的表对用户都是可用的,当此AMP被修正并重新上线时,关联的Vdisk上的数据根据Down-AMP Recovery Journal自动恢复。
参考文献
[1] 李伟章,徐幼铭,林瑜筠等.城市轨道交通通信[M].北京:中国铁道出版社,2008.
[2] 曾小旭,刘庆磊.地铁网络化运营集中式控制中心架构方案研究[J].城市轨道交通研究,2016(04).