大数据技术在健康险的应用
2017-04-10潘安
潘安
【摘要】 随着大数据技术的发展,大数据技术正在广泛的应用于各行各业。随着国家相关政策的出台以及人民生活水平的提高,健康险的发展面临着巨大的前景。健康险和大数据的结合能够在健康险中数据的收集、处理、分析和应用起到巨大的作用。大数据技术在健康险的应用能够促进健康险的发展,使得健康险能够更好的服务人民。
【关键词】 大数据 健康险 收集 处理 分析 应用
当今信息技术的快速发展带动了各行各业的发展,催生了物联网、互联网、电子商务等新兴产业的发展。各行各业的业务带来的数据正在以几何级的形式爆发,传统的数据收集、存储、分析和应用技术已经不能满足要求,这点在互联网行业尤为突出。互联网行业面临着海量的数据资源、快速的数据增长,现有的大数据技术已经在互联网企业得到了探索和应用。
随着新医改的推出以及人民群众的实际需求,健康险得到了迅猛的发展[1]。但是,健康险在发展过程中面临着海量的数据资源,如何收集、处理、分析和应用这些数据资源更好的服务健康险成为亟待解决的问题。
一、当前现状
传统健康险当前得到了迅猛的发展,但是当前健康险面临两大问题:大部分健康险业务处在亏损状态和健康险不能满足用户的要求。从健康险公司的角度,当前需要利用大数据技术[2]对医疗数据等数据进行分析降低医疗风险和经营风险。从用户的角度,健康险公司能够对用户的行为和医疗数据进行分析,不仅做到理赔保障的作用,还能够对用户的健康状况进行干预,减少用户产生医疗风险的概率,使得健康险成为用户的健康管家。
二、技术架构
全面的数据资源是大数据技术应用的基础,数据的处理是大数据技术应用的关键,数据的分析是大数据技术应用的核心,归根结底,大数据技术都是为应用服务的。本节将从健康险数据的收集、数据的处理、数据的分析和数据的应用四个方面进行展开介绍。
2.1数据的收集
传统的保险数据存在数据量小、数据来源单一、数据收集慢的问题。现有包含的数据主要来源于客户的保单信息以及发生理赔时的理赔信息。因此,首先,健康险公司要与外部医疗机构合作获取客户部分医疗信息;其次,需要借助物联网中可穿戴设备等技术,实时并且全面的获取客户的血压、心率等健康信息;最后,借助互联网工具(APP、微信公众号)获取客户的用户社交信息、喜好信息等等。通过这些信息能够建立全方位的客户视图,为数据分析做好基础。
2.2数据的处理
数据的处理主要包括对收集的数据如何组织以及如何存储。现有的数据资源不仅包含传统的结构化数据,还包含实时产生的大量半结构化和非结构化的数据,因此需要借助现有的工具及方法(OCR技术等)把非结构化数据转化为有价值的结构化数据。在数据的存储上,传统的集中式存储已经不能满足要求,需要借助HBase等适用于海量数据实时存储的数据存储技术。
2.3数据的分析
首先,数据的分析需要对各种健康险数据、医疗数据建立分析模型。用深度学习[3]等机器学习方法进行数据的挖掘。例如,利用无标定的医疗数据进行无监督训练,分层训练模型各层参数。
具体的,先用无标定数据训练第一层,训练时先学习第一层的参数,在学习得到第n-1层后,将n-1层的输出作为第n层的输入,训练第n层,由此分别得到各层的参数;基于上一步得到的各层参数进行自顶向下的监督学习(就是通过带标签的数据去训练,误差自顶向下传输,对网络进行微调),对学习到的各层参数进一步优化。
其次,数据分析需要借助强大的计算平台实现分布式并发计算和实时计算。传统的单服务器模式已经不能满足处理海量数据的要求。在处理海量数据的时候借助Hadoop等计算平台实现对大量数据的分布式并发计算。Hadoop通过数据分块及自恢复机制,能支持PB级的分布式的数据存储,以及基于MapReduce分布式处理模式对这些数据进行分析和处理。
MapReduce编程模型可以很容易的将多个通用批数据处理任务和操作在大规模集群上并行化,而且有自动化的故障转移功能。Hadoop以一种可靠、高效、可伸缩的方式进行处理依靠横向扩展,通过不断增加廉价的商用服务器来提高计算和存储能力。
除此之外,借助Spark等实时数据分析系统实现海量数据的实时计算。Spark不仅启用内存分布数据集,提供交互式查询,同时还可以优化迭代工作负载。利用Spark可以支持分布式数据集上的迭代作业,构建大型的、低延迟的数据分析应用程序。
2.4数据的应用
基于数据分析可以从以下方面的应用促进健康险的发展:
第一,通过建立慢病管理等疾病模型实现对用户的健康状况进行干预,减少用户的发病几率,做用户的健康管家;
第二,通过建立医疗付费模型对用户的医疗行为进行干预,一方面降低用户过度医疗的可能性,另一方面减少用户不必要的医疗费用支出;
第三,通过建立医疗风险以及经营风险模型,健康险公司能够有效防止保险欺诈以及控制经营风险。
三、技术难点
大数据已经成为健康险公司发展的隐形资产。但是大数据在健康险的应用存在以下难点:
第一,数据的互联互通与数据共享问题。现有的保险公司面临的数据资源有限,多維度的数据资源是进行数据挖掘的关键,如何实现与医疗机构、社交网络等数据的互联互通是需要解决的问题;
第二,大数据模型的应用问题。以神经网络等为代表的机器学习模型在各行各业掀起了学习的浪潮,但是如何结合医疗知识和大量历史数据结合设计相对准确实用的模型是需要解决的问题;
第三,数据安全性问题。大数据技术在健康险中的应用涉及到用户的医疗信息等敏感数据,如何保护数据的存储安全以及用户隐私是需要解决的问题。
四、结束语
健康险和大数据技术有机结合是健康险发展的必然趋势。健康险和大数据技术有机结合能够促进健康险的快速健康的发展。
大数据技术能够助力健康险公司整合健康险的保险保障、健康管理等功能,进一步打造大健康生态圈,实现健康险更好的服务人民的目标。
参 考 文 献
[1]刘彦欣. 我国商业健康保险发展机遇与挑战[J]. 对外经贸, 2015(4):51-54.
[2]徐子伟, 张陈斌, 陈宗海. 大数据技术概述[C]. 系统仿真技术及其应用学术论文集. 2014.
[3]孙志军, 薛磊, 许阳明,等. 深度学习研究综述[J]. 计算机应用研究, 2012, 29(8):2806-2810.