以大数据与人工智能赋能新时代
2019-01-26傅士光
经过多年的技术积累,久其不断优化应用和底层核心技术,并且拥有丰富的、自主知识产权的大数据应用平台及工具产品。
—北京久其软件股份有限公司CTO傅士光
根据IDC的数据,在数据大爆炸时代,我们利用的数据如沧海一粟。在海量的数据中,公共事业、政府、教育还有媒体、医疗保健这类数据每年的占比基本都在93%以上,而在这里面中也有大概82%以上的数据是非结构化的数据。到2020年,基本上平均每个人每分钟要产生1.7兆数据。在数据爆炸时代的背景下,我主要想谈以下几点内容:当前的新时代是什么?久其软件在新时代定位是什么?久其在新时代、新时期基于产品行业解决方案为用户做了哪些实践等。
从国家层面看,近年来国家基于互联网、大数据和人工智能与实体经济深度融合的发展,出台了很多相关政策并作出了实际的支持、推动。
在数据大爆炸时代我们发现了新的“四化”,是哪“四化”呢?其中包括世界数字化、数据资产化、连接全球化、应用智能化。
当然,提供智能化应用的时候仅仅考虑国内是不行的,需要跟全球来进行连接,并且要结合底层技术以及平台工具,最终为我们客户去赋能解决企业的问题。
久其的大数据战略,不同于业内传统厂商。久其是一家具有横跨多条技术路线的、为客户赋能的综合性大数据服务提供商。经过多年的技术积累,久其不断优化应用和底层核心技术,并且拥有丰富的、自主知识产权的大数据应用平台及工具产品。未来,久其大数据将深耕于此,在保持行业影响力的基础上,做大、做深、做强。
久其从1997年成立到现在,拥有很强的综合实力,归纳起来总共有8大能力,分别数据采集、建模管理、数据集成交换、存储处理以及数据资产可视化、智能挖掘和数据质量管控。久其大数据能力也从传统统计分析延伸到了模式概括和知识发现,结构化数据分析延伸到了非结构化的文本数据,辅助理解的数据可视化分析延伸到便捷化和智能化分析能力。
引入进来各种各样的数据之后,该通过什么样的数据治理方案来处理?久其有一个自主研发的、基于大数据战略的数据库,名叫Bi g DB。各种数据汇集到我们这个数据平台之后,可以通过调用各种数据挖掘的算法来对这些数据进行处理,尤其是文本和视频类的非结构化数据。对接入的数据进行结构化之后,就可以进入到大数据库,然后紧接着进入各种主题数据分析库。在数据资产管理和管控方面,我们可以提供可视化的数据底层或大数据应用。从数据采集这块看,我们跟政府和交通部门合作的时候,我们对物联网的数据也有一套完整的架构,数据通过各种方式采集进来之后,可以通过Fl i nk流处理引擎进行处理,实时性非常高。
有了各种各样的互联网的文本数据、视频数据,还有传统政府里面数据库的数据之后,需要一个强大的数据资产管理平台,真正把数据变成资产,并且能实现把整个自己的数据系统管理起来。这样从产品角度看,将来找数据的时候就很方便了,可以去搜索查找这些数据,数据找到之后,可以在资产平台上看到数据有什么特征,也可以做简单分析。实现数据资产管理之后,各个部门之间需要对数据进行交换,我们也提供了完整的数据交换平台,包括从各个系统的源端、各个系统目标端,以及为中间的流通提供了各种各样的监控、授权,从而达到交换的质量保证、安全保证和脱敏。
在大数据之外,久其也发现越来越多的客户需要结合AI来分析处理数据,进而真正帮他解决各种各样的问题。久其也在这一两年做了一些实践和探索,主要是在三大领域:一是财务领域,实现智能报账、客户预测、智能审核。二是视频领域,有文本要素抽取、视频分析、视频数据结构化。三是创新应用方面,包括法院智能分析、信访智能分析、智慧监狱等。
通过对法院裁判文书这方面的了解,我们发现大部分的法院中,裁判文书基本都是以文本化的数据呈现,因此,后续的分析和应用非常困难。我们通过AI算法,把这些数据变成类似结构化的数据,后续的分析就变得更加容易。
在医疗领域,最有价值的有两部分数据,一是住院病例数据,另一个是诊断中的影像数据。我们对住院病例采用AI的算法分析,首先把病症、诊断,病史这些信息提取出来,然后将这些文本数据进行结构化处理。结构化之后采用深度学习的算法再进行分析,我们发现这样的提取准确率非常高。在此基础上我们跟协和医院合作,对腹主动脉瘤的形成动因有了充分了解,并且还分析到这些疾病跟日常的生活习惯之间的联系,价值很大。
关于智能分析的思考,在特定的一些行业里面,用户可能把各种各样的分析报表做好了,并且打上了标签,做到了从语义理解这个角度去分析,包括整个完整的数据进来之后可以建立知识图谱,可以将真正想要的数据自动化组织和呈现。另外,我们在视频处理方面做了大量结构化的工作,包括搭建视频分析引擎,这些同样也是把视频对应的数据结构化出来再做数据调取,价值判断和分析。