重新定义数据智能
2020-10-20范晓忻
数据智能时代是大数据与人工智能有机结合的新时代。人工智能与大数据的关系就像蒸汽与蒸汽机。大数据就像蒸汽,人工智能就像蒸汽机,把蒸汽转化为先进生产力。
—金电联行(北京)信息技术有限公司董事长范晓忻
数据智能曾被看做是各个行业的催化剂,不属于基础建设领域。但现在,数据智能领域已经成为了一个重要的基础建设领域。我们对大数据的理解最初来源于4个“V”,即真实性(Veracity)、大量化(Volume)、速度化(Velocity)、多样化(Variety)。现在大家对4个“V”这个概念的理解已经不尽相同。我们把真实性换成了价值密度(Value density)这种特性,因为我们认为只有价值密度低的数据才是大数据。如果价值密度较高,数据就不能被称作是大数据,而应该被叫做结果数据,因为这些数据无法进行进一步地多维分析。只有对价值密度非常低的数据进行多维分析,才有可能产生有影响力的结果。
下面我们谈一谈数据约束力,数据约束力改变了合同履约率低的现状,如在交通方面,强大的摄像头形成了数据的约束力。国家相继出台的政策旨在通过打通各个委办局的数据,形成事实上的数据约束,提升整个社会和经济活动的效率,其中包括金融活动的信用水平。
我们建立了五层架构来支撑信用建设实现飞跃式进展,这五层架构包括:其一,大数据基础平台和大数据IO控制器。以计算机为例,大数据基础平台类似于主板,IO控制器类似于南桥。其二,大数据管理器,即数据关系管理平台,类似于北桥。其三,大数据中央处理器类似于CPU。其四,大数据的建模平台几乎应用在所有的模型生产、调整、投产领域。其五,数据应用AI处理器,包括我们的方法论、知识图谱等,相当于计算机的可编程控制器。这五层架构实现了数据从接入到管控、数据的标准化、数据之间关系的标准化、原数据管理,再到数据在整个体系内的生产调动、模型的生产调度,构成了数据生产的闭环。
我们的平台需要有自主可控能力、产品封装能力,在数据生产、处理、交付的过程中要尽量排除人的影响。人工智能平台需要有实时计算的能力,只有在不需要人力的情况下,我們才能实现从数据处理到应用的全流程自动化和人工智能的普适化。
我们的核心技术是“星簇”和“方舟”,“星簇”可以理解为大数据时代的CPU。如果我们把大数据与汽车生产车间进行比较,“星簇”就类似于整条生产线,其中包括设计、施工、交付、运行、监控和粗加工等环节。每一个汽车厂都有零部件加工的系统,一些大的零部件加工环节也可以在“星簇”平台里体现。如今,“星簇”平台已经拥有2500多个组件,可以支持用户对数据的实时处理。
“方舟”平台可以理解为大数据时代的GPU,它与市场上比较流行的建模平台有一些区别。建模平台的作用是将人从模型的建构中解脱出来,通过将经验与模型的构建相结合寻找合适的模型,本质上是通过算法寻找算法,而不是人为地寻找算法。“方舟”和其他建模平台的区别在于“方舟”能够基于因果推论进行机器学习。我们的人工智能算力不足,只有算力足够,人工智能才有机会接近人的思维模式,但很多规律我们已经获得了经验,这些经验在社会经济生活中已经有所体现。因此,我们结合经验和算法进行了深入的研究,并开发了基于因果推论的机器学习模式。机器学习的过程包括三个阶段:使用案例找原算法、使用原算法找算法、使用算法找模型。
下面我来谈谈数据迁移。数据迁移作为一个新概念,引起了非常大的关注,原因有以下三点:第一,分布式计算已经成为现今相对热门的体系,同时也是未来的主流体系。在这种情况下,传统的架构面临巨大的挑战。第二,随着互联网金融的发展放缓,大量的数据转入传统金融机构。在这种情况下,传统的数据仓库难以承载来自移动端的压力,金融机构要从传统的数据仓库向新的架构转移。第三,从源头到流通端再到应用端,隐私数据作为结果数据受到了重重保护,这些数据的使用受到了极大的限制,企业对大数据的需求变得非常迫切。
为了支持实体经济,破解中小企业融资难的困境,我们提出了两个模式:嘉定模式和芜湖模式。嘉定模式是一个比较成熟的,适合在相对发达的、优质中小企业相对集中的地区发展的模式。嘉定模式通过征信机构和政府的合作,把合适的金融产品推送给企业,再将合适的企业推送给金融机构,以此来做到精准匹配。而芜湖模式是一个四方参与、四方受益,最终实现最大杠杆效率的模式。这个模式是由政府主导建立产融平台或融资平台,在这个平台上促成金融机构和企业的合作。芜湖模式与嘉定模式最大的区别在于政府为芜湖模式提供后备资金或风险准备金等,政府可以将小微企业推送给金融机构,政府的后备资金还可以为金融机构提供保障。征信机构在这里面起到非常关键的作用,征信机构通过测算数据,并与政府沟通,确定支持企业融资的比例和要扩大多大的规模才能使双方的信息对称。因此在风险可以得到有效控制的情况下,金融机构帮助优质企业融资的速度将大大提升。
数据智能、人工智能和大数据之间互为因果,没有数据支撑的模型也不可能获得成功,因此,数据智能是未来极为重要的发展方向。
(根据演讲内容整理,未经本人审核)