大数据时代下的产业AI
2017-03-22祁国晟
祁国晟
我们公司成立于2005年,那时我就读于清华大学,在学校宿舍成立这个公司。11年来我们主要业务是数据处理、数据分析,为企业服务。2007年开始公司所有产品和解决方案都以saas和云计算方法向社会和机构提供服务。我们服务约600家企业,其中大多为世界五百强企业,包括司法、行政、政府部门、国家机关和电视台都是我们服务对象。
公司2016年9月23日在纳斯达克上市。过去中国很多知名企业在美国上市,都是消费互联网企业,主要面向消费者,或互联网用户。而我们是第一家大数据企业,我们非常荣幸能够成为一种新兴力量。
目前公司申请发明专利共1728件,其中583件与大数据相关,148件与人工智能相关。过去两年我们公司是中关村发明专利前十强,其他九家都是五千人以上的大型互联网,或科技巨头企业。而我们是唯一一家公司规模在千人左右的企业,所以我们公司在大数据时代下发展人工产业AI和产业人工智能很有信心。
我们公司名为国双,名字是来源于2003年我在大二时所开发的程序。我试想未来计算机是被设计用来做加法运算,因数据量大,需要多台计算机一起做加法。所以2003年时我自己开发了一个程序,可以把四则运算变成加法,由计算机去选择连接多台计算机一起运算。把这样的观点和数据运用在为企业服务之中。
在大学期间,我人工智能这门功课成绩不错。2003年一个作业使我印象深刻,实现A星搜索。在它的运用领域里,是效率最高的一种算法。但是它有一个缺陷,当你在解决复杂问题时,会占用大量内存。在十年前,内存是一个很大的限制,很多程序员宁愿放弃这个算法。我们需要找到一个可以节省内存的方法,并放在产业应用中。
如果把A星算法当作一个游戏没问题,因为数据量很大,放在产业应用中非常复杂。当时还是学生的我想过,可不可以用我们做的分布式求和算法,在内存有限的条件下,与多台计算机连接,内存是否会变的更大一些,便可以有更大空间使用类似的完美算法,但当时没有时间实践。
在看2011年第三版人工智能教材中,看这两个版本教材之间有什么区别。唯一不同是从2003年开始至2011年数据的巨大变化。从2011年后我们使用巨量数据,运用多台计算机协同工作来解决问题。
在大数据时代下产业AI,用大数据方法,把AI放在多台计算机去运作产业。过去十多年来我们公司是从事广告效果监测最早的行业,在过去广告点击作弊非常严重,普遍使用鼠标点击的方法。
我们用热力图方法,抓到每个鼠标点击大多点在一处。在报警信息中,查看是否有某种渠道发来多少无效的作弊流量。今天监测已不再需要人工等条件来发现问题。依靠人工智能方法发现问题。
我们每天有37.4亿行为数据,实时反应互联网用户行为。根据数据我们反点击欺诈能力很强,任何一个广告公司,媒体,如果知道用户在使用国双产品,是不会想要给用户放任何的有问题的流量。
第二我们公司今年已进入司法行业。一年前中国最高法院公开所有判决文书,一份判决文书约为5K,而庭审过程中所记录下来文件可能约50兆。现在已经公开了判决文书有1600万份。举一个例子,在訴讼中大多官司相似,这造成法官、法院,要承担很大的工作量。而案件的共性不该花费法官大量时间。而智能庭前调节辅助系统,可通过人工智能和海量的司法后台数据连接,告知这种情况属于那种法律法规。而且还会显示统计结果,比如这种情况,在其他地区有多少起类似案件,胜诉数和平均诉请金钱和赔偿金额等数据等,今年我们开始在帮助一些法院去运作,并有很好的社会效应。
第三则是信息安全。最近关于信息安全事故频发。而传统信息安全靠防火墙和硬件抵挡攻击。但传统防御并非万能,例如黑客可通过一部手机,从手机防火墙共性一台服务器并把信息偷走。如果用大数据方法,所有服务器的智能设备数据都会被云记录。有一个“大脑”去分析这些行为,自动发现异常数据背后可能存在的危险,解决硬件所不能解决的问题。
做一个总结,什么是产业AI的方法论?首先计算机通过数据发现异常数据。而结果会反馈到计算机并形成了人工智能,这个人工智可不断迭代。我们公司做各种商业、业务、营销、销售、审判流程、在线服务等自动化,而自动化运作会产生数据,如果把这些海量数据用人工智能方法“训练”起来,绝对不止是业务流程情况和关键节点的思考决策。
我们公司真实数据量从2005年至2016年9月成线性逐渐增长。每年TB存储费用,下降速度较快,而所有数据处理的成本变化差异相似。另外我国在这件事情上有一个弯道超车机会。第一,因为我国企业软件发展严重滞后。第二,消费互联网和智能手机终端发展比美国更先进。我国没有遗留信息系统问题,而美国20年一直使用遗留数据。很难解决数据提取和数据一致问题,在AI系统中的无效数据无法产生真正AI,而我国还有很多机会。