APP下载

数据易得真是中国人工智能产业的优势吗

2017-12-29李军

财经 2017年28期
关键词:人工智能算法

隐私数据泛滥短期内降低了人工智能的开发门槛,让算法的设计实现更加简单,但这以数据所有权的粗暴剥夺和算法滥用为代价,不可能是长久之计

11月21日《金融时报》刊出李开复先生写的一篇文章《中国搞21世纪数字经济的条件比美国有利》,文中谈到,中国人已开始在智慧城市开展大数据收集工作,公民的隐私当然会受到损害,但算法也将因此变得更加丰富。中国政府善于——借用馬克·扎克伯格的话来说——“快速行动,破除陈规”。巨大的消费市场,以及持续的增长潜力,将使中国有可能发展出一套颇具经济效益且独立于西方的数字生态系统……

此文令笔者惊诧莫名。李开复先生是IT与互联网行业的意见领袖,前Google公司中国区总经理,更是互联网创业投资行业的领军人物。对于数字化与人工智能的发展,李先生应该有比绝大部分IT与互联网人士更加深刻的洞察。但认为公民隐私数据滥用会推动人工智能和相关的算法演进,中国因此比美国更有利于发展数字经济,却是一种片面与短视的认识,必须加以澄清。

弱人工智能时代的数据污染

人工智能作为一种最新的信息技术手段,核心就是通过模仿人类的学习过程,以海量数据对于特定的复杂数学模型(如神经网络)进行训练,通过数学模型的逐步优化,建立包含智能化业务规则的系统并加以实用。

现阶段的人工智能是弱人工智能,其特点是:1.单一模型只能针对特定应用;2.需要海量的正确数据进行模型训练;3.产生的智能化业务规则可解释性极差。

换句话说,一个弱人工智能系统就是一个专用的无法打开的黑盒子,既没有高适应性,也无法拆解出具体的智能化业务规则,而且高度依赖于参与训练的海量数据。

从目前的业务实践来看,构建人工智能系统,绝大部分工作是数据准备,包括设计数据、获取数据、清洗数据和整合数据等步骤。这部分工作平均要花费60%-70%的时间。对于大型的人工智能系统,一般会安排专门的数据工程师按照数据科学家的要求进行数据准备。

在弱人工智能发展阶段,人工智能系统高度依赖于海量数据训练,并且算法本身对错误数据几乎没有甄别能力。

数据作为整个人工智能产业链的最上游,数据的任何问题都有可能影响到人工智能的产业链中下游甚至最终的全面应用。

试想一下,如果支撑人工智能的关键数据来源是灰色的甚至是黑色的,这就意味着从源头开始的数据采集、处理、传递和数据质量管理就处于失控状态。

数据使用者无法通过追溯的方式了解数据本身的采集要求,更不可能通过提高数据源数据质量的方式训练出更加高质量的模型。在很多场景下,来源不明的数据甚至无法手工剔除错误,以避免对模型训练的干扰。

如果非法数据的提供方出于某些目的对数据进行特定方向的加工处理,并提供给人工智能企业,那基于这些数据训练出的模型就可能受到特定方向的误导,造成模型畸形,未来的全面应用就有可能会面临极大风险。

尽管目前还没有这样的案例出现,但从理论上来分析,这是完全可能的,非法数据来源正在为人工智能应用埋下未知风险。

对于中小企业的人工智能应用,数据污染和算法畸形可能不会造成严重后果,毕竟应用范围有限。但对于涉及国计民生或者是对市场有重大影响的行业,严控训练数据来源、数据质量,是企业和政府必须考虑的问题。

李军

2016年10月美国国家科技委员会公布的《美国国家人工智能研究和发展战略计划》中有七大战略计划,第五个就是开发用于人工智能培训及测试的公共数据集和环境。

这份战略计划中谈到,政府将开发满足多样化人工智能兴趣与应用的丰富数据集,并开放满足商业和公共利益的训练测试资源,以支持企业在丰富健康的大数据环境下加速人工智能技术发展,规避数据缺陷本身带来的潜在风险。

播洒跳蚤,收获的绝对不会是巨龙。不合法不健康缺乏管控的大数据基础,很难构建出有强大竞争力的人工智能产业环境。那些认为损害隐私会带来算法提升乃至获得数字经济竞争优势的想法是片面的、短视的。

隐私滥用动摇数据基础

盗版音乐从根本上动摇了音乐产业的价值链,对音乐产业的生产环节是毁灭性的打击,这个道理也适用于人工智能和数据生产的关系。

对于人工智能应用来说,数据绝不是俯首可得的,这需要一个健康的产业环境,从数据收集、数据清洗、数据匹配到数据集成。一个广泛应用的人工智能应用往往要牵涉到多个产业的数据合作,这也是数据服务提供商存在的基础。

数据服务商获取合法的数据,以脱敏操作为前提进行数据整合,并按照所服务企业的要求提供数据和分析,最终获得自身的良性发展。

所谓数据脱敏,是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号等个人信息都需要进行数据脱敏。

低价劣质的私盐泛滥,正规的盐业市场一定会萎缩。如果隐私数据泛滥,数据服务行业就会受到沉重的打击。

有了近乎免费的数据资源,没有人再愿意为数据支付合理的价格。数据产业最前端的数据准备和整合环节不再能够得到合理的收益,费力却没有回报的数据基础性工作就始终无法健康发展,最终动摇整个数据产业良性发展的基础。

当真正需要使用数据的企业在市场上茫然四顾,发现数据准备和整合的工作必须要自己从头做起,我不知道这算是什么数字化的竞争优势!

整合善用才是关键

在IT和互联网专业人士眼中的大数据,尤其是推动整个数字化社会层面的大数据,有更加宽广的范畴。隐私数据只是大数据蓝图中的小小一块拼图。要让社会全面进入数字化发展阶段,跨行业、跨企业、政企融合后的数据才是构建数字化社会坚实的基础。

猜你喜欢

人工智能算法
我校新增“人工智能”本科专业
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
2019:人工智能
进位加法的两种算法
人工智能与就业
数读人工智能
基于增强随机搜索的OECI-ELM算法
一种改进的整周模糊度去相关算法