APP下载

AI图景下大数据挖掘的风险评估与应对策略

2018-07-11蒋洁

现代情报 2018年5期
关键词:风险评估

蒋洁

〔摘要〕[目的]揭示人工智能(AI)迭代发展中大数据挖掘的风险、成因与对策,为打造智能化协同创新生态链提供重要支撑。[方法]分类探讨AI图景下大数据挖掘中智能采集侵害数据产权、关联勾勒突破数据匿名、黑盒疏漏打破动态平等,以及算法决策冲击自由抉择等风险及其成因,提出数据挖掘的原则与策略。[结果/结论]参与者之间参差不齐的管控意识与处理能力、复杂多元的利益诉求以及缺少政策法规集中调控等导致上述风险,亟待严格遵循平等参与、优质输入、彻底拭除以及公允运转等挖掘原则,主动采取充实数据产权规定、丰富数据隐私条款、明确挖掘主体资质与公权参与标准、推动签署数据跨境统一处置方案以及健全相关救济措施等具体对策。

〔关键词〕AI图景;大数据挖掘;算法决策;风险评估

DOI:10.3969/j.issn.1008-0821.2018.05.023

〔中图分类号〕D92217〔文献标识码〕A〔文章编号〕1008-0821(2018)05-0147-05

〔Abstract〕[Purpose]The paper exposed risks,causes,and countermeasures of big data mining in the iterative development of artificial intelligence.It would help to build an ecology chain of intellectualized synergistic innovation.[Methods]The article classified many risks in big data mining,which included infringing data property in the course of intellectualized data collection,changing data anonymization in drawing the outline of relevance,disrupting dynamic equality by the shortage and loss of the black box,striking the free will by algorithm decision-making mechanism,and suggested data mining principles and countermeasures.[Results]Different controlling ideas and varied management abilities of participants,complicated and diversified interest requirements,and the correspondent lagging policies and laws,brought above risks.It was necessary to abide by big data principles,such as equal participation,high quality inputs,complete deletion,and fair running;enrich provisions for data property right,improve rules of data privacy,define the mining qualification and the entrance criteria for public powers,promote the integrative international scheme about cross-border data mining,and perfect relative remedies,etc.

〔Key words〕AI picture;big data mining;algorithm decision-making;risk assessment

基于全球新一輪科技革命和产业变革中最先大规模应用人工智能的国家将掌握竞争主导权和事务话语权的合理预期,我国从“互联网+人工智能”、“新一代人工智能发展规划”到十九大报告中强调“推动人工智能和实体经济深度融合”[1]以及十三届全国人大一次会议政府工作报告提出“做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用”[2],愈加重视人工智能研发与应用的战略部署。庞大的网民基数、高速发展的基础设施和万物互联的节点布局等为我国带来得天独厚的数据优势。执行逻辑演算的人工智能的底层架构是大数据,通过新型计算集群深度挖掘超大规模数据资源池是人工智能迭代发展的重要支撑。在我国具有中国特色社会主义新时代中算法决策场景(如推荐引擎、预测警务、自动驾驶、智能经营、犯罪评估)爆发式递增之际,亟待有序化智能挖掘海量数据的特征指标与内外关联,推动从数据到知识再到智慧决策的普适进程,惠及新动能培育、颠覆科创合作、加速产业转型升级、优化社会治理格局。

AI图景下渗透各行各业的大数据挖掘既在降低决策成本、提高公权效率、助力供应链优化和跨界合作共赢、改进科创活动的标靶精度与包容互鉴、强化社会服务水平和生态保护绩效等方面充分发挥了正向效应,亦逐渐暴露出智能采集侵害数据产权、关联勾勒突破数据匿名、黑盒疏漏打破动态平等和算法决策冲击自由抉择等严重问题。亟待迅速改变相关政策法规零散落后、矛盾重重且缺少可操作性的荒原状态,高效衡平智能纪元中多方利益诉求,促进社会和谐并提高文明程度。

1AI图景下大数据挖掘的风险评估

在国家重点扶持大数据和人工智能优先发展的宏观战略之下,物联网、云计算与机器学习融通共进导致大数据挖掘呈现出对象庞杂(不断激增的元数据以泽字节为基本单位)、流程繁琐(多元采集、层级存储、深度分析与复合应用)、意义重大(精准评估与有序推演助力经济发展、生态改善、科教进步、国家安全与社会稳定)等特征。外部力量难以有效探查智能挖掘的实际情状、关联抓取零散数据细致准确以及相关政策法规空泛杂乱等使得挖掘流程充斥着诸多风险。

11智能采集侵害数据产权

AI图景下精准程度日益提升的算法决策激励了众多主体积极参与。例如,京东、天猫、亚马逊等在线电商通过采集实际购买数据、产品收藏数据和基础浏览数据,准确计算用户购物意向和具体时间,进而自动推演和提前执行全球货仓调配,大幅提升物流效率并减少备货、发货和退换货成本。但是,作为颠覆性创新原动力的自动化、即时化与持续化的数据采集聚焦远程传感和在线轨迹多元提取的超量零散数据,原初权属模糊与相关协议偏向数据采集者导致侵害数据产权的现象层出不穷。

首先,具备亿级存储容量和超强处理能力的数据采集者通过协议规避责任、夸大安保需要并滥用第三方条款,以最小代價获得海量数据并大幅降低己方保障义务。例如,支付宝将涉及用户授权的《芝麻服务协议》作为附件内置在年度账单极不起眼的位置、使用小号字体、默认勾选同意且协议内容必须点击才能展开,强制用户在不知情、不经意的情况下无条件授权芝麻信用获取和使用个人数据。

掌握互链数据库和智能挖掘技术的采集者甚至通过一体化的中心系统巩固市场话语权,规定数据迁移的苛刻条件、滥用优势地位提高准入要求以便长期占据竞争优势[3]。其次,现阶段自动采集的数据对象包括间接数据和其他渠道数据。这些衍生数据不仅权属模糊,原初主体亦难以察觉渗透采集与深度控制。例如,众多企业利用搜索竞价交易提供的选取机会(购买的广告展示次数与包含用户智能画像的数据供应比例一般为1∶10),间接采集海量个人数据。最后,有关数据公权的可行性政策法规基本是授权性规范,限制权力行使的条款则大多为缺乏可操作性的宣言式或倡议式条款。不仅我国的《国家安全法》、《网络安全法》、《关于电子证据收集提取判断的规定》等宽泛模糊地授权工商税务、纪检司法等部门指令数据采集者进行超大规模报送或数据协查,诱发“挖掘精确而广泛的关于个人家庭、职业、性取向、宗教信仰、政治倾向等在内的丰富细节”[4]的侵权行为,美国、欧盟等甚至为了实现人工智能时代的数据利益最大化,正在推进允许本国公权部门凭借一纸简单传票跨境收集海外电子邮件和其他个人信息的立法,罔顾原初主体的数据权益。

12关联勾勒突破数据匿名

数据匿名流转是个体社交与群体融通中平等对话的重要基石。迅速迈向智能化的后现代社会却处于日趋精密的被监视状态。数据实际控制者和其他挖掘者并不满足于简单调取原初主体自愿披露的数据和其他必要数据,而是运用智能再识别技术复合勾勒零散无序的准标识符属性值与敏感属性值之间的特殊关联,“降低了参与者对于数据隐私匿名存取的信任与参与热情”[5]。例如,某些数据承载量与追踪能力卓越的互联网巨头运用微化识别技术智能获取的己方用户在信息检索、在线交易与线下传输之中潜藏的海量零散数据,在一系列复杂的目标导向的关联算法处理过程中很可能打破匿名状态。

13黑盒疏漏打破动态平等

从雅虎错将黑人照片标记为“猿猴”到亚马逊智推系统偏袒己方及合作方商品,AI图景下大数据挖掘充斥着数据冗余、输入误差、人为误导以及算法黑盒等固有疏漏,难以阻却科技进步助推社会分工重新整合时附随的不平等。首先,某些原初数据主体、数据实际控制者及其他挖掘者假造挖掘内容、篡改分析结果以控制市场活动、舆论导向与政治格局等等,打破整个社会的动态衡平。其次,运用迭代智能算法的大数据挖掘拉大了通晓数字工具的群体与无法参与数字系统的群体之间的差距,持续强化城乡区域性与贫富阶层性马太效应,变相破坏平等竞争的生态环境。最后,基于自动采挖与黑盒输出的个性化运营存在种族歧视、地区歧视、职业歧视等严重侵害公平交易权的问题,相应创新业态导致劳动参与率进一步衰落,加剧低收入与低技能人群的不平等[6]。例如,优步(Uber)基于大数据分析的智能加价算法并未给司机群体带来更高收入。又如,纽约教师考核的智能算法机制基于对诸多遴选变量的深入分析,使得学校里最优秀的老师得到了最差的评价等级。

14算法决策冲击自由抉择

大数据挖掘的核心是把科学计算模型运用到海量资讯上来预见发生概率并做出最优决策。在排除系统跃迁时的输入瑕疵与数据冗余的理想环境中,多维度、多来源、多形式爆炸性增长的元数据集成共享与通过巨量交叉复用验证征兆与变化规律发掘事件概率的算法决策能够精准预判金融波动、产销变化、环境变迁等等,促进信息技术与工业生产深度交融、实现智能感知与公共资源协调共享,积极构筑数据主导决策的创新发展模式。

然而,人类千百年来一直在追求自由意志。自由选择是实现个人价值、企业创新与政府公断的特殊源力。AI图景下大数据挖掘的广泛应用导致人类族群愈加依赖程式化算法决策,逐渐丧失冒险精神与创新意识。例如,数据掮客、数据实际控制者或其他挖掘者通过发掘海量碎片数据深层关联完成需求和市场的全景洞察,依赖算法决策精准改善产品服务和运营模式,在一定程度上放弃了传统的试错创新,严重冲击自由抉择的投资惯例。又如,基于海量基因数据与复杂环境变量智能抉择生活、就业、社交与其他个人活动的算法模型已经初具雏形,变相剥夺社会个体对于生存与发展的自由选择权。极端数据主义者甚至认为,随着全球智能数据处理系统变得全知和全能,占据足够的生物特征数据和计算能力,会比人类自己更好地理解人类,“听从自己内心,做真实的自己”的抉择自由会逐渐失去。

2AI图景下大数据挖掘风险的对策

全球人工智能高速发展的多边博弈中大数据挖掘对于资源获取、存留与分配的重要价值日渐凸显。基于广域采挖的算法决策节约成本、避免重复、加速革新,推进科教发展、经济增长、环境改善并提高国家位次。缺少政策法规集中管控的大数据挖掘的盲目扩张充斥着智能采集侵害数据产权、关联勾勒突破数据匿名、黑盒疏漏打破动态平等以及算法决策冲击自由抉择等诸多风险。亟待寻求社会发展与权益保障之间的平衡点,切实维护原初数据主体、数据实际控制者及其他挖掘者的合法权益,推动社会主义现代化建设。

21明确挖掘原则

遍布全球的海量传感节点、持续提升的智能运算能力以及风险频发的聚析共享等使得满足时效性、准确性与实用性的大数据挖掘成为高效益与高风险并存的矛盾载体。亟待明确平等参与、优质输入、彻底拭除以及公允运转等挖掘原则,有效表达各方自由意志,衡平多元利益冲突。

211平等参与原则

AI图景下大数据挖掘改变了分离数据聚析的传统方式,致使数据实际控制者和其他挖掘者依据优先协议嵌入智能区分程序,通过复合挖掘增加存储容量与不透明传输比率,占据战略价值链的较高位置,严重冲击自由存取。某些别有用心的挖掘者更是通过表面普惠的缺陷性算法决策潜移默化地向广大受众强加己方意图,拉低整个社会的平权指数。例如,美国加州、纽约州、威斯康辛州等使用的各种看似公允的犯罪风险评估系统和智能量刑系统等充斥着严重的种族歧视。贯彻平等参与的挖掘原则,有助于原初数据主体了解挖掘目的、方法、过程及风险收益,确保参与者获得平等的数据表达机会。

212优质输入原则

智能纪元中数据实际控制者和其他挖掘者通过多种工具无序堆积数据碎片、以最小代价再识别敏感数据的过程中,直观可量的目的限制和数据缩小等标准是避免权力滥用、支撑匿名挖掘与维护合法权益的重要举措。不仅需要将数据收集限制在实现合法目的必需的最低范围并及时删除无用数据(基于特定期许的数据再识别必须详细阐明理由和内容且透明挖掘不得超出最初声明范畴),还需要确保优质输入原初数据。经典的谷歌流感趋势预测失败事件的一大原因是:众多用户在媒体对于谷歌首轮取得较好效果的流感预测进行过度渲染后,出于好奇目的搜索相关关键词的海量数据被误判为关联数据输入了测算系统。

213彻底拭除原则

AI图景下技术提升、成本下降以及数字记忆无障访问等使得“超出传统的获取、存储、管理与分析数据集成”的大数据挖掘能够长久留存和有效控制巨量资讯,在一定程度上侵害社会主体享有的合法拭除过往的基本权益。有必要严格遵循彻底拭除的挖掘原则,完整、及时地清除未经授权或授权超期、超范围的数据资源并限制相关挖掘结果无序披露,实现个体权益保障与社会有序发展的微妙平衡。例如,神经网络模型在涉及医学诊断、自动驾驶和智能家居等的数据采集与应用过程中需要创建既能适应新信息又不忘记已学内容且不保留相关原始个人数据的机制。

214公允运转原则

新时代中大数据挖掘渗透诸多领域的终极目标是整个社会的和谐发展。亟待严格遵循公允运转原则,避免挖掘过程中的弱势偏见与不公平待遇,建立数据验证、痕迹追踪以及密钥技术指标体系,完善公权部门监管职责认定标准、违规惩处方式以及数据权益救济机制等等,确保大数据挖掘的透明化、客观化和有序化。

22完善具体举措

AI图景下构筑合法、有序、科学的大数据挖掘机制亟待细化风险应对举措,预防并惩治各参与方的违法违规行为,确保我国在新一轮大国博弈中占据优势地位。

221充实数据产权规定

有序共享是大数据挖掘科学运作的重要前提。数据资产的权属认定关系到原初数据主体、数据实际控制者和其他挖掘者的不同利益诉求。社会公众对于大数据挖掘的排斥來自数据权属模糊、不透明处理与结果滥用带来的不安全感[7]。亟待在肯定数据产权性质的基础上,明确数据占有权、知情权、自主披露权、封锁权、更正权、删除权、收益权以及救济权等等,保障原初主体能够自主使用基础通讯设备并掌控数据储流状况。同时,当前的大数据挖掘内嵌着操作主体对海量数据的主动解读,结果可能受到人为干预。亟待明确数据实际控制者和其他挖掘者应当承担的告知、保密、返还合理收益等法定义务,实现海量数据采集、存储、流转与使用的透明化、有限化和合法化,避免数据实际控制者和其他挖掘者利用资源优势和技术领先肆意违法违规。

随着多元数据资源池飞速集聚数字印迹,迫切需要保障原初主体自主加入、随时转移或清除数据等基本权利。挖掘活动必须取得原初主体的明示同意并向目标对象预警违法行为且按规按需彻底并行销毁原数据库、备份数据库乃至缓存信息与痕迹记录。同时,立法构建明确的数据使用时效机制、新技术强制适用机制、数据交易机制以及相关违法惩罚机制等等。尤其是在数据交易日益勃兴、相关争议频繁发生的情况下(如菜鸟与顺丰有关“信息安全”和“个人隐私”之争的真实动机是用户数据控制权),有必要迅速建立统一的数据产权登记和评估制度、交易标准、相关信息披露和跨境数据交流规则等等。

222丰富数据隐私条款

AI图景下国家安全、经济发展、环境保护、公共健康及技术进步等的实际需要使得大数据挖掘活动必须寻求各方利益的动态平衡。包括姓名生日、住址单位以及生物特征等在内的验证信息曾是在线数据的主要加密工具,却不足以承担智能挖掘活动中隐私保护的艰巨任务。智能推送原初数据创建人、创建地点和创建时间等痕迹记录有可能泄露私密信息,零散数据聚合分析亦是暴露隐私的危险因素。整个社会对定制服务、个性化教育、精准信用评估等的迫切需求刺激急于发掘更大消费群体或转售分析结果的数据实际控制者及其他挖掘者肆意侵害数据隐私。日益复杂的智能算法借助晦涩的授权条款蒙蔽处于资源劣势的社会公众。某些原初主体甚至因为贪恋微薄的数据红利而漠视自动定位和推送服务获取并使用敏感数据的巨大风险。

虽然《网络安全法》中要求“明示收集、使用信息的目的、方式和范围,并经被收集者同意”,中央网信办、工信部、公安部、国家标准委等四部门联合启动的“个人信息保护提升行动”对淘宝、微信、百度地图、京东商城、滴滴出行等网络产品和服务的“隐私条款内容、展示方式和征得用户同意方式”等进行重点评审,却长期缺乏具体、翔实、可操作的数据隐私条款。亟待“通过健全数据隐私法律规范,保护和改进控制他人数据的模式”[8],基于数据价值高于潜在侵权可能性的风险矩阵,明确保障数据利益最大化与数据隐私风险最小化的基本原则、价值导向及必备条款,形成保护AI图景下海量数据挖掘关涉隐私权益的长效机制。全面规定大数据资源池的安全认证指数、隔断式数据区与密钥认证标准;建立透明化的敏感数据来源追溯与智能脱敏系统,要求挖掘活动按照统一技术程序漂白数据,积极读取与响应原初主体的谢绝意向;不仅避免数据实际控制者向原初数据主体强加义务,还向所有参与者进行即时的增强式告知并取得明示同意,特别是“承诺不得再识别既定数据,即任一系统参与者未经数据权人特别允许,必须保持数据原有的分离状态”[9];妥善圈定关联分析范围与结果分享形式,严格限制有效管理必需的数据挖掘并禁止未经授权的二次传播;广泛应用数据隐私影响评估制度与交互式智能监控认证,明确各参与者的保障义务与侵权责任,全面落实符合文明社会发展理念的大数据战略与人工智能规划。

223明确挖掘主体资质与公权参与标准

当前正值智能化数据挖掘模式积极探索与应用发展的关键阶段,难以遏止蓝海市场中不断膨胀的炒作行为与恶意牟利。商业组织以寻求合法合理与高收益之间的动态平衡为首要行为准则。严格规定链网数据库复合构筑的挖掘主体资质是避免数据实际控制者和其他挖掘者投机取巧、恶意操控数据流向并制止未经授权的挖掘活动的重要措施。虽然建立智能数据中枢的挖掘者企图通过缓和数据源之间的固有隔阂汇总数据湖,却难以磨灭挖掘过程的人工痕迹。事实上,AI图景下大数据应用的成功要诀在于高效聚合能够从海量数据碎片运行规律中推断原创行为的诸多触点并构建相关算法模型的特殊人才。这些数据科学家在缺少外力监督、执业规则培训以及相关政策法规和行业自律干预之下,容易在巨大的经济利益与强大的精神满足感的驱使下侵害数据权益。有必要明确挖掘主体及其从业人员的法定准入标准并清晰表述特殊职业操守要求与相应监管机制。

虽然公权主导和参与大数据挖掘是保障国家安全、维持社会稳定的重要举措,但各级各地公权部门持续开展未经同意的挖掘活动严重侵害合法权益。作为数据资源最大产出、收集与使用方的公权部门长期掌握居民身份、环境、经济与文化等统计数据,务须尽快明确公权参与挖掘的标准,确保其仅在得到合法授权且及时通知的情况下直接采集或通过数据实际控制者间接获取数据,提升公权参与的公信力。

224推动签署数据跨境统一处置方案

当前门槛低、环节少、周期短的跨境电子商务蓬勃发展导致海量数据在全球范围内大规模无序流转。跨境数据实际控制者和其他挖掘者最初基于规避政策法规、多元备份及降低成本等考虑,往往将储流服务器置于不同国家和地区。AI图景下迅速提升的技术能力使得挖掘者能够突破海内外数据连接的防御体系,在悄然侵入传输信道后有选择地获取散落全球数据中心的优质信息并进行低成本处置。主要国家和地区在数据资产收益、数据主权与流转安全等综合考量之下,基于大数据产业竞争实力与安全保障价值观的不同,先后采用殊别的跨境数据挖掘调控方案。主要包括鼓励原初数据自由流动的美式规范、主张相关数据服务器本土留存的俄式規范以及提出有限允许数据跨境处置的欧盟规范等等。妥善解决跨国数据流转危机、安全技术障碍与相关权益风险等迫切需要通过衡平国家安全、经济发展与公众权益等的大规模国际谈判,积极签署实现跨境数据合法化与透明化智能协作处置的细化方案,构建科学合理的全球数据资源共享挖掘机制。

225健全相关救济措施

AI图景下大数据挖掘成效的关键在于数据源规模。确保原初主体合法权益受到侵害并造成损失时能够及时获得有效补救是激发公众参与热情、逐步充盈数据资源池的必要条件。然而,绝大多数可采信证据往往把持在数据实际控制者和其他挖掘者手中,受害者被迫依赖数据信道重组证据链大幅增加举证成本。有必要迅速健全相关救济措施,强化数据挖掘的公权保障,建立高素质监督队伍,要求违法违规主体承担惩罚性赔偿责任,发挥电商协会、互联网协会、消费者协会等民间调解机构在高效解决相关纠纷中的重要作用。

3结论

AI图景下广域渗透社会生活的海量数据集聚、存储、处理与流动中充斥着侵害数据主权、数据安全、数据产权、数据平等与数据自由的诸多风险。亟待构筑衡平社会发展与权益保障的原则体系,完善合法合理且有序科学的具体对策,缓解基于大数据的智能算法决策中频繁出现的黑天鹅事件,避免赛博世界演变成全景式监狱,加快建设创新型国家。

参考文献

[1]习近平.决胜全面建成小康社会夺取新时代中国特色社会主义伟大胜利[EB/OL].http://news.xinhuanet.com/2017-10/27/c_1121867529.htm,2018-02-02.

[2]李克强.十三届全国人大一次会议政府工作报告[EB/OL].http://glzx.njgl.gov.cn/art/2018/3/5/art_48375_2476217.html,2018-03-18.

[3]Facebook Terms of Service[EB/OL].http://www.facebook.com/legal/terms,2018-02-02.

[4]United States vJones,132 SCt.565 US(2012)[EB/OL].http://en.wikipedia.org/wiki/United_States_v._Jones_,2018-02-02.

[5]Ann Cavoukian,Khaled Emam.Dispelling the Myths Surrounding DE-identification:Anonymization Remains a Strong Tool for Protecting Privacy[C].Springer Berlin Heidelberg,2011:141.

[6]Terry Gregory.The Risk of Automation for Jobs in OECD Countries:A Comparative Analysis[C].OECD Social,Employment and Migration Working Paper,2016:189.

[7]Lev Manovich.Trending:The Promises and the Challenges of Big Social Data[EB/OL].http://manovich.net/content/04-projects/067-trending-the-promises-and-the-challenges-of-big-social-data/64-article-2011.pdf,2018-02-02.

[8]We Believe America:Republican Platform[EB/OL].http://www.gop.com/wp-content/uploads/ 2012/08/2012GOPPlatform.pdf,2018-02-02.

[9]The Working Party on the Protection of Individuals with Regard to the Processing of Personal Data[EB/OL].http://ec.europa.eu/justice/policies/privacy/docs/wpdocs/2011/wp187_en.pdf,2018-02-02.

(责任编辑:孙国雷)

猜你喜欢

风险评估
H银行企业信贷项目风险评估分析