当AI遇到大数据

2021-09-07郭洪平

方圆 2021年15期

关键词：个人信息伦理人工智能

郭洪平

网约车与出租车哪个更便宜？苹果手机与非苹果手机，谁打车更贵？新客户打车便宜还是老客户打车便宜？

带着这样的疑问，复旦大学教授孙金云带领他的学生，一个月时间内在北京、上海等5个城市打车800余次，花费5万多元，以不同的手机、不同的距离、不同的时间段进行打车对比后，写出3万多字的《打车软件出行现状调研报告》。

孙金云就是要搞清，网约车是否存在“大数据杀熟”的情况：与非苹果手机用户相比，苹果手机更容易叫到舒适型的车辆，但优惠更少、折扣更低，他们称之为“苹果税”，且老客户比新客户打车更贵。调研说明一个问题，平台的算法确实有问题。

孙金云感叹，大数据、人工智能算法的不断精进，使得网约车平台可以凭借大量的客户数据预测、引导、操纵客户的行为。在极端情况下，平台甚至还会使用一定的“技术手段”让用户产生错觉，进而对其产品产生巨大依赖。

2020年下半年，上海市消费者协会曾做过一个试验：他们使用多个手机终端，模拟不同收入群体消费者使用相同的App，并进行一段时间的虚拟人设操作。经过测试，他们发现不同手机接收到的广告有很大差异。其中，模拟较低收入群体的手机，收到的差不多全是低价劣质商品和网贷广告。

业内专业人士表示，随着科技的发展，大数据、人工智能的发展和关联愈加紧密，已深刻影响着社会生活。大数据技术依靠不断采集、沉淀、分类等手段积累海量数据;人工智能则依靠大数据的支持和采集，运用人工设定的特定性能和运算方式，实现人的某种意图。

大数据技术把海量数据的集合起来，人工智能则是对这些海量数据的智能化处理和应用。从根本上说，人工智能离不开大数据，它依赖大数据平台和技术，帮助自已完成深度学习进化。如果把人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿，而某一领域专业的、海量的、深度的数据就是喂养这个天才婴儿的奶粉。奶粉的数量决定了天才婴儿是否能长大，而奶粉的质量则决定了天才婴儿后续的智力发育水平。

作为新一轮科技革命和产业变革的重要驱动力量，大数据、人工智能可以说是一把“双刃剑”，用好了，它们是推动社会进步和产业发展的重要力量;用不好，它们也可能带来隐私泄露等各种伦理风险。如何在大数据、人工智能应用中兼顾隐私保护，确保安全、可靠、可控，是一项亟须关注的课题。

数据产权，我的信息被打包出售了

网约车存在的“大数据杀熟”只是一个侧面。几乎每个人都经历过这样的情景：刚刚在购物网站上搜索了一下某件商品，网站首页、微信朋友圈就会满屏都是与此有关的广告;出门旅游，刚进高速收费站，“欢迎你到××地”的短信，就叮一声发送过来;你刚想给孩子报个英语口语班，搜素了一下相关信息，推销电话分分钟把你的手机打到爆……

还有，短视频软件上抖音上推送的都是你爱看的;购物网站页面出现的都是你买得起的;送餐软件上展示的是你最爱吃的。难怪有人说，现如今，最了解你的人不是你的父母和亲人，也不是你自己，而是大数据。

利益驱使下，一些网企或平台用微小的便利换取用户个人信息，进而分析、利用，并在用户不知情的情况下，将大量数据汇聚，分析得出用户的特征，预测、引导他们的消费决定，甚至将用户数据当作商品上架售卖。

最近，某二手车查询平台CEO及多名高管就因涉嫌售卖用户信息被带走。有人发现，该平台主要提供相关交易车辆的查询服务，查询一次10元到40元不等，只要肯花钱，某辆车在4S店的所有维修记录、车主情况、车辆使用状况等隐私信息，平臺都可以打包出售给你。

今年7月，国内知名网企“滴滴出行”就因玩的过火摊上了事情。“滴滴出行”APP因在经营中存在严重违法违规收集使用个人信息问题，被国家网信办通知应用商店强制下架。随后，国家网信办即会同公安部、国家安全部、自然资源部、交通运输部、税务总局、市场监管总局等七部门，联合进驻滴滴出行科技有限公司开展网络安全审查。这样的行动对国内大型网企来说尚属首家。

一个时期以来，网络平台不断曝出泄露用户数据、侵犯用户隐私、非法收集、利用用户数据等事件，引起人们对个人数据安全性和个人数据价值的警醒。

今年全国两会上，全国政协委员、北京天达共和律师事务所主任李大进就呼吁加强数据产权立法。在李大进看来，数据作为新型生产要素，在社会经济生活中的重要性日益显著。个人、企业或其他组织合法拥有或者控制的数据，可以为其带来可预期的经济利益，具备作为资产的基本要素，应该对数据产权进行立法。

一些专业人士也指出，数据被一些平台滥用，涉及到每个人的隐私，如身份证号码、手机号码、银行卡密码、家庭住址等。人们之所以经常收到很多骚扰、诈骗、推销电话，只能说明自已的数据被泄露了。

数据是有价值的。那么，涉及个人信息的数据其所有权到底归谁？人民日报海外版文章《我的信息应该我做主》指出，在大数据时代，谁掌握了数据，谁就掌握了主动。“数据获取要有界限，个人信息保护刻不容缓。对App要严格监管，我的信息我做主。”

持相同看法的不只是这篇文章，还有很大的群体。普遍认为，涉及个人的基本信息和行为信息，应属于数据本人的固有资产，第三方只有合法使用的权利，而无权侵占个人数据甚至将个人数据用于非法用途。

遗憾的是，一些网企或平台并没有这种意识，他们一如既往肆意获取用户数据，把用户数据的价值占为己有。甚至国内有的学者也认为，“将数据产权划分给搜集数据的企业会更有效率”，加上一段时间以来法律相对滞后等原因，使得数据产权的归属一直模糊不清，存在争议。

现在，越来越多的人认为个人数据的拥有权及使用权都应该掌握在自己手上，而不应该归平台所有。

专家指出，人工智能最核心的就是数据，只有不断的注入新的数据才能把机器训练得越来越聪明。现在，数据不仅值钱，更是一个金矿，只有我们掌握了自己的数据，才能让数据被正确的使用。如果APP需要数据，就应该花钱购买。同时，在数据交易中，还必须保护我们的数据不会泄露。如果我们个人的数据被泄露或出卖，甚至造成很大的财产损失及人身安全，应参照欧州的做法，严厉惩罚平台，让相关网企承担应有的法律责任。

数据采集，授权书上让人一键勾选

人工智能的基础是大数据，大数据的基础又是数据采集。无论人工智能还是大数据，前期海量的数据采集，是基础的基础。

专业人员表示，数据采集一般有四种做法：一是从内部获取。平台已经有的资讯，是获取数据首先考虑的做法。二是从政府及非营利组织获取。每一个政府机构都会收集数据。海量的资料一般就在电脑、电话或公共图书馆里。三是从商业渠道获取。许多数据往往从内部、政府机构，或非营利组织是得不到的，平台只能从商业渠道购买。四是自主获取。一些网络平台需要某些数据，但无法从其他渠道获取。这时候他们就自主开展一些调查，通过问卷方式获取他们想要的数据。或者，有的网企和平台安装传感器或派人观察，以此获取数据。

专家指出，除了传统的做法，现在很多网企或平台获取数据的方法几乎都用到一个手段——“一键勾选”。假如你要使用某个网企或平台的某项服务，你必须在它事前拟好的同意书上一键勾选。网企或平台通过这个技术，只要用户一键勾选同意授权下载某个软件，平台就会知道用户打开过什么网页、看了多久、操作到什么程度等等。然后，网络后台就能结合用户的基础信息，匹配用户的社交圈、消费习惯等，进而形成“用户画像”，并可以随便利用用户在社交网上的各种资料，配合用户在网上的浏览信息建立模型，用模型运算预测下一步用户可能发生的网上行为，甚至还能够洞悉用户的性格、得出用户的三观、偏好等等，想想，挺恐怖的。

黄女士是某读书软件的一名忠实用户。有天，她打开软件照常看书。突然发现，软件里可以查到好友的阅读记录，而且能够相互查看对方的书架、阅读的书目、读书想法等信息，而她与好友之间并没有互相关注。

黄女士感到有点紧张：一个人读什么书，一般会关联这个人的生活及思想行为等诸多隐私，甚至能大致判断出这是一个什么样的人。一位患有某方面隐疾的用户，她很可能会在读书软件上阅读相关的医疗书籍，而她并不一定愿意让朋友和家人知道她患上了某种疾病;一位正在备孕的女士，她很可能会阅读孕期健康类的书籍，但她也许暂时还不希望别人知道此事。读书软件却会将她不想让大家知道的事情，全部曝晒出来。

2021年7月，世界人工智能大会在上海召开，会上无人驾驶、机器人技术等纷纷亮相。（图片来源：CFP）

“仔细一想，挺可怕的。”黄女士觉得该读书软件侵犯了她的隐私，一纸诉状将开发该读书软件的公司告上了法庭。

与此相似的还有今年“3·15”晚会央视曝光的一个事实：包括某卫浴公司、某汽车制造商等在内的20多家知名企业，在店面擅自安装人脸识别摄像头，非法采集和滥用人脸信息，并通过人脸洞察人们的年龄、身份甚至情绪、消费习惯等，对消费者行为进行评级。网友惊呼：我的脸被“偷”了，而我对此一无所知。

科技的普及，人们似乎习惯了向各个网络平台以及各类繁杂的App妥协，密密麻麻的用户授权书大同小异。如果用户想获得某一方面的服务，就不得不被迫全部授权。那些读起来拗口晦涩的条款无非强调一点：你不同意，就不能使用相应的服务。此时，所谓的隐私保護就成了让用户不得不同意的“软刀子”，久而久之，人们就习惯了各种“一键勾选”，也懒得再去细读、核实有关权益条款。事实上，对于客户，你就算细读也没有用，你不勾选，就用不了它的服务。

几年前，用户朱女士曾将某网络公司告上法庭，原因是她在某网络公司搜索引擎上搜索相关关键词后，一个特定的网站上出现与关键词有关的广告。朱女士认为，该搜索引擎公司利用网络技术，在未经其知情和选择的情况下，记录和跟踪了其搜索的关键词，将其兴趣爱好、生活学习、工作特点等均显露在了相关网站上，并利用记录的关键词对其浏览的网页进行广告投放，侵害了自己的隐私权。

一审法院判决朱女士胜诉，认为某网络公司收集朱女士信息，并在其不知情和不愿意的情形下进行商业利用，侵犯了她的隐私权。但二审法院撤销了一审判决，认为该网络公司的个性化推荐行为不构成侵犯朱女士的隐私权，判决驳回原告全部诉讼请求。

对此，中国律师协会知识产权委员会主任、北京高文律师事务所主任王正志表示，这是我国cookie技术与隐私权纠纷比较典型的案件，一审与二审地判决截然不同。一审法院认为，用户的搜索活动为个人隐私，而二审法院认为，搜索记录等不属于个人信息，“由此看来，彻底解决未来数字经济难题，法律对数据的权利必须做出明确的规定”。

AI算法设计，必须考虑道德伦理

大数据、人工智能带给人们的，不仅仅是自动驾驶汽车、工业机器人和教育、医疗、传媒、金融、法律、科学发现的现代化，也可能是关乎人类的伦理问题，比如安全、隐私、道德等等。

江苏省伦理学会执行会长杨明对此认为，大数据、人工智能存在隐私泄露的风险。各类数据采集无时不有、无处不在，个人隐私极易以数据的形式被存储、复制、传播。特别是随是越来越多人工智能产品的出现，有些网企会轻易获取更多个人隐私数据信息。如果这些数据得不到合理管控，人类将被置于隐私“裸奔”的尴尬境地，从而产生严重的伦理风险。

淮北师范大学信息学院王丹、教育学院张家年也认为，大数据、人工智能已经展现出巨大的变革力量，必须考虑大数据、人工智能背后的伦理规范，处理好机器与人的关系，让技术更好地造福人类。

“比如，要进行合乎道德伦理的算法设计，将国家的法律规范和人的道德情感规则嵌入人工智能系统设计。通过符合伦理的系统设计方法，制定符合法律规范和道德情感的规则，将制定的规范和价值植入人工智能系统，并通过使用者、设计者和组织者对嵌入人工智能系统的规范和价值进行评估，判断嵌入价值与社会价值的一致性和相符性。”王丹说。

“同时，要建立大数据、人工智能群体伦理决策框架，加强内部算法监管，规范人工智能研发过程。”张家年认为，考虑到人工智能专注于单一的结构化的领域，对于跨领域复杂环境的伦理决策涉及较少，建立一个跨领域的人工智能群体伦理决策框架，对伦理道德进行多维度考量、协同式综合运算得出最优解决方式”。

专家学者的盼望和国家部门的考虑不谋而合。今年7月26日，市场监管总局、国家网信办、国家发改委、公安部、人社部、商务部、中华全国总工会联合印发了《关于落实网络餐饮平台责任切实维护外卖送餐员权益的指导意见》，明确对保障外卖送餐员正当权益提出全方位要求。其中提到，不得将“最严算法”作为考核要求，要通过“算法取中”等方式，合理确定订单数量、准时率、在线率等考核要素，适当放宽配送时限等。这是国家层面对平台算法进行监管、规范的有力例证。

而对于算法设计与伦理道德之间关系，一些专家和研究人员也提出不少建议。北京智源人工智能研究院伦理与安全研究中心主任、中国科学院自动化研究所研究员曾毅认为，无论是企业、科研机构还是政府，在指导人工智能发展的时候，应建立不同层级的人工智能伦理和治理委员会，还要建立人工智能服务和产品的监管平台，“一旦出了问题，有关部门不仅要及时约谈，还要通过监管平台发现网络企业的知情同意书是不是有违反国家法律的条文，这样就可以在产生社会负面影响之前，规避掉存在的风险”。

王丹表示，人工智能是人类智慧的产物，参与和设计人员的道德底线会影响算法的公平与工作，因此应制定人工智能研发人员必须遵守的伦理工作标准，解决好人工智能的安全责任问题。“可以设立大数据、人工智能事前监督和事后评估制度，制定产业研发人员伦理工作标准，强化专业责任意识。对于具有危险性的人工智能产品，设计时要聘请领域专家对算法进行审核，投入使用后要评估应用过程中存在的问题，以研究解决的对策，优化人工智能性能。”

同时，一些专业人员认为，还应建立健全对隐私权的法律规范体系，切实保护人工智能使用者的隐私。要通过设立隐私保护数据库，在人工智能数据运用的过程中，系统自行判断对隐私数据的存取是否必要、是否合法。要使用区块链技术保障数据的真实性、可靠性与不可修改性，提高算法预测的准确性。

令人高兴的是，最近一年，国家层面不断加大对个人信息及数据安全的保护工作。

2021年4月26日，备受关注的个人信息保护法（草案）已第二次提请全国人大常委会审议。据悉，这部法律草案明确规定，个人对其个人信息的处理享有知情权、决定权;个人有权限制或者拒绝他人对其个人信息进行处理;违反该法规定处理个人信息的，由履行个人信息保护职责的部门责令改正，没收违法所得;对侵害众多个人的权益的，人民检察院、履行个人信息保护职责的部门和国家网信部门确定的组织可以依法向人民法院提起诉讼。

2021年6月10日，全国人大常委会审议通过了《数据安全法》。这部新通过的法律从数据安全与发展、数据安全制度、数据安全保护义务、政务数据安全与开放、法律责任等多方面，对数据处理活动，保障数据安全，保护个人、组织的合法权益等作出明确规范。

2021年7月28日，又有两条消息传来。一条是，科技部当天发布了《关于加强科技伦理治理的指导意见》（征求意见稿），向社会公开征求意见，旨在加大科技伦理治理力度，推动科技向善。另一条是，最高法也于当天发布了人脸识别应用规范司法解释，明确强调，应用程序不得强制索取非必要个人信息。

最高法表示，人脸信息属于敏感个人信息，处理活动对个人权益影响重大。因此，在告知同意上，有必要设定较高标准，以确保个人在充分知情的前提下，合理考虑对自己权益的后果而作出同意。最高法还规定，对于在宾馆、商场、银行、车站、机场、体育场馆、娱乐场所等经营场所、公共场所违反法律、行政法规的规定使用人脸识别技术进行人脸验证、辨识或者分析，应当认定属于侵害自然人人格权益的行为。

专家表示，近期一系列法律法规的出台，对进一步提高全社会的数据安全保护意识和水平，推动有关部门、行业组织、科研机构、企业、个人等共同参与数据安全保护工作，形成全社会共同维护数据安全的良好环境具有重要作用。同时，也为相关部门依法查办处理涉及数据安全的案件提供了明确的法律依据。

（魏敏對本文有贡献）