智慧图书馆“数据共享”与“数据隐私”的悖论研究
2020-01-09任贝贝
陆 康,刘 慧,任贝贝,张 婧
(1.南京晓庄学院图书馆;2.上海市网络技术综合应用研究所)
大数据、人工智能、区块链等新技术被广泛应用于社会各个领域,为社会发展带来便利的同时,其弊端也越发凸显。在图书馆服务智慧化过程中,各类型数据急剧增长,其服务的初衷是通过数据共享感知用户所需,从而实现精准的文献资源推送,用户身份识别方式从传统的身份证件、密码、数字签名逐渐演变为指纹、视网膜、虹膜、面部特征等生物识别方式。但欧文·凯莫林斯基等在《重新发现布兰代斯的隐私权》一书中认为,当前环境下的信息隐私权保护是失败的,信息隐私权有着极大的能力来获取个人最为私密与个性的内容,也有着多元化的途径来获取个人隐私。[1]
数据共享与数据隐私之间存在着众所周知的悖论。[2]数据需求方希望数据能够实现最大化共享,数据提供方则因担心数据隐私的泄露而有所保留。当数据被全面监控,数据挖掘、数据分析与数据共享在社会化后必然导致数据隐私问题的出现,而共享平台之间的利益相关性原则导致利益多元化,甚至引发用户个体观念与相关行为改变。[3]《2017年大数据发展趋势报告》中,“大数据的安全和隐私持续令人担忧”再次上榜,名列第三条。[4]我国数据隐私问题研究热度从2004年起呈逐年上升趋势,隐私保护逐渐成为研究热点主题之一。[5]智慧图书馆的发展离不开物联网、社交网络、云计算、区块链以及大数据等技术的支持,而用户对隐私问题的关注使得图书馆不得不加强对数据的安全保护,因此,“数据共享”与“数据隐私”也成为智慧图书馆发展过程中不可回避的议题之一。
1 文献回顾
① 大数据隐私技术与方案视角:大数据强调数据共享,而保护用户数据隐私不能回避技术问题。Kai Fan等提出密文策略属性的加密(CP-ABE)是实现云共享下隐私安全的有效方法;[6]Surmila Thokchom 等提出了一种安全有效的将共享动态数据存储在不可信云服务器上的方案,并提供了第三方审核员的隐私保护完整性检查;[7]任雪斌等全面阐述了敏感信息在数据处理、数据分析过程中泄露的可能性,明确了大数据隐私保护的研究方向。[8]② 刘阳等调研了美国56所研究型大学图书馆的读者隐私政策后认为,美国图书馆在尊重用户隐私方面有着完善的保护策略;[9]吴雪敏比较了中日两国图书馆的读者隐私权保护,认为我国在读者隐私权保护方面权利救济意识薄弱、相关法律政策缺失、行业协会职能缺位、图书馆主观能动性较差、学术研究过于宏观化等;[10]王肃之以《中华人民共和国公共图书馆法》为依据,认为公共图书馆的用户个人信息保护应该遵循合法、全面、明确和责任原则,具体内容应该包括信息概念、信息获取、发布与使用、保护措施与免责声明等;[11]何培育等则从《信息安全技术 个人信息安全规范》角度分析了第三方应用程序“隐私条款”,认为建立统一的隐私保护标准、发挥行业自律的引导作用、构建体系化的隐私保护机制是用户信息安全的有效保障;[12]黄如花等从我国政府数据开放共享政策框架与内容以及问题角度进行分析,认为数据开放共享的质量有待提高、个人保护政策有待具体化、知识产权等问题有待完善。[13]综上,学术界希望政府在数据开放共享方面提高质量、完善体系,提升政策操作性、保障力,同时也希望在数据隐私制度、技术方面有所建树。目前,关于“数据共享”与“数据隐私”技术方法(网络安全)等微观角度与社会方法(法律、法规)等宏观角度的研究都较为丰富,但是普遍缺乏从伦理视角展开的智慧图书馆宏观与微观层面数据使用的研究。
2 智慧服务中“数据共享”与“数据隐私”的内涵
2.1“数据共享”的互联网需求
“数据共享”是指在大数据、云计算、人工智能等互联网智慧服务环境下,以不同的结构和形式呈现的具有一定价值的数据,如视频、音频、文本等结构化数据和非结构化数据,在物联网、移动互联网等载体中不同类型数据自动生成,[14]为互联网数据价值提炼提供了“原料”。“数据共享”在公共领域的内涵源自于资源描述框架(Resource Description Framework,RDF),在互联网空间中不同类型与来源的数据实体之间一旦建立RDF链接,用户便能够浏览与其中一个数据源相关的其他来源的项集,并通过搜索引擎实现数据搜索与抓取的功能,最终实现数据共享。[15]大数据时代,多维数据汇聚、整合、关联、分析与挖掘,实现服务的精准性、智慧性与高效性,是“数据共享”应用领域的目标。数据共享是互联网“自由、开放、平等、协作、迭代、共享、去中心、自组织、非商业”理念之一,在商业化现实主义的环境下,这种理念在不断淡化,自组织形成了各自的利益集团,“数据鸿沟”“数据霸权”导致共享、自由、平等逐渐成为“理想”。软件开源运动为“数据共享”的应用实践开辟了新的“路径”,这也使得大数据价值得到充分发挥。
2.2“数据隐私”的用户关注
从法理意义上讲,隐私是指已经发生了的符合道德规范和正当的而又不能或不愿展示的人、事、物或情感活动等。[16]随着互联网社会的不断发展,隐私的界定范围不断扩张,信息隐私问题从涉及私密、敏感、非公开的个人信息逐步向适应智慧服务应用的共享、非敏感与公开的个人数据转变。[17]大数据时代数据价值的发掘在一定程度上推动了社会的进步,提高了生产效率,但是与用户相关的隐私问题一直以来都是学界存在争论的问题之一。数据隐私与保护密切相关,用户的关注点在于个人隐私的保护,而数据隐私研究的价值在于机构、组织对数据价值的发掘,其中存在着侵犯用户隐私的风险。图书馆从数字图书馆向智慧图书馆发展的过程中,也会存在着同样的问题。图书馆领域提倡资源共享的初衷也蕴含“数据共享”意义,其中智慧服务所需的大数据价值的发掘(尤其是涉及用户行为数据)、用户隐私保护等都建立在人文概念下,技术层面的“数据共享”范围不断扩大,人文领域的“数据隐私”等问题形势严峻。新一代图书馆系统或者称为下一代图书馆系统已经在技术层面关注到用户数据隐私问题,但是图书馆数据隐私制度的形成、发布需要与业务密切关联,以起到相互促进与发展的作用。
3 智慧服务背景下“数据共享”与“数据隐私”的矛盾问题
3.1“数据共享”与“数据隐私”冲突点分析
大数据时代的数据量激增,为数据资源的使用提供了基础,“数据共享”提供了数据汇聚的方式,也为数据资源价值发掘提供了条件。然而,数据控制者、处理者(图书馆等)与数据主体(用户)都存在着“共享”方式的顾虑。此外,数据控制者、处理者的数据素养参差不齐,所处地域的不同也造成隐私保护法律、法规与政策存在差异。电子商务等互联网门户网站的隐私政策虽然在用户数据收集、使用等方面做了告知、许可等阐述,但是在“数据共享”过程中,用户无法在同一业务系统中动态监测个人信息,造成数据界限越来越模糊。
“数据共享”促进大数据体量的不断提高,数据需求者运用不同算法挖掘“数据共享”汇聚下的数据,这一过程包括算法选取与分析、数据选取与存储、数据清洗与分析、业务系统应用的开发、分析结果发布与展示等,因此,“数据隐私”在数据应用价值发掘的步骤中,可能存在算法选择不准确、数据选取不精确、数据清洗不充分、业务系统应用开发不全面等问题,导致用户隐私泄露或被盗用,造成了用户数据的非可控性。
无论是数据界限问题还是数据的非可控性问题,都是由于大数据时代下的“数据共享”引起的,这也是与“数据隐私”冲突的关键症结所在。
3.2 智慧服务“数据共享”需求与用户“数据隐私”担忧
在公共领域,“数据共享”的需求度越来越高,人工智能、云计算等技术应用的基础是“大数据”的支持,多维度的“数据共享”能够提升人工智能的准确性,使“云计算”的结论更为精确。然而,由于公共领域的数据处于不同的业务系统中,而业务系统属于不同的管理机构,系统之间需要关联才能形成共享机制,使得“数据共享”机制的建立存在着隔阂。“数据隐私”方面,图书馆领域的用户隐私问题从数字图书馆开始就受到关注。随着数字阅读的普及,资源服务提供商为了利益,也开始逐渐关注用户的阅读行为,部分电子书阅读软件与阅读器的隐私政策虽然公开化,但是有悖于图书馆服务的价值观。[18]图书馆应结合资源服务、具体业务建立相关的隐私保护策略,让用户充分了解、掌握图书馆系统的“数据共享”机制,打消用户对“数据隐私”的顾虑。
4 智慧服务背景下“数据共享”与“数据隐私”产生悖论的原因
4.1“数据共享”所带来的大数据价值与生产力的融合促使“数据隐私”日益被关注
目前,信息安全已成为用户重点关注的问题之一。谷歌、百度等搜索引擎公司掌握了较多用户检索行为数据,淘宝、京东、苏宁易购等购物平台掌握了较全面的用户消费行为数据,QQ、微信、新浪微博等获取了较多的用户互动交流行为数据,微软、苹果、谷歌等操作系统供应企业则掌握全球互联网用户各种类别的行为数据。用户行为数据的应用价值被用于商业营销(图书馆则用于阅读精准推广),通过数据挖掘可以进一步获取用户的隐性需求,其心理动态、兴趣爱好、学术深度等都将被全面剖析,用户画像由此产生,该类行为已经造成了对用户“数据隐私”的侵犯。图书馆在大力提倡智慧服务的环境下,也需要密切关注“数据共享”过程中侵犯“数据隐私”等问题。
4.2 技术创新意识形态的渗透与传统的互联网安全问题使得“数据共享”与“数据隐私”的矛盾日趋明显
随着互联网技术的发展,二维码、人脸识别、纸质书刊自助借阅系统、RFID等技术被引入图书馆数字化应用。技术创新引发了图书馆服务变革,使用户享受到便利与高效的服务,但制度保障不及时、不全面造成了“数据共享”与“数据隐私”等矛盾日趋明显,这也是互联网社会普遍存在的现象:技术创新的快速发展与业务制度规范化制定缓慢产生了矛盾。安全稳定的环境才能够促进社会的发展,“数据隐私”等问题的制度建立与行为规范构建是图书馆等机构在行业内部所重视的问题之一。图书馆研究者对互联网的新技术、新方法、新理论专心致志的研究精神成为智慧图书馆发展的动力,技术创新所带来的亟需制定、解决的问题也同样需要关注。
4.3 互联网时代价值观的多元化冲突反映了“数据共享”与“数据隐私”的悖论
从互联网文化角度分析,智慧地球、智慧城市、智慧图书馆等概念的提出会对用户生活方式产生潜移默化的渗透与影响。[19]智慧服务影响了用户的行为方式、思维模式等,在“数据共享”的大背景下,这些原本属于用户个体的“隐私”问题被暴露在互联网中,并且在互联网技术变革过程中,引发互联网社会与传统社会观念、模式的碰撞并慢慢融合。“数据隐私”等问题在“智慧”所需的“数据共享”环境下引发的不仅是技术问题,也涉及到法律、制度、伦理价值等方面的问题,从图书馆角度回顾互联网的发展历程,技术与伦理的冲突长期存在。基于互联网技术,图书馆在智慧服务理念下,实践服务的精准化与管理的精细化、进一步提高数字图书馆服务效率,是图书馆在互联网发展浪潮中服务创新的必经之路。从用户个人角度,多元化的用户需求促使机构部门在“数据共享”理论下利用大数据的汇聚、整合、挖掘、与分析以满足用户的需求。这也是图书馆服务质量提升的一种捷径,然而用户又对服务提升过程中个人数据的使用产生担忧。因此,图书馆“数据共享”价值观与用户个人“数据隐私”价值观也产生了冲突。
4.4 智慧服务需求下的“数据共享”与“数据隐私”矛盾演变的趋势
技术创新促进了生产力的发展,同时也带来了新的问题。互联网的创新将物、人通过网络关联起来,而用户享受互联网带来便利的同时,却不能完全地将自我感知、自我意识在互联网中真实展示,反而对“数据隐私”问题过度细化。随着智慧化互联网的不断发展,用户“数据隐私”问题核心的部分只剩下意识与感觉,所谓的核心数据与信息的保护会越来越规范,意识、感觉也会逐渐摆脱技术的束缚。技术长期以来不断给用户带来惊喜,随着时间的推移也会让用户的心态日趋平淡,可见技术与人文会相互制约、融合,达到统一的境界。因此,当社会发展到一定程度,“数据共享”与“数据隐私”的矛盾就会迎刃而解。图书馆也是如此,智慧服务处于初始阶段,技术、伦理等问题存在是正常的,学者、管理者、馆员以及数据集成商之间立场不同,矛盾存在也是必然的。
5 解决智慧服务中“数据共享”与“数据隐私”之间矛盾的途径
5.1“数据共享”与“数据隐私”技术方法的悖论破解
智慧服务中的核心问题包括两个对立方面:一方面强调“数据共享”,对“数据隐私”的保护不够重视;另一方面强调“数据隐私”,却阻碍了“数据共享”的发展。学界从数据隐私角度针对这个悖论做了深入、全面的研究。① 伦理方面:提高数据使用的透明度,转变用户数据隐私观念,提升数据应用价值以及寻求合理的伦理决策点等。[3]② 技术方面:虚拟化技术和多租户技术是云存储存在诸多安全问题甚至安全悖论的根本原因,[20]数据加密、安全审计、密文访问控制仍然是数据安全保障的基本方法。③政策、法律、制度方面:《中华人民共和国网络安全法》《信息安全技术 个人信息安全规范》等为大数据的实践应用提供了保障,《中华人民共和国公共图书馆法》为图书馆用户数据隐私保障提供了法律基础。“安全”是相对的,不能一味强调安全问题而忽略了社会进步与发展,因此,智慧服务的“数据隐私”也不能一味追求数据保护而忽略数据价值的发掘。对“数据共享”的交换过程行为进行全程监测,提升数据价值,将数据维度与数据需求高度匹配,以降低“数据隐私”泄露风险。
5.2“数据共享”与“数据隐私”技术方法的人文意义
科学主义(Scientism)有双重含义:其一是指“自然科学家或被认为属于自然科学家的典型的方法和态度”,其二是指“过分信赖自然科学方法应用于所有研究领域(如在哲学、社会科学以及人文学科中)的功效”。[21]图书馆智慧服务从技术角度的现实意义在于:第一,强调了透明机制,阐述“数据隐私”技术保障解释方式,如按需获取用户数据以保证数据安全;第二,强调数据收集机构的权利和义务及数据接触者的数据素养。技术方法公开化,为技术共享与产业链的建立提供了基础,如密码学理论用于数据的加密,虽然存在着争议,但是能在一定程度上解决数据隐私问题。技术方法不能受限于技术原理本身,而应与人文、社会方法融合,才能使智慧图书馆等机构业务发展中的悖论问题得到有效解决。
5.3“数据共享”与“数据隐私”伦理反思与应对
“数据共享”以及对数据的使用不可避免,“数据隐私”以及相关数据伦理问题需要时刻反思。用户对“数据隐私”的担忧,主要是由图书馆等机构数据使用不透明所致。因此,在数据素养教育方面,既要让图书馆等数据控制者、处理者具有规范数据的能力,也要让用户充分了解图书馆开展智慧服务涉及的“数据隐私”技术与策略。在权利赋予方面,图书馆等机构如果能在“数据共享”过程中给予用户多渠道选择权利,让用户能够支配与自己相关的数据,也可避免用户对“数据隐私”问题的担忧。图书馆、用户等“数据隐私”意识的提升,是适应互联网智慧服务发展的重要表现。此外,行业自律是智慧图书馆在大数据隐私法律尚未立法前提下指导图书馆数据规范的有效方法之一,完善图书馆数据使用的行业自律规则,约束、规范数据使用行为,能够避免“数据隐私”因“数据共享”造成的用户隐私泄露,从而构建安全、稳定的智慧图书馆运营环境。
6 构建智慧图书馆“数据共享”与“数据隐私”数据伦理体系策略
6.1 依托相关法律法规促进数据的规范化使用
2019年,国家互联网信息办公室发布《数据安全管理办法(征求意见稿)》,[22]强调了用户的选择权,而当前大多数国内图书馆都未建立规范化的用户隐私保护制度。图书馆“智慧”的基础是通过对数据的使用获取应用价值,感知用户所需,开展针对性的服务。然而,这些都建立在对业务系统等用户互联网行为数据收集、分析与挖掘的基础上,必然涉及到用户数据隐私问题。现有的数据保护法律建立在经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)发布的数据保护指南基础上,主要围绕五项原则制定: 数据收集的目的单一性、数据主体拥有数据使用的知情权、用户数据的使用必须经过用户同意或者法律允许、用户数据的准确性、数据保存具有周期性。[23]《中华人民共和国网络安全法》《信息安全技术 个人信息安全规范》以及欧盟的《一般数据保护条例》等法律、标准都为智慧图书馆数据的规范化使用提供了依据。
6.2 建立数据公开共享机制提升数据价值透明度
数据体量越大、维度越高,越可以分析出较为准确的结果,得到较高的应用价值。然而,多维度获取用户数据时可能存在的数据安全问题令用户担忧。图书馆可建立高效、透明的数据共享机制,一方面让用户拥有个人数据被如何使用的知情权,另一方面赋予数据价值发掘过程的透明性。在将用户作为弱势保护群体认知的基础上,告知用户数据被收集的内容、使用范围、可能的去向、机构组织承担的风险、用户的权利与义务等,在业务稳定发展的基础上,逐步赋予数据主体(用户)对相关数据的决定权。
6.3 加强用户及馆员的数据素养和数据伦理教育
用户、馆员以及相关人员数据素养的提升,有助于增强其数据隐私意识,客观分析互联网隐私泄露事件,动态调整数据隐私观念,结合业务解决具体的问题。培养用户、馆员的数据素养有助于增强用户在使用智慧图书馆业务系统时的隐私保护意识,也有助于馆员在使用用户数据过程中,注意以业务相关数据为基础进行收割、清洗无关数据,既提高了数据价值,也降低了隐私泄露风险。数据素养、伦理教育是从人的角度形成的适应大数据环境主体的自律能力训练,需要融合业务从多途径开展数据伦理教育,提升用户及馆员等主体的技术伦理能力。
6.4 加强数据共享机制与控制数据失范行为
智慧图书馆在业务设计与服务过程中,需要统一用户价值与机构价值,与用户在数据隐私问题上达成共识。构建数据价值共享平台的目的是解决业务实施的具体问题,以业务发展为契机,将智慧服务的利弊权衡告知用户,力争使图书馆、用户在数据价值方面保持一致,减少用户与图书馆在数据隐私方面的矛盾。智慧图书馆业务设计、实施与开展需要围绕用户需求展开,让用户接受该业务并产生共同的价值,以降低用户数据隐私泄露风险,同时实现提升用户数据安全技术能力、养成良好的上网习惯和行为、从自我保护角度增强数据保护意识的双赢局面。
6.5 探索合理化权责与知情权利对等原则
数据决策是智慧图书馆开展服务的基础,而智慧服务的对象是用户,因此智慧图书馆业务设计过程需要融入伦理决策点。图书馆数据使用规范化制度的建立可以让用户了解数据的收集、使用及去向,图书馆与用户可以通过访谈、问卷调查等方式,寻求服务效率与隐私保护利益平衡的伦理决策点,达到观念上的一致,缓解“数据共享”与“数据隐私”所带来的矛盾。由于数据控制者(图书馆)与数据主体(用户)在对数据的认识方面往往只从自身利益出发,很难从中找到平衡点,这就需要借助于第三方机构进行评估、调查,从中找出合理化的伦理决策点。首先,采用问卷调查等方式与用户沟通,知其所想;其次,对调研结果进行分析、处理与评价,评估业务的实施与用户的价值观是否一致;再次,融合图书馆业务与用户所想、所需,确定两者能接受的价值程度;最后,依据决策结论指导图书馆进行隐私政策的制定。智慧图书馆的数据共享活动必须遵循权利与责任相统一的原则,同时要让数据主体(用户)拥有知情权。