AIGC视域下科学数据开放共享风险及对策
2024-09-25朱兰兰高玉婷霍婕
关键词:人工智能;科学数据;WSR方法论;物理;事理;人理;开放共享;风险共治
人工智能生成内容(Artificial I ntelligenceGenerated Content,AIGC)是指利用深度学习和人工智能技术生成内容的一种方法,其基本原理是利用机器学习和深度学习等人工智能技术,通过对大量的训练数据进行学习,使模型能够理解和模仿现有的内容样式、结构和特征,从而生成新的内容。[1]随着AI技术的迅速发展,AIGC凭借其快速的反应能力、生动的内容输出、丰富的应用场景,在社会和生活方面发挥着越来越重要的作用。科学数据作为国家重要战略资源,不仅是科研创新的坚实支撑,还是政府政策制定和科学决策的重要依据。大数据时代下,面对日益增长的科学数据,开放共享已成为科学研究的必然诉求。科学数据开放共享的实质是多元主体聚焦科学数据资源,以数据用户的需求为出发点,通过多种途径消除数据拥有者与数据用户之间的隔阂,进而推动数据资源的顺畅流通、广泛传播和高效利用。大数据时代背景下,国家高度重视数据开放共享工作。2018年,国务院印发《科学数据管理办法》,首次明确指出要促进科学数据开放共享,并提出了“分级管理、安全可控、充分利用”的原则[2];2019年,科技部和有关部门在前期工作的基础上,组建了20个国家科学数据中心,推动了科学数据的开放共享。
近年来,科学数据开放共享的问题逐渐成为学术界的研究热点,众多学者从不同角度对其进行了深入探讨,主要包括数据共享障碍、共享策略、共享政策及数据治理等研究。例如,江慧慧等[3]从技术、人员、管理、法律政策等方面分析了科学数据共享的障碍因素;刘开强等[4]基于生态系统视角,提出科学数据开放共享的优化策略。储节旺等[5]提出“显隐”视角下的科学数据共享策略机制研究框架;温珂等[6]系统梳理了我国科学数据开放共享政策的发展历程,针对存在的问题,进一步完善了科学数据开放共享政策体系;盛小平等[7]构建了科学数据开放共享数据安全治理模型。
综上所述,科学数据开放共享的现有研究已取得了一定进展,许多学者都对其相关方面进行了系统梳理与研究分析,但对AIGC技术在科学数据开放共享中的应用研究较少。
在AIGC视域下,科研成果虽能更广泛地被公众了解和利用,但同时更加开源的数据获取和生成能力或许会产生损害研究者知识产权、降低研究成果质量等问题。因此,本文运用WSR方法论,从“物理”“事理”“人理”三个维度构建理论分析框架,探讨AIGC视域下科学数据开放共享的风险因素和解决路径,以期为AIGC视域下科学数据的开放共享工作提供针对性的参考。
1 WSR理论与科学数据开放共享风险
1.1 WSR方法论。“物理—事理—人理”方法论(Wuli-Shili-Renli System Approach,WSR)依赖于现有的科学技术知识,并融合社会科学、行为科学等多个学科的理论与实践,以实现对复杂系统的有效管理和优化,是一种系统方法论。在处理复杂问题的过程中,WSR系统方法论综合考虑物理、事理、人理三个维度,从事实、事物之间的联系以及人在事物发展过程中所起的作用三个方面展开分析。[8]WSR方法论目前已被广泛应用到企业管理、安全管理、城市治理等诸多领域,并取得了一系列的研究成果。AIGC视域下科学数据的开放共享涉及多阶段、多影响因素以及多元主体,具有鲜明的系统性和复杂性特征,而WSR作为一种系统方法论,对于解决其风险因素具有较强的适用性。
1.2 AIGC视域下科学数据开放共享风险的WSR分析框架。数据、算力、算法是AIGC的三大核心要素。数据是驱动AIGC发展的核心资源。AI技术的快速进步依赖于丰富的大数据资源,通过使用更大规模、更为完备的数据集进行训练,是提升人工智能性能的主要路径。算法是AIGC的核心驱动力,涵盖了自然语言处理、多模态信息融合以及人机交互等关键技术,大语言模型是其中最具代表性的算法。算力是AIGC运行的重要保障,人工智能面对数据海量化、算法复杂化、场景多样化等特点,要求必须有强大的算力作为支撑。[9]AIGC拥有强大的信息整合、自然语言处理以及深度学习等能力,能够从科学数据资源中挖掘提炼细颗粒度的知识单位,并对知识单位进行整理加工,形成规范有序的知识网络,但同时也给科学数据开放共享带来了不可避免的风险。AIGC视域下科学数据开放共享的风险与防控是一项复杂的系统工程,包括前端的风险识别、过程中的应对策略和后端的动态反馈,而WSR系统方法论注重从客观物质及其规律、联系出发,强调管理和组织方法的重要地位,并深入考虑人在系统中的核心地位,能利用综合与集成、系统与分解的思想有效解决复杂层次的问题,为开放数据和开放获取大环境下科学数据风险防控提供切实可行的方法和思路。
因此,笔者基于WSR方法论,结合AIGC核心要素,从物理、事理、人理三个维度构建了AIGC视域下科学数据开放共享风险的理论分析框架(如图1)。
1.2.1 物理维度分析。物理维度侧重于遵循物质世界的固有法则,着重分析客观存在的条件以及事物所具备的功能特性[10]。从物理维度分析AIGC视域下科学数据开放共享的风险因素,主要是指科学数据获取、存储、管理和应用等方面存在的技术风险。AIGC具有模态多元性、资源丰富性、实时交互性等特点,其高效运作离不开强大的算力支持。其中,硬件算力发挥着举足轻重的作用,其实质是依托CPU、内存、显卡等计算基础设施带来的解题能力,芯片制程、设备架构、内存容量等都能对算力产生影响。算力是AIGC拥有强大的信息处理能力和内容创作能力的关键因素,其技术优势为科学数据开放共享提供了高效、便捷的服务。然而AIGC技术还处于发展与应用的初期,存在数据分散、算法不优、算力薄弱等技术性问题,可能损害数据的真实性、安全性及可用性,导致产权不清、技术依赖等风险。
1.2.2 事理维度分析。事理维度着重于遵循行事流程和道理,强调逻辑分析和管理效率。从事理维度分析AIGC视域下科学数据开放共享的风险因素,主要涉及法律规范与行业治理等政策制度风险。从现实层面看,政府在推进科学数据开放共享时,不仅遭遇技术上的阻碍,管理层面亦面临诸多挑战。AIGC技术赋能科学数据开放共享的过程中,大多流于表面的工具应用,缺乏政策指导和制度框架的建设。因此,难以实现真正的数据共享机制。有研究指出,在政府开放数据生态系统可持续发展过程中,法律政策对其影响最大[11]。开放数据政策仅作为相关法规中的部分内容,且在AIGC视域下的科学数据开放共享政策尚不完善。
1.2.3 人理维度分析。人理维度主要关注组织协作中的原则和理念,强调人文分析。从人理维度分析AIGC视域下科学数据开放共享的风险因素,以对“人类伦理”影响的角度为切入点,分析科学数据开放共享过程中的道德规范问题,主要涉及隐私泄露、算法偏见和信任危机导致的社会不公与道德失衡现象。科学数据开放共享活动是基于公共利益这一道德准则进行的,其核心在于追求公平与正义的实现。但目前因AIGC在数据清洗和过滤处理方面存在漏洞,导致偏见信息、虚假信息、有毒信息的产生,从而造成社会歧视、信任危机等风险。此外,还存在各主体间为谋取经济利益和声誉利益,存在抄袭、侵占他人成果等不当行为,严重背离和侵犯了公平正义原则。
2 风险识别
本文基于AIGC在科学数据开放共享中已有的科研成果,聚焦AIGC在数据获取方面的应用,从“物理”“事理”“人理”三维度探讨AIGC应用于科学数据开放共享的风险因素。2.1 W——物理维度。基于WSR分析框架,AIGC视域下科学数据开放共享在物理维度的风险因素主要侧重于技术层面,表现为数据安全风险、产权不清风险和技术依赖风险等。2.1.1 数据安全风险。AIGC技术因其使用不当、管控不力及自身问题等,应用到科学数据开放共享时,加速了数据安全风险,如数据篡改、数据泄露、数据滥用、数据污染等,损害了科学数据的真实性、安全性和可用性。
第一,真实性。由于数据源的质量、算法模型存在局限性,可能会产出虚假信息,误导大众认知。AIGC的核心是基于数据预训练产生的大规模语言模型,由于缺乏对预训练材料深层语义的精准把握,模型在构建更广泛的理论框架或吸纳新的反事实证据以验证材料真实性方面显得力不从心。同时,预训练数据集规模庞大,对其进行全面的数据审计比较困难,因而可能生成虚假信息,对数据的真实性、客观性、准确性提出了较大的挑战。
第二,安全性。一方面,在科学数据开放共享中,AIGC需通过互联网等网络通信手段来实现数据共享,可能存在网络攻击等安全威胁。另一方面,经过对感知、理解、反馈等任务的深入学习和训练,AIGC模型展现出卓越的逻辑推理和计算能力。若有人恶意使用该系统,可能会导致个人身份信息被非法获取、生物识别技术(例如面部识别)失效等更严重的安全风险。[12]此外,AIGC视域下科学数据共享不受限,这种自由的数据挖掘过程可能有意或无意触及关乎国家安全的重要数据集,如国家核心数据、政务数据乃至军事情报等敏感信息。目前的AIGC领域对于此类数据的获取尚无明确的法规约束,这无疑增加了数据泄露的风险,对国家安全和发展造成潜在威胁。
第三,可用性。AIGC视域下的科学数据具有多模态性,涵盖文本、图片、音像等形式,不同的科学数据可能涉及不同的数据格式和标准,但目前我国还未建立有针对性的数据标准和规范,仍存在数据格式不统一、数据标准不规范、数据软件不兼容等问题,导致数据利用困难。
2.1.2 产权不清风险。AIGC技术能够迅速生成知识,然而也不可避免地会伴随着知识产权方面的争议与挑战。
首先,在科学数据开放共享的基础上,AIGC模型的构建依赖于大量数据的训练,这些训练数据可能广泛来源于互联网、著作、期刊论文等多个渠道。但在模型的训练过程中,可能会有意或无意地使用到未经授权的科学数据作为训练语料,导致侵犯科学数据产权行为的发生。
其次,AIGC所生成的知识或作品在创作权归属方面引发了诸多讨论。在这一知识生产过程中,涉及众多利益相关者,如AI算法的开发者、科学数据的拥有者以及利用AIGC技术创造知识的用户等。如何公平合理地分配知识产权,确保各方权益得到有效保障,值得进一步探讨和思考。
2.1.3 技术依赖风险。AIGC技术优势为科学数据开放共享提供高效、便捷服务的同时,也在一定程度上强化了技术依赖。人工智能算法理性会排斥人的情感及价值思考,导致人类不断陷入人工智能技术所编织的“信息茧房”,减损主体思维和行动自主性,使人逐步沦为“技术附庸”。
2.2 S——事理维度。基于WSR分析框架,在事理维度上,AIGC视域下科学数据开放共享的风险体现在管理层面的挑战,主要包括制度规范风险和管理机制风险。
2.2.1 制度规范风险。科学数据开放共享需要考虑数据的合法性和可用性,在AIGC环境下,政府制定的数据获取政策在保护公民隐私和促进数据利用之间,仍存在一些不足。
一是信息界定范围不清。目前国内出台的相关政策对个人敏感信息的范围划分不够明确,有些新型个人信息隐私保护规定不够完善。
二是数据权利归属不明。在中国现行的科学数据开放共享政策中,有关数据所有权的规定通常缺乏具体性,内容分散且表述抽象,没有为数据所有者在数据开放和共享过程中的权利归属提供清晰的界定。这不仅关系到数据主体的切身利益,也对数据安全和保护构成潜在威胁。
三是可操作性较弱。尽管我国已出台了一些法律法规来保障科学数据在开放共享时的隐私与安全,但大部分规定较为笼统,缺乏具体、可操作的执行标准和要求,使得在实际操作中难以有效执行和监管。
2.2.2 管理机制风险。管理风险主要体现在行业治理方面,缺乏清晰的责任问责机制。人工智能生成内容的责任归属问题,主要包括两个方面:一是应明确由谁负责防范人工智能生成违法与不良内容;二是当人工智能生成违法或不良内容时,需明确由哪一方来承担相应责任。如《生成式人工智能服务管理暂行办法》规定仅由服务提供者承担全部的内容提供者责任,并未对用户责任进行划分。
在大语言模型和神经网络的加持下,人工智能生成内容存在较大的不确定性因素,且用户可以不受限制地随意使用和加工数据,容易滋生数据窃取、数据滥用、数据侵权等风险。此外,由于缺乏明晰的问责制度,若要保证数据来源的可靠性,则需服务提供者对所有数据以及生成内容的真实性进行逐一审核,将产生极大的运营成本,不利于为产业的健康发展营造良好的制度环境。[13]
2.3 R——人理维度。基于WSR分析框架,AIGC视域下科学数据开放共享在人理维度的风险体现在伦理道德层面,主要包括隐私泄露、算法偏见及信任危机等风险。
2.3.1 隐私泄露风险。AIGC作为新时代的大语言模型,在赋予我们处理海量数据能力的同时,也因其信息抽取对象的泛化而加剧了个人数据泄露的风险。科学数据开放共享与个人数据保护存在一定程度上的冲突。为了推动数据的开放共享,我们需将包含个人信息的科学数据存储在开放的数据知识库中,使用户可以自由获取、挖掘、复制、传播和利用这些数据,包括医疗数据、社会调查数据等。然而,这种做法明显违背了个人数据保护的原则,容易引发数据隐私泄露的问题。且AIGC具备实时记录个人姓名、性别、电话、位置等信息的能力,通过数据整理和智能算法,便可深入分析并推测出个人的偏好等隐私信息。然而,这种强大的信息处理能力同时也加剧了个人隐私泄露的风险。[14,15]
2.3.2 算法偏见风险。AIGC本质上是运用庞大的数据集进行训练,以实现机器学习的AI技术,这些数据中不可避免地充斥着海量的未经筛选的内容信息,其中可能隐藏着偏见或歧视因素,可能会导致输出结果产生偏差,生成大量虚假信息,滋生意识形态风险。如果模型开发者的价值观存在对历史、文化或种族的扭曲偏见,与主流价值观背道而驰,那么在使用AIGC模型进行科研时,这些偏见可能以不易察觉的方式渗透进科研结果中,进而误导公众认知。随着国内和国际形势的复杂变化,以及东西方意识形态之间的博弈,AIGC等互联网服务可能被不同的行为体,包括国家和非国家行为体所操纵,被用作意识形态传播的工具。[16]
2.3.3 信任危机风险。对事物的评估依赖信息来源的可信度,如此人们便不可避免地依赖超过他们直接感知范围之外的可靠知识,这本质上就是一种知识系统。[17]AIGC所展现的强智能性,使得公众倾向于相信其所提供答案的准确性,但其应用也会使社会信任面临危机。AIGC的算法较为复杂和缺乏透明度,用户难以理解其决策结果的依据,必然会引起怀疑,进而影响其对数据使用的信任度。
3 风险共治
本文运用WSR模型,构建了AIGC视域下科学数据开放共享的风险识别的理论分析框架,在此基础上,笔者从技术治理、主体协同、伦理遵循三个方面提出其解决路径,为科学数据开放共享提供较为安全的生态环境。
3.1 加强技术治理,优化大语言模型推理能力。相关主体对AIGC的技术治理应重点关注数据安全和算法安全,主要措施包括建立完备的数据保护机制、强化数据清洗和过滤处理、优化大语言模型推理能力等。
首先,建立保护机制。在数据安全与隐私保护方面,一方面采用适当的加密技术,确保数据在传输过程中的安全,防止在数据传输阶段发生的窃取或篡改;另一方面,安全的数据存储方法也是防止数据被非法访问或泄露的重要手段。除了技术保护,定期进行的数据安全审计以及对数据访问权限的精细管理都是数据保护机制的重要组成部分。
其次,强化数据清洗。AIGC以机器学习为核心技术,数据质量对其顺利运行至关重要。为了减少由于不准确或有偏差的数据所导致的预测错误或编码偏差,一个有效的策略是在数据预处理阶段进行底层数据标注和数据清洗过滤处理,以识别并排除虚假信息、有毒信息等,提高数据可信度。
最后,优化大语言模型推理能力。作为AIGC的研发主体,技术供应方应以更高的行业标准要求自己,尊重知识产权,不断完善技术方案,提高模型训练数据的质量。技术开发者应选择结构合适、泛化能力强的模型,采用收敛快、不易过拟合的算法,对模型关键部件如Attention等进行调参,选择合适的超参数,接着多次训练多个模型组合,形成模型集成,以提高其稳定性,并持续使用新数据微调模型,使之适应环境变化。
技术开发者应利用开放的数据对机器进行预训练,通过不断迭代开发资源细粒度更高的模型,优化大语言模型推理能力,尽可能减少偏见性、虚假性、错误性内容,在进一步释放科学数据活力的同时严格保障科学数据的安全,守好科学数据开放的物理防线。另外,依托我国丰富的红色文化资源,技术供应方也应培养中国立场,积极自主开发具有中国特色的语言模型,将大量中华特色文化包含在内,同时吸收优秀外来文化,让中国自主的AIGC模型以更开放包容的姿态,成为中外文化友好交流的载体。
3.2 主体协同共治,健全风险监管问责体系。AIGC视域下科学数据开放共享的参与主体涉及范围较广,大到国家政府,小到数据用户,因此应通过多元主体协同共治,健全风险监管问责体系,规范市场秩序,促进数据共享。
从政府角度出发,国家等立法部门应加快AIGC相关法律法规的出台。新技术的不断涌现和快速迭代导致现行法律法规在科技发展面前存在一定程度的滞后性。AIGC的快速应用给科学数据开放共享带来了新的风险与挑战,如针对错误信息风险,政府相关机构应加强对AIGC技术应用的监管力度,并积极构建认证机构或标准体系,以保障AIGC产出内容的真实性和可靠性,防止虚假信息的扩散。针对隐私泄露风险,应制定完善的隐私保护法律法规,并对AIGC技术在数据使用、共享和存储等环节实施严格的管理和监督,以确保个人隐私得到充分保护[18]。同时,针对知识产权风险,政府需明确与AIGC技术相关的知识产权归属,并采取保护措施,同时要严厉打击侵权行为,以保障技术创新者的合法权益不受侵害。为科技创新营造良好的法治环境。政府还可广泛联系群众,通过与各子机构合作明晰AIGC在科学数据开放中面临的各种风险场景,尽可能预防可能产生的风险,避免其造成更大的社会危害。
从相关单位的角度出发,高校等科研机构不仅是数据生产者,更是科学数据保护的第一道屏障,因此在界定科学数据开放权限时,相关单位工作者应进行前瞻性、全角度的思考,确保重要信息不上网,严格保护国家秘密。科研资助机构要通过资金支持来保证科学数据的质量,并建立完善的评价体系,保障科学数据开放共享的推进以及数据的质量。行业协会应制定行业规范,构建监管机制,做好科学数据共享的监督者。
从服务提供者和使用者的角度出发,应树立责任问责意识,明晰责任问责制度。一方面,服务提供者应积极履行对违法内容的过滤职责,对深度合成的内容进行明确的标识,同时对用户进行必要的身份认证、风险提示以及内容审核;另一方面,当用户故意使用人工智能生成违法内容或违反相关使用规定时,服务提供者应采取有效的阻止措施,此时可免于承担相应责任。然而,若服务提供者未能履行这些义务,则可能面临与服务使用者共同承担责任的风险。责任问责制度的确立能够强化各方责任意识,形成健康安全的内容生态。
3.3 遵循科技伦理,建立文化安全防御机制。首先,作为生成式人工智能的使用者,用户在享受数据服务的同时也被赋予了数据辨别的义务。在AIGC大环境中,用户应提升自己的信息素养,培养批判性思维,强化甄别虚假信息的能力;积极合法行使监管权限,对查询结果抱以理性的态度,重在参考,轻于使用。在使用过程中发现错误信息时,应积极向相关部门报错,不传谣不造谣,不听之任之,避免造成更严重的社会舆论影响[19]。此外,用户还应遵循伦理原则和法律法规,确保数据的使用和处理不歧视任何个体或群体,不受种族、性别、年龄等因素的影响,不会侵犯隐私权和知识产权等基本权利。例如,医疗数据的使用需要符合伦理审查的要求,保护患者的隐私和权益。[20,21]
其次,在内外部文化安全威胁的背景下,相关主体应探索建立一个以国家为主导、多元主体参与治理的文化安全防御机制[22],构建安全指标体系,明确监测程序,实时、动态地监测和评估AIGC平台及其内容信息,精准识别和控制潜在的风险。针对AIGC中触及意识形态安全、违反社会伦理、引发民族和宗教矛盾以及侵犯个人权益等文化安全问题,应实施分层次、分类别的管理策略。
最后,作为AIGC技术的使用者,不应该成为技术的奴隶,要始终葆有“主人翁意识”,将现代技术作为实现我们目标的工具,始终让“人工智慧”走在“人工智能”的前列,以人的意识带动人工智能高质量发展。
4 结语
本文基于WSR理论分析框架,探讨了AIGC视域下科学数据开放共享的风险与策略。笔者认为,在AIGC视域下,加强科学数据的开放共享、推进科学数据的综合利用既是大数据时代科学数据工作面临的重要机遇,同时也带来了诸多挑战,如滋生了数据泄露、数据滥用、数据歧视、版权争议等风险。因此,要持续加强AIGC视域下科学数据开放共享的管理,从强化技术治理、主体协同共治、遵循科技伦理等方面多管齐下,提高AIGC视域下科学数据共享质量,进一步加强科学数据共享能力建设,为提升我国科技创新水平、服务国民经济社会发展提供强有力的支撑。