生成式AI的源头治理:数据深度运用的风险隐忧与刑事规制
2023-12-13章诚豪张勇
章诚豪 张勇
摘要:生成式AI作为强大的自然语言处理模型,其顺畅运行有赖于海量数据的训练、学习、分析等深层次运用。基于精妙算法的加持,深度运用的数据会关涉经济利益、保密利益、使用性能等多重维度,其间不免存在数据泄露、算法歧视等潜在风险,甚至引发传统犯罪模式之异化。为应对刑事规制空缺、数据犯罪法益的技术性倾向及固有罪名之误区等困境,数据深度运用的刑事规制体系应当以数据技术分工为指引,及时调转治理逻辑与重心。为实现数据安全保障与技术正面价值有效释放之间的平衡,刑法介入需在利益衡量视角下充分考虑生成式AI的附随风险。刑事治理不应拘泥于数据采集和数据流动等传统规制环节,而是通过增设数据分析等专项罪名予以规范完善,并注重预防性禁令等非刑事治理手段,为数据深度运用技术的正向发展提供空间。
关键词:数据深度运用;生成式AI;技术治理;刑事规制
中图分类号:D914 文献标识码:A 文章编号:1003-8477(2023)11-0127-09
以ChatGPT为代表的生成式AI(Generative AI)是当下最火热的话题之一,并引发了社会的广泛关注。然而,“庞大的‘数据池难免将数字革命中的个体卷入‘数字化黑洞”,[1](p234)因此,我们不免会省思此类新兴大数据运用技术可能附随的安全隐患。当前,数据安全保障已然成为社会治理的重要课题,但我国数据刑法保护体系的规制重点仍落脚于公民个人信息、知识产权等具有隐私属性的数据静态权属维护方面,而鲜少考虑数据深度运用等动态环节的刑事隐忧与规制。不同于传统的分析式AI(Analytical AI),生成式AI的数据深度运用不仅可进行数据学习、信息提炼、趋势预测等精细作业,亦可生成不同于学习样本(数据源)的新内容,甚至可激发其对于人类本质、认知模式和AI主体性的哲学思考。从生成式AI深度挖掘、分析、处理的数据中可获得个人隐私、商业秘密、知识产权等重要、敏感信息,[2](p135)极大丰富了原始数据的价值意蕴。伴随着技术革新,数据深度运用的含义将更迭、扩张,并逐步吸纳跨平台、系统自动化、数据可视化、虚拟场景建构等新功能,因此不可仅从技术层面简单界定,还要考虑到数据深度运用行为已实现由技术概念向法规范概念的转向。2023年4月11日,国家互联网信息办公室发布的《生成式人工智能服务管理办法(征求意见稿)》内容涉及生成式AI的概念明晰、主体责任划分、义务认定、数据合规标准、安全评估等具体事项与风险防控措施。2023年8月15日正式实施的《生成式人工智能服务管理暂行办法》(以下简称《办法》)进一步就治理原则、合规义务、部署运用等做出细化规定。相较技术概念本身在法规范层面的早起先行,当下数据深度运用的刑事规制仍采用计算机犯罪维护数据安全的传统方式,无法适应“感知智能”向“认知智能”发展的转型。数据、算法、算力分而治之的传统治理体系也难以适应涵盖多技术类型的深度运用行为,因此,应尽快完善专门化规制,并注重数据保护、算法治理、人工智能立法等关涉内容的“和合共治”。
一、具象考察:数据深度运用的刑事风险与规制困境
生成式AI可利用大量公开数据进行深度学习、预测、合成、优化预设文本,其间不免具有超脱合目的性、潜在刑事风险的数据利用行为,即使以“技术中立”自居的预设型算法在辅助或替代人类决策时亦屡现算法歧视、技术鸿沟等问题。因此,人类在享受技术便捷之余,不应忽视此类新兴技术的深层隐患。
(一)内部隐患:数据深度运用过程的内生风险
数据深度运用有赖于算法模型的自动运行,缺乏对数据爬取范围、训练方式、限度等细节的限制,不仅生成内容可能涉及刑事风险,其部分不当运用行为本身亦可能触及刑事红线。
其一,数据深度运用的一般失范行为存在违法风险。主要包括数据获取等前端阶段的数据来源合法性以及数据泄露两部分。一方面,尽管数据深度运用的训练素材主要来自合法公开的数据,且原始数据大都已实现加密、加噪处理,但在深度运用技术加持下,数据恢复并非难事,因此深度挖掘后很可能获取隐私和敏感内容。如OpenAI“隐私政策”虽保证其只处理日志数据、设备参数、cookies等技术信息,但经生成式AI深度挖掘后完全可以获取经济利益等深层信息。而且,OpenAI至今未公开其学习语料的来源,仍属于算法黑箱,所涉训练数据是否均获得授权尚存疑问,加之诸多早已被“遗忘”的数据可被发现并再次利用,不免存在数据来源合法性及数据“被遗忘权”等问题。另一方面,为提高生成内容的准确性,数据深度运用离不开用户与算法模型的反馈性对话,该过程实质是为用户画像和训练模型收集信息,在人机交互中更可能暴露隐私,无形提高数据泄露风险。如用户就生成式AI的预期合成内容上传照片、视频等关联数据,无意间输入个人信息或商业秘密时,ChatGPT会瞬间捕捉并存储入库,可能在他人诱导性提问下全盘托出。[3](p97)同时,生成式AI所普及的云计算也将导致数据所有权和控制权分离,加剧存储在云端的数据泄露、滥用等风险。[4](p132)
其二,数据深度运用的严重偏差行为则可能涉及刑事风险。数据运用“深度”不仅指技术层面的专業深度,亦包括生成结果的“深度变化”,如人工智能生成物AIGC(AI-Generated Content)与基础文本的显著差别可能会达到以假乱真的预期效果。生成式AI流畅句词的产生依赖海量数据(数据库+图像+词类提示)的技术反馈,其运作模型的训练离不开质量参差不齐的大数据资源库。为保证输出信息的准确性,开发者可能在数据深度训练时进行具有主观倾向的数据标注、识别工作,以形成具有用户偏好、符合用户习惯的训练激励模型(Reward Model)。此过程若被犯罪分子所利用,即使数据本身是公开、合法的,在激励模型对抗强化训练中亦会埋下“毒树之种”,最终生成违法内容。即使对数据运用模型进行内部检测、技术校对,如规定ChatGPT拒绝回答特定敏感话题,不法分子仍可利用技术设置命令和禁止要求,突破原算法模型中的道德伦理及法律底线的内置标准。如Walkerspider诱导“越狱”事件中,不法分子意图通过指令要求ChatGPT扮演DAN的角色,迫使其生成违反OpenAI准则的答案。[5]
(二)外化风险:数据深度运用下传统犯罪模式的异化
生成式AI不仅会改变传统的工作、生活方式,亦会使传统犯罪模式在其影响下出现异化。一方面,数据深度运用极大降低了犯罪门槛、便利了犯罪手段。基于数据的深度加工、挖掘,生成式AI使得专业知识与特定技能的获取门槛降低,亦突破了特定犯罪的技术桎梏。如ChatGPT利用数据进行深度学习后即可具备无代码编程能力,而不再过分依赖操作者的专业素养。不法分子可通过预训练大模型的数据深度检索功能轻松获取犯罪方法、违禁品渠道等违法信息。另一方面,数据深度运用可能造成危害后果的扩大化,提升刑事风险级别。既往数据信息的生产模式主要遵循PCC(专业生产内容)向UGC(用户生产内容)的输出路径,不法内容产出有限,国家通过对信息源头、用户个人以及网络平台的治理即可控制。而数据深度运用在预设算法支持下自动运行,数据获取、加工等环节难有实质性筛选和价值判断。不同于搜索引擎,生成式AI不会提供所用数据的出处,隐匿于人工智能背后的犯罪难以追踪,既往网络安全治理的技术与资源难以为继。生成式AI的内容产出在推送形式上也更为直接,误导性更大,无形提高了隐私合规成本。在犯罪后果上,基于生成式AI的规模效应,海量数据的深度运用使得信息权益侵害的受众规模同频扩大,并导致技术类高智商犯罪呈指数级增长,为账号管理、人工审核、数据标注等传统监管手段带来挑战。在AI算法加持下,数据深度运用的技术、人工等成本可无限降低,易出现犯罪群聚效应。而技术本身缺陷所导致的犯罪后果则更加难以预防。有媒体报道,ChatGPT在经历多轮反复且矛盾的用户指令后可能出现程序紊乱,开始提供犯罪思路或故意做出误导用户的错误回答。[6]
(三)失衡现状:数据深度运用的刑事规制困境与误区
其一,尚未实现数据深度运用的全链条式保障,治理体系呈现碎片化倾向。生成式AI使得既往数据浅层运用的生成、流转方式、组织形式均发生改变,[7](p6)但我国刑法保护体系并未随着数据运用的深度化而周延完善。《信息安全技术 数据安全能力成熟度模型》《数据安全法》等法规范对数据生命周期作出了明确规定,①并强调了各环节存在的数据风险。当下我国数据犯罪的刑事治理重点依然放在非法获取、编造、传播虚假数据等前端领域,后续的数据挖掘、分析、合成等深度运用环节则被忽略。[8](p8)一方面,即使通过合法手段获取数据,只要充分利用数据挖掘、数据清洗、可视分析等深度处理技术,都有获取重要、敏感信息的可能性。另一方面,后续数据处置环节可能发生应销毁未销毁、不当公开涉密数据、大规模数据泄露等问题。因此,应在数据刑事治理模式中弥补对数据深度运用的规制空缺,从而未雨绸缪,实现对数据新兴风险的合理控制与有效治理。
其二,忽视数据深度运用的动态与正向价值。传统重点治理计算机信息系统纰漏造成的数据泄露、篡改、灭失等静态风险,强调数据主体对数据享有“专有”“排他”的支配性权力,[9](p63)属于消极的防御理念,易造成数据自身价值被其他犯罪所“稀释”。如利用数据实施的诈骗犯罪中,对具有自然犯罪属性诈骗行为的评价会冲淡对数据利用行为的违法性评价。[10](p86)与物质商品不同,数据原本价值的内涵因聚集而扩充,数据使用不会减损它的价值,反而会获得新信息或知识,赋予新含义。[11](p1408)如ChatGPT可依托RLHF(Reinforcement Learning from Human Feedback)算法进一步强化学习方法并优化反馈,使一般文本数据在语料库的投喂下形成近似于复杂人类价值观。[12](p130-131)以上对既往基于有限体量数据的浅层运用而言是难以想象的,若固持数据价值全部归属于原始权利主体观点,难以满足数据运用行为附加的独立权利功能,[13](p115)可能导致数据主体放弃或暂缓技术研发、提升等严重后果。因此,数据深度运用的刑事治理需要认识到数据技术的动态变化,在周全考虑数据原始阶段安全需求的同时,亦要保障数据资本阶段的流通、利用需求。
二、逻辑更新:数据深度运用治理的基本立场
(一)反思考察:传统数据犯罪技术倾向的适时更新
观察我国既往实践情况,数据犯罪往往依附于计算机犯罪。与计算机框架式、程序化的运作方式不同,生成式AI的数据深度运用展现出类人思维,其具体应用具有自然语言的处理、理解能力,二者治理理念、方式不可等同。我国破坏计算机信息系统罪表面上是规制数据破坏(删除、修改、增加)行为,但计算机类犯罪所涉数据仅为数据大概念下的特殊小类,只有影响到计算机信息系统正常运行的数据破坏行为才应以本类罪名论处,通常表现为“手段—目的”关系,规范目的仍是保护计算机信息系统安全。如最高法第145号指导案例指出,“通过修改、增加计算机信息系统数据,对该计算机信息系统实施非法控制,但未造成系统功能实质性破坏或者不能正常运行的,不应当认定为破坏计算机信息系统罪”。需指出,计算机类罪名强调规制计算机系统功能稳定与安全,以及遭受攻击的风险预防与恢复能力,若将其与数据运用犯罪杂糅,不僅会导致数据本身价值被计算机信息系统安全所掩埋,亦与其作为重要生产要素的地位不匹配。例如,生成式AI对数据库中的车次信息、到站时间等公开商业数据进行再分析、编辑与整合,可为商业运行带来可观效益,实际上已具备无形财产的特征,[14](p27)刑事规制手段不应缺位。因此,不可罔顾数据深度运用环节的可用性、延展性特征,而只将静态计算机系统安全作为数据深度运用规制的主旨。
虽然数据犯罪的“最初形态”可交由非法侵入计算机信息系统罪等纯技术性计算机罪名周延规制,但此种技术平移式做法依旧沿袭的是计算机信息时代的思维模式,无法保护数据深度加工后独有的价值意蕴。而且,生成式AI主要依赖算法模型,犯罪重点已不在计算机信息系统的内存数据或应用程序。虽有学者提倡采纳“数据安全”概念作为过渡,以保护数据本身的保密性、完整性和可用性,[2](p137)但规制重点仍是数据类型、结构、生命周期等技术安全,忽视了数据经深度挖掘后的多重价值面向。
(二)路径调适:基于人工智能面向的敏捷治理
数据深度运用受训练模型、算法机制、拟用场景等多方要素影响,属多种人工智能技术的合集,并集成在众多产品和服务之中。诸如通用问答系统ChatGPT、可自动测绘动画的Stable Diffusion等。ChatGPT等生成式AI与检索类、个性化推送类算法原理相同,①都是通用人工智能基本框架下的子领域。着眼于生成式AI自身算法模型的治理方式固然直观、便捷,可若仅依赖对算法机制、特征库、用户目标等生成式AI内置要素的规制,虽在一定程度上可保护安全价值导向下的数据服务规范和用户权益,但会忽略后续数据深度合成、加工等增值性行为。如虽可将深度合成作为算法服务种类中高风险、高敏感度的算法进行监管,[15](p45)但监管对象仅限提供互联网信息服务的算法会存在较大局限。
相较深度运用技术的专项治理,未来人工智能的基础性立法作为法律层面的更高位阶,可周延涵盖静态算法监管、动态数据运用等关涉问题,实现具有技术迭代适应性、包容性的敏捷治理(agile governance)。在数据运用初期,可采取通用性技术注重对数据运用过程的监管、调适,如过滤器和模型调整,定量偏差评估和基准测试等。具体制度中,在肯定数据规制的同时结合人工智能的种类特征、机制做联动性治理,如算法机制的备案说明、数据特征库和标签制度等,以顺应数据深度运用的技术发展与场景应用。[15](p47)在技术层面积极探索面向人工智能的治理科技,参考人工智能伦理原则、相关行业规范设置风险红线,从技术端指引生成式AI研发、数据运用模型构建等风险防控的主动设计。例如,针对数据深度运用产生的虚假信息,关键词监测、人工审核等传统检测方式的效果有限,应以生成式AI等同等级技术为基底完成治理革新。数据深度运用的规制模式不能仅承接算法治理的先行经验,也要为未来通用人工智能的全面立法做出有益尝试,谨防陷入技术与规范脱节的“科林格里奇困境”。
(三)导向指引:科技伦理监管的能动性倡导
生成式AI的数据深度运用能够处理跨域任务,并具有良好的通用性和泛化性,任何偏误和风险都将弥散蔓延至整个数据链条。而传统事后救济有赖于诉讼,可能导致受害方沦为“沉默的大多数”。因此,数据深度运用的治理节点可适当前置,科技领域良善伦理的监管具有相当必要性。与限制性更强的中期风险防控相比,前期伦理监管的持续优化可留给研发、运营企业更大的操作空间,激励企业利用内部信息优势进行治理创新,以更为经济高效的方式实现预期实效。与事后惩戒式监管相比,深入企业内部的伦理审查机制,如安全独立的测试环境、风险评估认证等措施是更为灵活的监管方式。我国《互联网信息服务算法推荐管理规定》第7条提倡技术提供者建立健全科技伦理审查机制,《人工智能伦理治理标准化指南》亦以数据运用、算法决策等类型化标准具化分析了伦理风险来源。本文認为,可借鉴生命科学和医学伦理制度,在参考《关于加强科技伦理治理的意见》《科技期刊出版伦理规范》《卫生健康领域人工智能伦理与治理指南》等国内外行业伦理规范的基础上,推进适用于数据深度运用等关键科技领域的伦理框架。还可在设计阶段嵌入基础伦理原则,设立数据运用的道德底线、法律红线,引导科技企业对内部研发、应用活动构建常态化的治理约束,避免数据运用的先天偏见。即企业不仅应重视人工智能内置的自动风险筛查、过滤机制,也应完善基于良善伦理的人工审核机制,以合理控制数据深度运用的范围和目的;研发前端主体则应基于社会责任感,开发符合人类价值观和伦理的算法,以进一步增强数据深度运用技术的透明度和规范化管理。
三、合规治理:技术分工下数据深度运用的类型化治理链条
我国现有的技术治理体系分设:数据、算法、主体、场景四类标准,[15](p45)但数据深度运用属于应用广泛的通用性技术,难以被单一类别涵括。当粗略分类难以适用时,应采取类型化思维来探讨数据深度运用的风险管控。由于数据深度运用治理的“主体责任”呈多元化、分散化和场景化特征,有必要考察产业链条各主体的现实作用,以类型化方式重塑责任分配。
(一)开发者层面:事先合规制度之建构
生成式AI研发机构决定了模型数据获取和输出方式,应有较为严格的注意义务与法律责任。如训练数据标注、数据库公开、文件记录和保存、技术透明度保障等,而不能仅依赖纯良伦理的约束。研发企业的社会属性决定了其社会责任。基于开发活动而独有的技术优势以及管理优势,开发者在研发完成后还须承担“未来风险”责任。数据深度运用不单具有以技术规则和运算逻辑为基础的客体属性,行为所依赖的算法模型正是开发者价值观的技术性体现,表现为工具属性,开发者应置于责任承担的最前线,故《办法》第6条要求生成式AI产品提供者进行安全评估、算法备案等预防性措施。研发方对数据库内涉及隐私或机密的非公开信息应尽合理注意义务,以佐证其在模型初设阶段并不存在侵犯知识产权、公民隐私等敏感数据的积极态度,否则应为“算法黑箱”承担法律责任。[16]
数据深度运用的事前合规制度是指根据《网络安全法》《互联网信息服务算法推荐管理规定》《刑法》等法规建立的完整、有效的合规计划。健全的企业内部监测机制包括系统访问权限设置、后台数据监测、安全反应机制等。如可采取代理理论为创建和终止雇员访问、获取企业数据的“授权”提供依据,以应对“内部黑客”威胁数据安全。对于算法模型创设、数据来源、预期加工方式等数据深度运用的关键环节,应设置精密的监测机制。研发方作为核心信息掌握者,应主动为主管机构监管提供便利。只有明晰算法所选取的数据库来源、算力引擎,才能较好规制数据侵权问题。因此,在制定合规计划时可将上述加密性信息主动让渡给有关机关,以便其监管。此外,研发方还要注意对深度运用原始数据的隐藏,关注用户个人信息的脱敏,通过匿名化处理保证数据权属安全。如研发者可加大对人工智能自检测模型的构建力度,不再仅以用户偏好作为数据优化训练的奖励信号。在扩展数据库容量的同时,引入多来源比照分析模型,训练人工智能对虚假、争议数据的识别能力。
(二)运营者层面:场景义务设置与合规整改并重
若将产业链上游的开发者比作服务下游生态的“土壤”,生成式AI的运营者便是真正面向终端用户的主体。传统网络服务者的义务设定都遵循“避风港”原则,并不负有预先审查、实时监控数据动态的义务,而仅有事后通知风险、移除数据的责任。[17](p100)大数据时代,技术运营者在享受数据深度运用带来的增值红利时,理应履行附随风险的防范义务。基于此,运营者应高度重视数据来源不合规、用户隐私、商业泄密等问题,定期评估并主动公示生成式AI所依托的学习、训练数据来源,履行重要、敏感数据的风险提醒义务。如斯坦福大学基础模型研究中心对大型语言模型(LLM)进行整体评估,就技术性能、人工智能技术伦理、人工智能治理政策等关键要素做深度剖析,[18]旨在提高语言模型透明度,提升数据不法运用的犯罪成本。应注意的是,运营者义务设置必须符合其商业模式的合理预期、重视合规成本,不可拘泥于数据安全的维护而阻碍深度运用技术产业的发展。如欧盟《人工智能法案》基于个人权利保护,要求对所有已知或可预见的数据运用风险进行识别,但对潜在风险的全覆盖监管,会导致本属合理发展的技术仅因具有高风险用途而受到刑法的严格规制。对此,欧盟数据保护委员会适时调整立法策略,将从形式上考察具体安全技术的适用转变为从实质上认定个人数据的保护实效,①值得参考。面对OpenAl、Stability等商用性AI运营,更应权衡严格保护、有效利用、开发数据三者间的关系。
基于动态变化的监管环境与技术迭代,作为预防性举措,即使在运营商的部署阶段,合规计划亦应设立定期评测制度,实时更新管理者的知识储备与认知水平。例如,可督促生成式AI搭载平台监管内容传输(限制、停止),并采取违法举报、黑名单、辟谣等措施遏制违法信息产出的负面效果,及时清理过期、冗余或不合法的应用数据。健全数据泄露、侵权等数据安全事件的及时反应机制。《数据安全法》第29条规定,企业在数据处理的全过程中应当坚持风险监测,及时采取防控措施并报送主管部门、告知用户。因此,技术运营者应在深度运用风险初显之际便及时通知相关权利主体及主管部门,并开展内部自查与整改工作。生成式AI的有序发展与数据的合规运用,离不开运营方与监管机关的协同推进。杭州某互联网企业针对敏感数据建构了“风险核查—数据梳理—数据保护—监控预警”(CAPE)模型,前三项措施着重在前期尽可能明确数据处理、使用过程中的刑事风险,[19]具有借鉴意义。
(三)用户层面:细化运用规则、合规使用路径
数据深度运用实质上是预设算法模型与用户互动的共同成果,因此,在加强技术本身监管外,有必要加强输入审查、交叉验证、对抗性评估等针对用户行为合法性的约束义务。如普通用户应当避免对生成式AI输出信息的深度依赖,而要保持必要的信息甄别能力,正视生成式AI存在的知识盲区、认知偏差等现实问题。专业用户在享有数据深度运用的成果利益时,作为系统输出内容的控制者,应承担确保生成内容合法性的义务和责任。②如使用ChatGPT便利工作(编写代码、撰写专业文书等技术性辅助)、利用人工智能生成内容再售卖、加工等经营活动时,应承担数据运用及其生成物的风险标识与警示义务。例如,利用ChatGPT通过深度合成技术模拟生成音视频等拟真内容时,用户应在显著位置进行警示标识,避免公众混淆或产生误认。对涉密、敏感数据也应及时反馈系统并进行标记,以便后续使用数据时发挥提示和参考作用。若用户发现信息处理者违法或违约时,有权依据《个人信息保护法》第47条、第48条规定,请求删除并要求信息处理者对其信息使用规则进行解释说明,以杜绝不法生成物传播可能。此外,还可在用户端强化对机器人账号的身份识别监管和对权威账号的特殊认定,减少刷单式批量推送。并可考虑制定数据字典,根据数据属性、标识码等要素,于数据字典中详细描述数据的含义、格式、来源等信息,以便更好地使用数据。
四、规范建构:数据深度运用的刑事规制体系完善
(一)规范取向:基于数据动态价值的维护
当前刑法应对数据深度运用“力所不逮”的主要原因是无法实现对数据后续利用行为的充分评价与制裁。既往属于规制重点的非法获取、泄露数据等均为数据深度运用的前置环节,与后续深度运用相比,现实法益侵害性较低。且通过前端行为的规制去涵盖后续数据深度运用行为的社会危害性并不合理。与重要数据、核心数据不同,未经算法深层加工、分析的一般数据的价值处于“休眠”状态,只有经过数据流通、分析等处理环节才可“激活”。生成式AI数据深度运用即是将分散的单个数据汇集成为体量巨大的数据集合,使数据脱离原始的自然状态,实现从分散到集合、从人格利益到财产价值、从“小数据”到“大數据”等具有价值附加的质变。生成式AI正以强大且隐秘的方式重塑数据格局。深度运用使数据“动态”价值实现提升,刑法不宜仅承认控制者享有原始数据的控制利益。可见,数据深度运用的主要着力点在于分析与再加工环节,而分析环节又是连接原始数据与后续数据加工行为(生成内容)的桥梁。博弈论观点认为,风险规制和数据权益的共存和均衡是数据规制的理性之选。在拟出台人工智能治理方案的欧洲,正在讨论加大面向“生成式AI模型”部署者和用户的动态利用行为的直接监管力度。任何静态化、局部化、个体化的治理措施可能会应对乏力,应着重就数据动态处理环节进行立法尝试。
(二)阶层判断:数据深度运用行为非法性的界定
若仍单纯依赖事后责任追究方式来规制数据深度运用的新兴技术风险,可能面临控制不力、司法资源浪费等困境。应尽快设置明确、统一的违法性判断标准,以合理限定数据深度运用行为的规范边界。
1.合理限定:前置性法规范的违反
数据犯罪作为典型的法定犯,具有双重违法性特征。在面临数据深度运用行为刑事违法性判断时,应充分考量关涉前置法规范。严苛的刑罚固然能够推动犯罪人以“经济人”思维规避风险,但刑法的滥用可能给部分数据发展的商业实体带来严重阻碍。当前置性法规范能充分评价、妥善处理数据非法运用行为时,则不必强制纳入刑法范围。例如,依据数据犯罪的分级治理机制,可将前文探讨的数据刑事合规等自治规范作为过滤数据犯罪的“第一道屏障”,前置性法规范则作为“第二道屏障”。我国《数据安全法》《网络安全法》等前置法明确了国家对数据采取审慎监管的基本立场。①《网络音视频信息服务管理规定》亦明确提出对深度学习、虚拟现实等技术展开安全评估,对非真实音视频信息进行标识。这些均是将数据风险治理聚焦于前端预防。面对数据技术发展而衍生的数据安全风险,还可充分考虑非刑罚手段介入之可能,以合规范方式降低刑事风险现实化的可能性。例如,建立以数据共享为核心的数据运用监管机制以便及时、高效获取数据深度运用的动态,从而实现由风险显现的被动监管向主动预防的科技驱动型监管转变。只有数据深度运用行为的社会危害性突破一定的程度时,才考虑选用最具严苛面向的刑罚手段。预防性禁令作为刑事手段介入前的缓冲,能较妥善地考量数据技术刑事规制的“双重适用困境”,可倡导适用。通过发出预防性禁令(预警方式)使行为人意识到自身行为的违法性,在受到刑事制裁前及时调整非法运用行为,如限制处理数据范围等。在行为尚未达到违法性标准时,此类非刑罚手段能在事前综合权衡风险受益者、受害者和公共利益结构,以应对数字科技对刑法提出的新课题——保障数字技术发展的同时抑制风险的发生。
2.事实判断:具体法益的切实侵犯
数据本身只是以电信号和相应字节组成的比特流。作为价值中立的物理性事实,缺少技术加工、提炼的数据就如同一张白纸。数据深度运用所表征的具体权利需要回溯至数据所承载的信息内容予以证成,因此,数据深度运用的违法性判断离不开现实层面的法益侵害,只有将数据犯罪法益这一较抽象概念还原为可把握的具体利益,才有刑事规制之必要。
首先,数据深度运用犯罪可能侵害以人类安全为中心的综合性法益。现代数据安全风险源于人类研发的数字技术,是人类收集自然界、社会活动的各种留痕。若放任数据深度运用技术野蛮生长,生成式AI凭借其超强的智力优势与效率优势可实现对人类中心的僭越,甚至弱化和动摇人的主体性,或将与机械实体一道产生破坏性替代效应。[20](p76)例如,过度使用数据深度加工资源承担教育工作,可能遏制、僵化老师与学生的创造力、推理、批判思维。[21](p58)加之AI生成内容可受对话反馈、指令引导等措施的倾向性调控,可能产出人类边缘论等侵害人类安全法益的极端内容。其次,数据犯罪法益涉及国家安全。ChatGPT等数据深度运用技术是基于海量关联数据喂养和RLHF强化训练所产生的,其内容输出看似中立和客观,但可能包藏设计偏见,从而裹挟公众价值观。网络数据蕴含大量城市布局、水文地理等敏感且重要信息,经过深度加工与分析,足以拼凑或还原成具有完整性、系统性的内容,可能危及公共安全与国家安全。最后,数据深度运用可能侵犯个人法益。依据用户偏好被部署于具体领域的数据深度运用行为是对人类价值观的不完整封装。随着大数据信息内容的多元化、应用场景的宽泛化,生成式AI的数据利用愈发个人化和个性化,即使敏感性不强的一般数据经过处理也可以得出蕴含着个人健康生理信息、财务信息、生物信息等敏感内容。这不仅可能剥夺权属主体对数据的控制权,亦会导致公民的人身、财产等具体利益遭受侵害。
3.价值评价:遵循利益衡量原则的综合评判
利益衡量原则旨在保障数据刑法系统性、有效性的同时实现对刑法谦抑性的遵守,注重社会治理与科技发展间的平衡。我国数据刑法体系应以“严而不厉”为基本指导思想,寻求数据保护与数据利用之间的平衡点,构建规范、完整的数据犯罪刑法评价体系。一方面,具体研判数据深度运用行为的危害性。通过深度运用行为的罪质、罪量两方面判断行为附随后果的严重性。若数据深度运用行为通过归纳、分析碎片信息得出涉及国家安全的内容,此时具有受刑事规制的倾向;若行为侵犯的是个人、公司的财产、人格等利益,则不宜径行归入刑事处罚。因为,侵犯个人利益的多为人脸交互、场景模拟、动作操控、文本创造等技术,这些亦有积极的面向,可广泛运用于教育、传媒等领域,不可一刀切式予以刑事制裁。另一方面,刑事规制还需细致考量数据深度运用主体的主观罪责。例如,手段选择可反映行为人对待犯罪的态度,再结合具体用途、用户承诺、行业通常技术水准等要素,可综合考量信息的交往安全与利用效率。若行为人明知其所运用的数据将被用于灰色产业或存在源数据不明、权属争议等瑕疵,其对危害后果的主观恶性则不言自明。综上,面对数据深度运用等新兴技术治理,并不需要刑罚权的积极前伸或对保护功能的单一强调,而应在保障数据刑法系统性、有效性的同时,遵守刑法谦抑性以促进数字技术发展。即使数据深度运用存在潜在刑事风险,也应肯定其正向作用(充分释放数据价值),避免数据犯罪刑法治理模式由“力所不逮”走向“过犹不及”,注重社会治理同科技发展间利益的协调共存。
(三)对症规制:非法分析数据罪的增设与完善
在建立统一、明确的违法性判断标准后,应当探索以数据运用为中心的罪名设置,规制对象偏重数据深度运用本身的关键环节(数据分析)。非法分析数据是指以违法犯罪为目的,利用歧视性算法或其他非正当方式,对数据进行非法分析、处理的行为。[22](p34)刑事规制体系应实现对数据安全风险的精准化、严密化保护,弥补数据非法分析环节的规制空白。
笔者以数据生命周期为逻辑起点,作出增设、完善非法分析数据罪的构想。就制度设计而言,非法分析数据罪的罪状应当是以违法犯罪為主观目的,借助算法或其他方法对数据进行分析处理,但应排除技术发展、正当商业运营等合理、合法分析行为。数据不仅可成为便利其他犯罪活动的工具,其自身亦可成为受犯罪侵害的对象。因此,在客观要件边界上,应注意其与非法使用数据罪的界分。非法使用数据指以数据作为犯罪工具便利其他犯罪的行为。而非法分析数据罪指在生成式AI等技术加持下对数据深层内容的挖掘、价值的添附,较之前者,侵犯法益与数据本身具有更多关涉性。值得强调的是,数据犯罪法益的本质是数据所表征的信息,如用户信息安全、数据分析管理秩序、市场公平竞争环境等现实法益。若数据深度处理活动无法获得与具体利益紧密关联的内容,或数据规模较小,数据处理者很难从中拼凑或提取出重要信息,则没有纳入刑法的必要性。此处可观察非法分析后,数据所蕴含的内容敏感性、价值性程度、分布密度等要素的变化,进一步考量行为主体身份与意图获取信息内容的不匹配性,以及后续违法犯罪行为。为清晰数据初始授权的合目的性以及保障数据交往的动态价值,应确立深度运用主体在数据获取后二次分析、加工等活动的审慎义务,秉持“最小必要”“安全可控”的数据使用原则,避免后续深度运用行为超脱数据权属主体的同意目的范畴。在宏观规范保护层面,非法分析数据罪的设立目的在于保障大多数“人”享用数据资源的“自由”。不可仅因具有抽象风险,便遏制数据深度运用等技术发展。此外,非法分析数据罪的规制对象不仅包括涉个人信息、商业秘密、国家机密等现行刑事法规范已有规制的重要数据,亦应注意对一般数据(特别是海量聚集后)的分析行为。
结语
数据作为ChatGPT等新兴技术发展的基石,已成为智能社会非常重要的资源。面对ChatGPT等生成式AI潜在的数据侵权、算法歧视等风险,须及时调整治理理念,理性审视数据犯罪样态、危害后果并反思现有刑法保护体系。避免“唯技术主义”所诱发的盲目技术崇拜,进而忽视危机防范。数据安全法益之内涵具有人民群众的生命健康、财产安全、社会秩序与经济发展等多层次意蕴,亦是国家安全的重要组成部分。因此,有必要构建起具有严密性、专门性、体系性的保护体系。应当说,就生成式AI的刑法规制体系而言,我国在立法论层面留存了大量空白亟待填补,希望本文有关生成式AI的相关探讨能为数据安全法益之体系性建构以及相关生成式AI的刑事立法提供些许思路。
参考文献:
[1]高铭暄.当代刑法前沿问题研究[M].北京:人民法院出版社,2019.
[2]王华伟.数据刑法保护的比较考察与体系建构[J].比较法研究,2021,(5).
[3]邓建鹏,朱怿成.ChatGPT模型的法律风险及应对之策[J].新疆师范大学学报(哲学社会科学版),2023,(5).
[4]杨志琼.数字经济时代我国数据犯罪刑法规制的挑战与应对[J].中国法学,2023,(1).
[5]Synced.微软ChatGPT版必应被黑掉了,全部Prompt泄露![EB/OL].https://mp.weixin.qq.com/s/89KeLjDoS9IyArIr8z6jjg,2023-03-15.
[6]张弛.微软紧急“救火”限制聊天机器回复次数 马斯克称其不安全应关掉[EB/OL].https://www.caixin.com/101999415.html,2023-02-18.
[7]曹树金,曹茹烨.从ChatGPT看生成式AI对情报学研究与实践的影响[J].现代情報,2023,(4).
[8]李玉华,冯泳琦.数据合规的基本问题[J].青少年犯罪问题,2021,(3).
[9]吕炳斌.论网络用户对“数据”的权利——兼论网络法中的产业政策和利益衡量[J].法律科学(西北政法大学学报),2018,(6).
[10]苏青.认识网络犯罪:基于类型思维的二元视角[J].法学评论,2022,(2).
[11]高富平.数据流通理论 数据资源权利配置的基础[J].中外法学,2019,(6).
[12][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[13]申卫星.论数据用益权[J].中国社会科学,2020,(11).
[14]李帅.网络爬虫行为对数据资产确权的影响[J].财经法学,2020,(1).
[15]张凌寒.深度合成治理的逻辑更新与体系迭代——ChatGPT等生成型人工智能治理的中国路径[J].法律科学(西北政法大学学报),2023,(3).
[16]张亮.算法治理须抓牢主体责任“牛鼻子”[N].法治日报,2022-01-12(05).
[17]蔡士林.我国数据安全法益保护:域外经验与立法路径[J].深圳大学学报(人文社会科学版),2022,(6).
[18]I-AIIG.人工智能国际治理观察[EB/OL].https://mp.weixin.qq.com/s/hPZ4x0f7WM5N8ybuni0 WMQ, 2023-03-21.
[19]姜涛.数字安全与刑事合规建设[N].检察日报,2021-11-04(03).
[20]邹开亮,刘祖兵.ChatGPT的伦理风险与中国因应制度安排[J].海南大学学报(人文社会科学版),2023,(4).
[21]Iulia Adelina Ghita , Angela Stan. The Dilemma of Teaching in the Digital Era: Artificial Intelligence[J].Risks and Challenges for Education, 2022, (2).
[22]刘宪权.数据犯罪刑法规制完善研究[J].中国刑事法杂志,2022,(5).
责任编辑 王 京
收稿日期:2023-07-18
作者简介:章诚豪(1996—),男,南京大学法学院博士研究生(江苏南京,210093);张勇(1973—),男,华东政法大学刑事法学院教授、博士生导师(上海,200042)。
基金项目:国家社会科学基金重大项目“数字经济的刑事安全风险防范体系建构研究”(21&ZD209)的阶段性研究成果。