通用人工智能(AGI)的技术、应用及安全问题:以ChatGPT为例
2023-06-25郝国强,李星莹,杨琴
郝国强,李星莹,杨琴
[摘要]随着人工智能(AI)技术的快速发展,通用人工智能(AGI)技术正在快速崛起。文章以ChatGPT为例,描述通用人工智能技术与ChatGPT崛起的内在逻辑,认为它有助于消除“技术鸿沟”,推动计算平权,具有划时代意义。通用人工智能技术将打破“摩尔定律”的禁锢,以“季度定律”为主导,或以数倍于半导体行业速度快速发展。ChatGPT首创的半营利模式暂时取得了商业运营和技术创新之间的平衡。AGI技术的核心方法包括监督学习、增强学习、多任务学习等,已广泛应用于教育、医学、学术研究和人工智能生成内容(AIGC)等领域。但是,AGI技术存在数据安全问题、伦理问题和社会问题等。该文针对构建可信AI提出保护用户隐私、建立可信AI认证体系和加强消费者教育三条建议。
[关键词]ChatGPT;通用人工智能(AGI);安全问题
[基金项目]广西高等学校千名中青年骨干教师培育计划(2020QGRW013);广西民族大学相思湖青年学者创新团队“乡村振兴背景下广西民族文化传承创新的‘互联网+方略研究”(2019RSCXSHQN01)
[作者简介]郝国强(1981—),安徽东至人,广西民族大学民族学与社会学学院教授、博士生导师,广西智库“乡村振兴与文化产业发展研究院”研究员,研究方向:非遗传承与乡村振兴、互联网人类学等;李星莹(1998—),广西田东人,广西民族大学民族学与社会学硕士研究生,研究方向:互联网人类学;杨琴(1988—),湖南邵阳人,广东省农业科学院农业经济与信息研究所助理研究员,民族学博士,研究方向:中国—东南亚农业合作、互联网人类学。
DOI:10.16743/j.cnki.cn45-1357/d.2023.01.015
近年来,随着互联网技术的飞速发展,人工智能在全球技术领域扮演着越来越重要的角色。而ChatGPT 作为一个通用人工智能(AGI)系统和应用,一举打破了此前TikTok 9个月用户过亿的纪录,在短短2个月内用户突破1亿。ChatGPT成功引爆了科技圈,并引发社会对人工智能的广泛关注和讨论。党的二十大报告指出:“推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎。”[1]要以科技强国引领现代化强国建设,中国应在人工智能领域抢占科技制高点。
一、通用人工智能(AGI)技术与ChatGPT的崛起
人工智能的概念可以追溯到公元前一世纪的古希腊,当时的古典哲学家试图将人类思维过程描述为对符号的机械操作,并率先发明了安提基特拉机械(Antikythera Mechanism),用来预测天文现象。随着计算机的发明,人工智能技术在20世纪50年代蓬勃发展。1956年,科学家们在达特茅斯学院召开了历史上第一次人工智能会议,约翰·麦卡锡(John McCarthy)创造了人工智能(Artificial intelligence)一词,这标志着人工智能正式成为一门学科[2]。在接下来的几十年中,人工智能研究取得长足进展,如专家系统、神经网络、机器学习等技术的诞生。然而,受到算法、算力和数据量等诸多因素的限制,人工智能的发展在相当长一段时间内进展缓慢[3]。直到近年来计算能力和数据量的大幅提升,以及深度学习等新技术的出现,人工智能才迎来了新的发展机遇。目前,人工智能已广泛应用于自然语言处理、图像识别、自动驾驶、智能家居等领域,正不断改变着我们的生活和工作方式。
(一)通用人工智能算法的出现
目前,传统人工智能算法逐渐显示出其在特定领域内的优势,但是在跨领域任务上的表现不尽如人意。这就迫使人们开始研究一种能够进行跨领域决策和多任务执行的算法,也就是通用人工智能算法。通用人工智能算法的出现加快了人工智能行业的发展,不同于过去只关注解决单项特定任务的人工智能,通用人工智能的最终目标是像人类一样具有认知能力,能够进行智能决策和解决各种问题,被业内称为强人工智能。因此,通用人工智能算法的大規模应用成为人工智能技术发展史上的里程碑,是实现普适性的关键所在。
1950年,学者们就已经开始探索如何实现通用人工智能算法。然而,由于当时计算能力和数据量的限制,这项研究陷入长期停滞。直到近年来,随着深度学习、自然语言处理等人工智能技术的不断发展,通用人工智能算法的研究逐渐受到重视。目前,通用人工智能算法的研究方向主要包括增强学习、迁移学习、多任务学习等。其中,增强学习通过不断地与环境交互,使通用人工智能算法不断提升自身能力;迁移学习是将已学习的知识和经验应用到新的任务中;而多任务学习则是通过同时学习多个任务,提高算法的泛化能力和适应性。
近年来,通用人工智能取得了几项重大突破,如谷歌在2021年2月率先发布了5400亿参数的自然语言处理模型(PaLM),该模型能够基于数百种语言进行深度学习。这些突破显示出通用人工智能算法在解决复杂任务上的潜力,同时也凸显出发展通用人工智能算法的重要性。随着技术的不断进步,通用人工智能算法将会成为人工智能技术未来重点的发展方向。
(二)“数据翻倍定律”(Data Doubling Law)
与算法的突破相对应,数据量方面的研究也取得重大进展。2018年6月,OpenAI团队在提出的“数据翻倍定律”(Data Doubling Law)描述了人工智能行业发展的一条基本规律,极大地提振了行业的信心。该研究发现,人工智能行业受限于算力和算法等因素,用于训练自然语言处理模型的数据量每隔18~24个月就会翻倍一次。但自2012年开始,这个翻倍周期突然缩短到了3~4个月,人工智能行业以约5倍于半导体行业的发展速度向前推进。出现这个现象的原因在于算力的迅速增长、海量数据的生成、类似谷歌和微软等持续大量的资金投入。数据是一个至关重要的资源,大数据时代的到来加快了数据训练和数据喂养人工智能的速度。这是因为大数据能够提供海量、多样化、高质量的数据样本,可以帮助机器学习算法更好地识别模式和规律,从而提高模型的准确度和泛化能力。此外,大数据也能够为机器学习算法提供更好的训练和验证数据集,以此帮助算法更好地理解和处理各种复杂的任务和情境。
数据翻倍定律的意义在于,它展示了在自然语言处理领域中大规模数据对于训练准确、流畅和具有创造性的语言生成模型的重要性。表明了数据量和算法的质量之间的紧密联系,它还为自然语言处理领域的进一步发展提供了重要的指导和方向。
由此可见,尽管此前主导半导体行业发展的“摩尔定律”(Moores Law)同样制约着人工智能行业的发展,但借助算法的突破、算力的快速发展以及大数据时代的到来,人工智能行业还是突破了“摩尔定律”(也被称为“两年定律”)的限制,并于2012年开始进入“数据翻倍定律”主导的时代。
(三)ChatGPT的诞生及其半营利模式的重要意义
目前,通用人工智能的发展速度突飞猛进。人工智能专家正在探索将通用人工智能技术应用于自然语言理解和图像识别等方面的应用。随后,OpenAI团队推出基于通用人工智能算法的GPT模型(Generative Pre-trained Transformer),采用这种“生成式预训练变换模型”的聊天机器人ChatGPT,基于大参数语言算法模型、海量的高质量真实数据,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列复杂任务:撰写邮件、论文、脚本,制定商业提案,创作诗歌、故事,甚至敲代码、检查程序错误等。
然而,尽管ChatGPT在自然语言处理领域中已经取得了重要的突破,仍需要面对诸多挑战和难点,如理解不同的语言表达方式、情境和背景,以及识别和理解语言中的隐含意义、情感和语义信息。
总的来说,ChatGPT的诞生标志着自然语言处理领域的重要进展,同时它还开创了一种新的半营利模式。ChatGPT母公司OpenAI原本是一家非營利组织,其资金主要依赖于捐赠和政府拨款。但随着研究和开发成本的不断增加,非营利模式难以满足发展的需求,渐渐落后于DeepMind等同类公司。为了可持续发展并获得更多的资金和资源,OpenAI于2019年改组为半营利公司,并在商业市场上推广其研究成果,从而吸引更多的投资。这样的转型能够让OpenAI更加独立自主,提高其资金来源的多样性和可持续性,并有利于其长期发展。
OpenAI成立的初衷是推动人工智能的研究和发展,同时确保人工智能的发展不会对人类造成危害。创始人认为,人工智能的发展应该是开放和透明的,不应受到商业利益和特定国家的控制,因此最初将其定为非营利组织。但人工智能行业是一个资金密集型的赛道,需要大量资金招募全球顶尖的科学家、程序员,购买设备和专业数据等。因此,为了更好地实现自己的使命和愿景,OpenAI开始向商业领域拓展,并成立了子公司OpenAI LP,旨在将研究成果转化为商业产品,并带来收益以支持OpenAI的研究。与此同时,OpenAI仍然保持着其非营利组织的身份,其创始人兼CEO山姆·阿尔特曼(Sam Altman)自己并不持股,而且承诺在任何时候都不会为了商业利益而放弃其使命和价值观,还规定了公司盈利上限,超出的部分将用于推动行业发展和公益事业等。具体来讲,OpenAI盈利后的利润分配将分为四个阶段:首先,让马斯克为首的首批投资者10亿美元的捐赠收回初始资本。其次,微软将获得OpenAI利润的75%,直到收回其130亿美元的投资。再次,在OpenAI的利润达到920亿美元之后,微软的持股比例将下降到49%。剩余的部分利润将由其他风险投资者和OpenAI的员工分享。最后,当利润达到1500亿美元之后,微软和其他风险投资者的股份将无偿转让给OpenAI的非营利基金。简单说,就有点像OpenAI把公司租给了微软,赚到1500亿美元之后,再还回来。这样的利润分配方式,不仅能够保障初始投资人的回报,还能激励员工和其他合作伙伴的积极性,同时也保证了OpenAI的独立性和长期发展的可持续性。这种基于共赢和长期合作的战略,为人工智能行业的可持续发展提供了一个很好的样本,也向全球展示了OpenAI作为一个社会责任企业的良好形象和商业模式。
ChatGPT的诞生和OpenAI的转型不仅是自然语言处理领域的重要进展,也代表了一种在安全可控、技术创新与商业运营之间把握平衡的新型商业模式,这种模式将有助于OpenAI获得更多的投资和资源,提高其研究和开发水平,从而更好地服务于社会。
二、ChatGPT的关键技术
近年来,随着深度学习、自然语言处理、机器人和机器学习等技术的进步,通用人工智能开始在科技圈崭露头角。它可应用于各种任务,包括模仿人类的思想和行为,并实现人类水平的智能。在通用人工智能的研究中,ChatGPT是当前最先进的自然语言处理技术之一,因其出色的生成能力和广泛的应用而备受关注。
ChatGPT是OpenAI基于Transformer架构开发的预训练语言模型,并在大型人类生成文本数据集上进行了预训练[4]。在训练过程中,模型预测输入序列的下一个词,以此来学习上下文和语言的统计规律。首先,在预训练阶段,ChatGPT使用无监督学习算法对大规模的文本数据集进行训练,以理解单词和短语之间的关联性,并学会在生成和回复对话时进行上下文理解和语义推理,这个阶段不涉及任何人类反馈。其次,OpenAI使用了一种基于强化学习的技术,即基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来微调(Instruction Fine-Tuning,IFT)ChatGPT以生成更好的对话。在这个阶段,OpenAI会与人类用户进行交互,收集用户的反馈,并将其用作奖励信号来调整ChatGPT的生成行为。具体来说,OpenAI设置了一个奖励模型(Reward Model,RM)[5]1881,并使用近端策略优化(Proximal Policy Optimization, PPO)算法来优化ChatGPT以最大化奖励[6]。最后,OpenAI使用了人类生成的对话数据集来评估ChatGPT的生成质量,并将其与其他NLP模型进行比较。
其中,基于人类反馈的强化学习(RLHF)是一种强化学习算法,它结合了人类智慧和机器学习的能力,以在复杂的任务中获得更好的表现。通过引入人类反馈来指导智能系统的决策和行为,RLHF算法可以更好地解决复杂的问题,提高系统的性能和智能水平。这项技术主要包括生成对话和人类反馈。在生成对话阶段,ChatGPT会根据历史对话和上下文生成一句话作为回应,然后将该回应呈现给使用者。在人类反馈阶段,使用者可以选择对这句话进行打分,给出正面或负面的反馈。如果给出了正面反馈,ChatGPT会根据这个反馈来调整它所生成的回复,以便更好地满足用户的需求和偏好。如果给出了负面反馈,ChatGPT则会尝试生成一个新的回答,以改进对话质量。此外,在RLHF算法中,还会对整个对话过程进行调整和优化,以提高对话的流畅性和自然度。这些调整和优化过程是基于奖励模型(RM)来完成的,RM会根据用户反馈和对话质量指标来计算出适当的奖励值,并将其应用于更新ChatGPT的生成策略,从而优化对话过程和结果。
其次,指令微调(IFT)是指在预训练模型的基础上,使用特定的任务数据集对模型进行进一步训练以适应该特定任务的过程[7]。这个过程通常需要对预训练模型的参数进行微调,使之可以更好地理解和处理特定任务中的语言信息,增强模型的表现力。例如,可以将ChatGPT的指令微调想象成一名学生在做一份考试试卷的过程,将预训练模型想象成学生平时学习的知识,指令微调就相当于针对这份试卷对这些知识进行进一步的复习和强化,以适应这个特定的考试任务。
最后,与传统的企业聊天机器人相比,ChatGPT的发布是通用人工智能发展史上一个重要的里程碑,它能更好地理解自然的人类语言并生成详细的回复[8],具有更广泛的应用前景。但是,目前ChatGPT模型仍然存在许多问题需要解决,例如带有人工智能技术的偏见、数据私密性难保证、数量和技术方面缺乏常识和逻辑等问题。因此,ChatGPT技术的发展还需要不断地研究和探索。
三、ChatGPT的应用
ChatGPT是一个基于人工智能技术的大型语言模型,它的作用体现在自然语言处理、机器学习和数据分析三个方面。在自然语言处理方面,它可以帮助研究人员实现自动化的文本处理,包括文本分类、命名实体识别等任务。在机器学习方面,它可以生成各种类型的数据,并可应用于模拟语言交互等。在数据分析方面,它可用于处理结构化和非结构化数据,进行文献分析、知识挖掘和知识图谱构建等任务。在以上多种技术作用下,ChatGPT被广泛应用于教育、医学、学术研究、人工智能生成内容等领域。
(一)在教育领域的应用
首先,将ChatGPT融入自然语言教学。自然语言教学是一种第二语言学习方法,在规则和语法之前侧重于沟通技巧和语言接触[9]。在教学过程中,教师可以用ChatGPT来设计语言材料和练习[10]。并为学生提供翻譯、新词定义和布置多样化的练习,或者让学生与之进行对话。在过去,学生听课常以教材、笔记等较为传统的方式进行知识积累,这种以单向输入或输出的方式难以真正地帮助学生掌握语言表达能力。现在,ChatGPT可以帮助教师设计教学内容,例如语言模板、语法规则等,让学生通过练习语法技巧掌握语言表达。
其次,ChatGPT可以应用于个性化教学,可作为学生的智能老师[11]。每个学生都有自己不同的学习风格、兴趣爱好和认知能力。因此,ChatGPT有助于为学生提供不同的学习方法,以满足学生在课堂以外的个性化学习需求。目前,ChatGPT已在miniF2F基准上达到较为先进水平,能够解决高中奥林匹克竞赛中一组具有挑战性的问题[12]。ChatGPT可以帮助学生进行智力提升和逻辑训练,从而提高他们的学习能力和竞赛水平。
最后,以ChatGPT辅助自动化评估,为教师在学生的日常评估工作上节省时间和提供更准确的反馈[13]。在部分学校,教师日常评估学生知识掌握程度、压力承受程度以及心理健康程度等多方面的状态时,往往采用的是问卷调查、计算机习题测试以及面对面咨询等方式,存在耗时长、程序烦琐等问题,而ChatGPT的自动化评估功能可以通过人机交互状态下的语言沟通,进一步对学生的语言进行分析和评估,给出客观准确的评价,使学生能够更好地了解自己的学习、身体、心理等状况,再进一步改善。然而,ChatGPT在应用时经常面临一些挑战。ChatGPT自然语言处理技术本身还存在着不确定性和歧义性,并且需要大量的高质量数据来训练模型,提升交流过程中语言的准确性。
(二)在医学领域的应用
随着互联网和物联网技术的高速发展,各大医院也逐渐开放了“智慧医疗”“线上医疗”等板块,在2021年全球智能医院市场研究报告中提到:“智能医院的全球市场在2020年达到301亿美元,预计2026年达到1112亿美元。”[14]因此,ChatGPT借助自然语言处理模型在医学领域逐渐展现价值。其中,ChatGPT在病理分析、医学研究、健康管理等方面的应用,为医学领域带来了许多创新和改进。
一方面,ChatGPT的自然语言处理技术和语义理解技术,可以加快识别和理解医学文本中的关键信息,并对病历进行分析和数据挖掘。数据挖掘的技术包括分类、聚类、回归、关联规则等,它通过决策树、遗传算法、最近邻法等算法来分析大量的原始或多数据[15]。例如,使用数据挖掘技术对乳腺癌患者进行诊断和治疗[16]。首先,ChatGPT通过对大量病例的分析和相似病例进行分类,使医生可以更加准确地诊断病情、制订治疗方案,从而提高医疗服务的效率和质量;其次,用于分析大规模的癌症数据集,以帮助研究人员发现病体癌症的独特特征、诊断方法和治疗方案等。
另一方面,医学研究需要处理大量的文献、数据和实验结果,需要耗费大量的时间和精力进行分析和整理。首先,ChatGPT可以通过文献检索、数据挖掘和知识图谱构建等技术,帮助医学研究人员更快地获取、整理和分析医学相关信息。例如,ChatGPT可以应用于医学文献的自动摘要和分类,帮助医学研究人员更快地找到自己需要的信息,从而提高研究的效率和质量。其次,ChatGPT还可以通过评估其在USMLE上的AI辅助医疗决策性能[17],帮助医生更好地做出诊断和治疗决策,从而提高医疗服务的质量和效率。最后,ChatGPT有助于研究人员更好地理解疾病的发生和治疗机理,例如,将机器学习模型建立在乳腺癌数据集上,以便更好地理解和预测乳腺癌的发生和治疗[18]。
此外,随着智能医疗技术的不断发展,人们对健康管理的需求也越来越高。ChatGPT可以通过自然语言交互的方式,与用户进行对话,了解用户的健康状况和需求,并提供相应的健康管理建议和指导[19],进而帮助用户更好地掌握自己的健康状况,制订自身的健康计划和管理方案,及时预防和治疗疾病,从而提高他们的健康水平和生活质量。
(三)在学术研究领域的应用
在哲学社会科学领域,ChatGPT通过自动化分析和分类大量文献,为研究人员提供快速了解前沿研究进展和发现新研究方向的途径。同时,ChatGPT也能够从海量文献中提取有用的参考文献、内容、人物和事件,从而提高数据挖掘的效率和质量。不仅如此,它还能够通过命名实体识别和关系抽取等技术,从文献中提取出关键的实体和关系,帮助研究人员更好地了解社会现象和人类行为的本质。
在天文研究領域,ChatGPT也具有一定的应用价值。例如,一家名为JetBrains的捷克软件开发公司利用ChatGPT分析了The Astronomers Telegram和NASA的GCN Circulars等数据,这些报告包含传统算法无法解析的天文事件。其中,在OpenAI将天文事件嵌入这些天文报告后,研究人员可以在多个数据库和出版物中搜索到诸如“crab pulsar bursts”之类的事件。ChatGPT的嵌入在数据源分类上实现了99.85%的准确率,在天文研究领域的应用具有较高的精度和效率[20]。
此外,在美术、设计领域,ChatGPT也具有一定的创新。例如,DALL·E2是一个新的人工智能系统,可以根据文字描述创造原型逼真的图像和艺术作品。它通过组合概念、属性和样式,扩展原始画布中的图像,创建大量的新作品。DALL·E2还可以根据自然语言字幕对现有图像进行逼真的编辑,能够考虑图片中阴影、反射和纹理等多种因素,并且根据喜好进行元素的添加和删减。甚至可以通过拍摄的照片创建不同的变体,在保持原有创作灵感的同时做到图文并茂,这说明ChatGPT具备多样性和灵活性[21]。
(四)在人工智能生成内容(AIGC)领域的应用
AIGC全称AI-Generated Content,是基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术,如AI绘图、AI文章等均属于AIGC技术场景中的分支。随着ChatGPT的爆火,带动了互联网内容生产方式的快速迭代,从传统的PGC(专家生成内容)到UGC(用户生成内容),再到如今的AIGC(AI生成内容)模式。以ChatGPT为代表的AIGC作为一种全新的内容生成方式,在效率、迭代和自动化传播等方面相对传统社会具有明显的技术优势,因而可以应用在诸多行业。
在服务行业,ChatGPT可以应用于不同的场景中,以提高企业的效率和客户服务体验。在改进酒店服务机器人上,ChatGPT可以让机器人更智能化,进一步提高酒店行业机器人的工作效率,使其更接近于人类服务员的水平,可以识别和理解客户的真实需求,为客户提供更好的服务体验[22]。在电子邮件回复和聊天机器人方面,ChatGPT可以自动回应常见问题、处理客户查询和投诉,从而帮助客户更快地获取所需信息,减少等待时间和提高满意度[23]。在互联网广告应约和销售洽谈中,ChatGPT可以自动响应客户的查询,通过在聊天中上下文的梳理,生成客户所偏向的答案,不断对客户的需求和偏好进行追踪和深入了解,并向客户推荐符合其需求的产品和服务,从而提高客户体验和增加销售量[24]。
四、以ChatGPT为代表的通用人工智能(AGI)技术的安全问题省思
人工智能(AI)可能带来的潜在文化、经济和社会变革一直受到社会各界的激烈辩论。计算机行业的快速发展和程序员群体的迭代带来了他们与普通人之间的“技术鸿沟”。这种鸿沟在现代市场经济、资本市场等因素的作用下,进一步形成了“经济鸿沟”“社会鸿沟”,导致贫富差距的加剧。随着ChatGPT等大型语言模型的出现,有助于弥合程序员与普通人之间的技术鸿沟(Technology divide),加快实现计算平权(Computational equity),进而在一定程度上消除技术霸权,具有划时代的意义。但也有较多学者呼吁加强ChatGPT监管,警惕“人工智能成为人类文明史的终结”。
作为一种自然语言处理技术,ChatGPT本身不会直接引起安全问题。然而,在其基础技术、通用人工智能的开发过程中,围绕数据隐私和信息安全问题,以及在其应用过程中可能出现的伦理问题和社会问题,都应该得到足够的关注和重视。中国信息通信研究院《人工智能白皮书(2022)》指出,人工智能行业除重视技术创新外,还将聚焦工程实践和可信安全,这种“三维”发展思路将推动人工智能行业进入一个新的阶段[25]。
(一)数据安全是人工智能时代的首要问题
在应用深度学习等通用人工智能技术进行训练时,需要大量的数据来支持。然而,这些数据往往包含大量的个人信息,因此,对于个人隐私的保护显得尤为重要。同时,在人工智能技术的应用过程中,数据的安全性也需要被高度关注,以避免黑客攻击和数据泄露等安全问题的出现。
从个人层面来看,用户每天在使用ChatGPT时都可能会留下大量的数据,这些数据能够让AI为我们提供更加智能化、个性化的服务。然而,如果这些数据被滥用或泄露,将会给我们带来巨大的安全隐患。因此,企业和国家需要确保对这些数据的合理收集、使用和保护,以确保数据的安全性。
从企业的角度来看,企业需要建立完善的数据安全管理制度,加强对数据的保护和使用,同时确保在数据收集、存储和传输过程中符合相关法规和规定。政府需要建立相应的监管体系和法规,加强对数据的管理和监督,同时确保在数据的跨境流动和传输过程中符合国际规定和标准。只有企业和政府共同努力,才能够更好地保障数据的安全,推动人工智能技术的健康发展。
从国家层面来看,数据安全问题同样重要。特别是在一些涉及国家安全和公共安全的领域,比如政府、金融、能源等,数据泄露和黑客攻击的风险可能会影响国家安全。因此,政府需要制定相应的法律法规来保障数据的安全,防范数据泄露和黑客攻击等。
(二)人工智能引发的伦理问题和社会问题
人工智能技术的偏见问题可能会带来一些潜在的伦理问题和社会问题。例如,斯坦福大学2022年发布的AI指数报告指出,许多人工智能的大型语言模型带有偏见和歧视,这种偏见来自AI模型的基础数据训练,它可能反映了人类社会中的系统性偏见或筛选数据的科研管理人员[26]。同样,ChatGPT开发人员也总结了GPT-3模型是一个有偏见的系统,其常见的偏见包括性别歧视、种族和宗教偏见[5]1895-1898等。
由于机器学习算法的黑盒性质,人们可能难以理解和解释其决策过程。这可能导致人们对算法的信任度降低,甚至引发一些不公平和歧视的现象。这些偏见的产生可能来自科研人员经过筛选的“带有偏见”的数据训练,反映的是人类社会可能存在的偏见和阶级地位的歧视。反之,既然可以操控人工智能模型,科学家也可以通过技术和算法去纠正人工智能模型的偏见,甚至纠正人类本身的偏见问题。例如,旧金山宣布推出一种名为“偏见缓解工具”的应用程序,该应用程序使用人工智能技术自动编辑警方报告中与嫌疑人种族有关的信息,目的是减少种族偏见对检察官在决定某人被指控犯罪时的影响。通过自动过滤可能引起偏见的信息,该工具有望帮助警方和司法系统更公平地对待被调查者。
(三)人工智能对消费者的影响
人工智能的可信问题也会长期困扰广大消费者,ChatGPT与大多数人工智能模型一样,它也会存在撰写假新闻、编造知识等可能性。这和ChatGPT的算法逻辑有关,该模型的知识来自训练数据中的统计规律,而不是任何类似人类对世界复杂和抽象系统的理解,因此可能会产生不正确或误导性的信息,并产生攻击性或有偏见的内容。有学者在使用ChatGPT的过程中发现,它常常会“一本正经地胡说八道”。例如在得到指令“推荐中世纪英格兰经济史的十本书”,它快速给出了答案,但是其中有8本是伪造的[27]。根据高德纳(Gartner)公司的预测,在2023年产出的内容产品中,将有20%来自AI。而到2025年,AIGC产生的数据,将占到整个互联网的10%。比如新闻行业,到2030年,九成以上的新闻稿件将由AI辅助完成[28]。如果这些预测成真,那么类似ChatGPT这样的人工智能模型的偏见和造假问题将会给人类社会带来巨大的困扰。因此,在技术条件允许的情况下,应该构建一个值得信赖的可信AI,这样才可以放心让其帮助我们执行各种重要的任务。
综上所述,人工智能技术的发展需要綜合考虑安全、隐私、伦理和社会等多个方面的问题,需要采取多种措施来应对和解决这些问题。
五、构建可信AI的建议
世界各主要国家对人工智能的发展高度重视。2016年,美国白宫发布了三份政府工作报告[29],将人工智能发展上升到国家战略层面的国家。人工智能的战略规划被视为“美国新的阿波罗登月计划”,旨在人工智能领域取得领先地位,类似于其在互联网时代的霸主地位。习近平总书记在中共中央政治局第九次集体学习时强调:“要加强人工智能发展的潜在风险研判和防范,维护人民利益和国家安全,确保人工智能安全、可靠、可控。”[30]中国信息通信研究院与京东探索研究院于2021年联合发布了《可信人工智能白皮书》,强调要把增强用户信任、发展可信人工智能放在人工智能伦理和治理的核心位置[31]。当前国际竞争的实质是以经济和科技实力为基础的综合国力的较量,中国有必要在当前的人工智能浪潮中抢占制高点,从而引领新一轮科技革命。基于此,笔者针对构建可信AI提出以下三条建议:
(一)加强数据安全,保护用户隐私
数据是人工智能和大数据时代最重要的资源,随之而来的数据安全问题日益凸显,并在一定程度上制约着行业的发展。2018年5月,欧盟通过了《通用数据保护条例》,其中包括“被遗忘权”的规定。该规定赋予了用户选择不向互联网公司共享个人数据的权利。用户只需选择“被遗忘”,这样公司将不会保留与该用户相关的核心和敏感信息。这一措施旨在保护个人隐私,为用户提供更多的数据控制权。中国政府可以借鉴国外经验通过立法的方式加强数据的安全管理和保护,防止数据泄露和滥用,采用密码学、加密算法等安全技术保护数据的机密性、完整性和可用性。
此外,可以通过最新的区块链技术实现数据的确权、交易和共享,确保数据安全。区块链技术正是这样一个在“去信任”的环境中构造一种新信任机制和交易规则[32]。可以借助最新的区块链技术来实现数据确权、共享和交易等,从而在人工智能时代保护用户的隐私,确保用户数据的安全。区块链技术的分布式、去中心化、不可篡改等特点使其成为一个可信的数据交换和管理平台,可以应用于人工智能的多个应用场景。
(二)打造偏见评估系统,建立可信AI认证体系
随着人工智能技术的快速发展,性别、种族、宗教等偏见问题越来越受到关注。政府在加强监管的同时,应当采取有效的对策,以确保公众对人工智能技术的信任。首先,政府应当指导第三方专业评估机构对人工智能企业的偏见和数据安全、网络安全等方面进行全面、客观地评估。这些评估机构应当具备严格的资质认证和专业能力,确保评估结果的准确性和可靠性。评估报告应当包含企业在偏见问题和安全问题上的具体表现和改进建议。其次,政府应当建立可信AI认证体系,对符合标准的人工智能产品进行认证,并提供给公众,以便公众购买和使用更可信的人工智能产品。认证标准应当包括对偏见和数据安全、网络安全等方面的要求,以确保人工智能产品的质量和可信度。最后,政府应当加强对人工智能企业的监管,对于那些违反规定的企业,应当采取相应的法律措施。同时,政府应当建立完善的数据保护和隐私保护法律体系,保护公民的合法权益和隐私安全。通过这些对策,政府可以促进可信AI的发展,建立更加安全、可靠的人工智能生态系统。同时,政府也可以促进人工智能技术的创新和发展,为社会的可持续发展作出贡献。
(三)加强消费者教育,正确使用通用人工智能技术
通用人工智能技术的发展是全球科技发展的必然趋势,我们无法阻挡人工智能时代的到来,只能积极应对和适应。然而,在正确使用人工智能的过程中,消费者需要保护自己的隐私和数据安全,避免将自己置于安全风险之中。在使用通用人工智能技术过程中需要注意一些基本的准则。例如,不要将个人信息泄露给未知的第三方,也不要使用人工智能技术来伤害他人等。此外,人们需要认识到,制造带有偏见的数据来训练人工智能模型将导致人工智能算法的偏差,從而产生不准确的结果,可能带来不良后果。
为了应对这些挑战,加强消费者教育、提高人们的科技素养是十分必要的。技术本身不具有价值判断,只是一种工具或手段,其所带来的影响和价值取决于人类使用的方式和目的。因此,我们应该将技术的中性作为一个前提条件,同时在技术应用的过程中注重对其潜在影响的审慎评估和规范,以确保技术的应用符合社会公共利益和道德伦理要求。
[参考文献]
[1]习近平.高举中国特色社会主义伟大旗帜为全面建设社会主义现代化国家而团结奋斗:在中国共产党第二十次全国代表大会上的报告[N].人民日报,2022-10-26(1).
[2]HAENLEIN M, KAPLAN A. A brief history of artificial intelligence: on the past, present, and future of artificial intelligence[J].California Management Review, 2019(4):5-14.
[3]Code-Dependent: Pros and Cons of the Algorithm Age[EB/OL].(2017-02-08)[2023-02-13].https://www.pewresearch.org/internet/2017/02/08/code-dependent-pros-and-cons-of-the-algorithm-age/.
[4]Understanding ChatGPT as explained by ChatGPT![EB/OL].(2020-10-20)[2023-02-15].https://www.advancinganalytics.co.uk/blog/2023/1/18/language-models-what-is-chatgpt.
[5]BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020,33.
[6]CHRISTIANO P F, LEIKE J, BROWN T, et al. Deep reinforcement learning from human preferences[C]. Advances in Neural Information Processing Systems ,2017:30.
[7]Bert: Pre-training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24)[2023-02-14].https://arxiv.org/pdf/1810.04805.pdf.
[8]What is AI chatbot phenomenon ChatGPT and could it replace humans?[EB/OL].(2022-12-05)[2023-02-14].https://www.theguardian.com/technology/2022/dec/05/what-is-ai-chatbot-phenomenon-chatgpt-and-could-it-replace-humans.
[9]HALL G.Exploring English language teaching:Language in action[M].Routledge,2011:198.
[10]ZHAI X. ChatGPT user experience: Implications for education[J/OL].SSRN,2022(4312418).https://www.researchgate.net/profile/Xiaoming-Zhai/publication/366463233_ChatGPT_User_Experience_Implications_for_Education/links/63a2817aca6a9d254f8de010/ChatGPT-User-Experience-Implications-for-Education.pdf.
[11]19 Ways to use ChatGPT in your classroom[EB/OL].(2023-01-18)[2023-02-13].https://www.edweek.org/teaching-learning/opinion-19-ways-to-use-chatgpt-in-your-classroom/2023/01.
[12]POLU S, HAN J M, ZHENG K, et al. Formal mathematics statement curriculum learning[J/OL].arXiv.2022(01344).https://arxiv.org/pdf/2202.01344.pdf.
[13]Creatingyour own ChatGPT: a guide to Fine-Tuning LLMs with LoRA[EB/OL].(2023-02-03)[2023-02-14].https://ai.plainenglish.io/how-chatgpt-can-improve-education-not-disrupt-it-c6fe7910d1e1.
[14]Global Smart Hospitals Market Research Report 2021-ResearchAndMarkets.com[EB/OL].(2021-11-23)[2023-02-16].https://www.businesswire.com/news/home/20211123006014/en/Global-Smart-Hospitals-Market-Research-Report-2021-ResearchAndMarkets.com.
[15]OSKOUEI R J, KOR N M, MALEKI S A. Data mining and medical world: breast cancers diagnosis, treatment, prognosis and challenges[J]. American Journal of Cancer Research, 2017(3):610.
[16]KHARYA S. Using data mining techniques for diagnosis and prognosis of cancer disease[J/OL].arXiv.2012(1923).https://arxiv.org/ftp/arxiv/papers/1205/1205.1923.pdf.
[17]KUNG T H, Cheatham M, Medenilla A, et al. Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models[J]. PLOS Digital Health, 2023(2):198.
[18]GOEL V. Building a simple machine learning model on breast cancer data[J]. Towards Data Science, 2018:1-6.
[19]KING M R. The future of AI in medicine: a perspective from a chatbot[J]. Annals Biomedical Engineering, 2023(51):291-295.
[20]NEELAKANTAN A, XU T, PURI R, et al. Text and code embeddings by contrastive pre-training[J/OL].arXiv.2022(10005).https://arxiv.org/pdf/2201.10005.pdf.
[21]RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical text-conditional image generation with clip latents[J/OL].arXiv.2022(06125).https://arxiv.org/pdf/2204.06125.pdf.
[22]What does ChatGPT really mean for businesses?[EB/OL].(2022-12-28)[2023-02-15].https://www.forbes.com/sites/bernardmarr/2022/12/28/what-does-chatgpt-really-mean-for-businesses/?sh=a7ecaac7d1e3.
[23]AGRAWAL A, GANS J, GOLDFARB A. ChatGPT and how AI disrupts industries[EB/OL].(2022-12-12)[2023-02-23].https://hbr.org/2022/12/chatgpt-and-how-ai-disrupts-industries.
[24]How can you use ChatGPT in business?[EB/OL].(2021-01-16)[2023-02-15].https://addepto.com/blog/how-can-you-use-chatgpt-in-business/.
[25]中国信息通信研究院.人工智能白皮书(2022年)[M].北京:中国信息通信研究院,2022:前言.
[26]Introduction to the AI index report 2022[EB/OL].(2022-03)[2023-02-15].https://aiindex.stanford.edu/wp-content/uploads/2022/03/2022-AI-Index-Report_Master.pdf.
[27]歷史学家的技艺.当ChatGPT学会编造多本中世纪经济史参考书目(一名世界史学生的反思和致歉)[EB/OL].(2023-02-11)[2023-02-16].https://mpweixinqqcom/s/nCTBoffzS3fh5wHTcDkamg.
[28]SINGH A, JHA S, SRIVASTAVA D K, et al. Future of work: a systematic literature review and ev-olution of themes[J]. Foresight, 2022(1):99-125.
[29]BUNDY A. Preparing for the future of artificial intelligence[J]. AI & Society, 2017(32):285-287.
[30]习近平.加强领导做好规划明确任务夯实基础推动我国新一代人工智能健康发展[N].人民日报,2018-11-01(1).
[31]中国信息通信研究院,京东探索研究院.可信人工智能白皮书[M].北京:中国信息通信研究院,2021:前言.
[32]任仲文.区块链领导干部读本[M].北京:人民日报出版社, 2018:75.
[责任编辑:杨军]