思想政治教育生成式人工智能语料库建构研究
2024-01-08沈强罗先奎
摘" "要:以ChatGPT为代表的生成式人工智能的出现和推广应用,标志着人工智能从辨别式AI模型走向生成式AI模型。作为一种基于互联网可用数据训练的文本生成深度学习模型,生成式人工智能通过连接大量语料库进行预训练,语料库是其重要的基础设施。建构思想政治教育生成式人工智能语料库,能够为打造契合思想政治教育人工智能交往规则大语言模型奠定技术基础、提供数据支持、确立内容样态、明确价值导向。语料库建构过程中存在数字化鸿沟、投入建设不足、交互被动性、意识形态偏差等问题,会导致技术失控、数据失衡、内容失范、意识失真等现实困境。需要从回归现实的人的高度,立足底层逻辑、中层耦合、上层构造、顶层设计等,以自主创新、范式引导、价值旨归、意识先导为原则,从新型数字基础设施建设、话语要素有效供给、高质量数量标注、人工智能价值观等方面,打造有中国特色的思想政治教育生成式人工智能语料库,用符合我国国情的话语体系和语料库规制生成式人工智能,在技术逻辑、价值遵循的权衡和超越中推进思想政治教育范式变革与规范性建构,实现人工智能语料库对思想政治教育的有效赋能。
关键词:思想政治教育;生成式人工智能;ChatGPT;语料库
中图分类号:G434" " " " "文献标志码:A" " " " "文章编号:1673-8454(2024)12-0108-11
1956年,麦卡锡(John McCarthy)、明斯基(Marvin Minsky)等人在达特茅斯学院召开的“如何用机器模拟人的智能”研讨会上首次提出人工智能(Artificial Intelligence, AI)的概念,[1]标志着人工智能学科的诞生。2022年11月,美国OpenAI公司推出人工智能模型ChatGPT(Chat Generative Pre-trained Transformer),采用基于自注意力机制Transformer架构,通过引入人类反馈的强化学习(RLHF)和大规模无监督预训练,具备了更强的文本理解和生成能力,预示着人工智能的功能发生方向性改变:从辨别式AI模型走向生成式AI模型。[2]当前,以ChatGPT为代表的生成式人工智能不仅在科技领域掀起一场AI大模型发展热潮,也在教育领域形成强势介入态势。习近平总书记指出:“要重视通用人工智能发展,营造创新生态,重视防范风险。”[3]生成式人工智能介入思想政治教育,势必会引发“数字思政”新的技术整合和场景建构,助力思政育人效果的实现,也会产生“多重维度的聚合、分拣与重塑的挑战”[4]。作为一种基于互联网可用数据训练的文本生成深度学习模型,生成式人工智能必须通过学习现有的语料数据集才能生成新的信息内容。而建构思想政治教育生成式人工智能语料库,就是充分利用人工智能大模型的技术优势打造“可用之器”,用富有中国特色的场景和数据锻造有中国特色的思想政治教育语料库的“向善之道”,形成契合思想政治教育要求且具有系统性和逻辑性的人工智能话语内容,推动落实立德树人根本任务,助力实现教育强国战略目标。
本文聚焦生成式人工智能语料库数据层,通过分析思想政治教育生成式人工智能语料库建构的价值维度,探讨思想政治教育语料库建构的内在逻辑机理,针对当前人工智能大模型语料库建设的现实困境提出相应的应对策略,进一步探讨在技术属性与价值属性的统一中实现生成式人工智能语料库对思想政治教育有效赋能的实践路径。
一、思想政治教育生成式人工智能语料库建构的价值维度
生成式人工智能技术掀起新的教育信息化革命,给思想政治教育带来深刻的改变和全方位的影响,传统的思想政治教育媒介、载体和场域,或将面临新的重组、重塑和重构。建构思想政治教育生成式人工智能语料库,能够为打造思想政治人工智能教育交往规则的大语言模型奠定技术基础、提供数据支持、确立内容样态和明确价值导向,如图1所示,使人工智能在深度学习中不断习得符合思想政治教育价值和道德要求的交互思维,为推动思想政治教育学科与人工智能学科共融共生提供多维教育场域。
(一)技术维度:为思政“垂类”人工智能大模型预训练奠定技术基础
随着量子力学、概率论和数理统计学的发展,科学哲学先驱赖兴巴赫(Hans Reichenbach)、数学家古德(I.J. Good)等人提出从物理概率的角度对概率因果关系进行解释的理论,为人工智能大模型的因果处理提供了支持途径。[5]ChatGPT类生成式人工智能在巨量的语料库资源基础上,利用自然语言处理技术(Natural Language Processing, NLP)学习大量的语言知识,在因果性的概率解释的框架下自动分析并生成人类知识结构中已有的信息内容。然而,通用大语言模型的训练参数规模过大会导致训练成本呈指数级增加,且可能无法满足教育、医疗等专业领域的应用需求,大语言模型的发展由“通用”迈入“垂类”。垂直领域人工智能通过类脑神经网络和大量专业语料库预训练,催生“思维链CoT(Chain of Thought)”[6],使人工智能具备了一定的生成推理路径的能力,能够围绕思想政治教育等特定领域话题展开话语内容。因此,打造思想政治教育的教学知识图谱和专业语料库,是结合时代发展特征和思想政治教育对象思想变化特点,研发思政“垂类”大模型、推出思政类生成式人工智能的基础,也为同步推动人工智能与教育元宇宙深度融合、打造智能交互的思政教学环境奠定技术基础。
(二)数据维度:为人工智能嵌入思想政治教育数字化提供数据支持
凭借自动抓取数据、智能学习生成内容的技术特性,生成式人工智能正在以外显性的、数字化的方式改变着传统思想政治教育信息生产过程。一方面,语料库是思想政治教育数字化底层要素。海量的训练数据是ChatGPT类技术智能内容生成的前提与基础,仅ChatGPT在预训练阶段就拥有高达千亿级别的模型参数和“超过1750亿的巨量标注文本数据”[7]。而人工智能与思想政治教育的关联和契合依然离不开数据支持,需要通过采集、整合、分析和归纳大量思政数据资源,打造多场域、多空间、系统化的基础数据和相关数据语料库,为思想政治教育明确目标、丰富内容、拓展手段提供可靠依据。另一方面,语料库支撑着思想政治教育数字化的数据构成。“智能时代的大数据实现了物的数据化、人的数据化与活动的数据化”[8],人工智能时代的到来或将成为思想政治教育从“数据化”跃升至“数质化”的全新发展阶段。要完成对思想政治教育数据的质化,需要对语料库持续进行语组分析、相关分析、语义分析,不断发掘思政数据特征、总结数据规律,实现对语料库数字化建构与思政内容指代提取,为思想政治教育持续生产高质量的语料信息,推动人工智能思想政治教育从单一性向数字化、智能化、交互化的多样性发展。
(三)内容维度:为人工智能思想政治教育话语交互生成确立内容样态
推动思想政治教育的发展不能仅仅依靠其自身初始的动力,还需要借助人的力量,通过多种方式的扩展和教育内容形式的深化,真正实现思想政治教育的目标。当前,ChatGPT类生成式人工智能虽然借助少量数据进行相应微调即可实现基于一个模型解决多种问题或完成多项任务的目的,但人工智能生成内容(Artificial Intelligence Generated Content, AIGC)目前依然不具备完全自发自主生成内容的能力。生成式人工智能依然是在吸纳大量的数据进行“整体语境学习”[9]的基础上,通过分析数据、整合信息、关联语境等方式,在语料库内容样态内完成对公开知识、数据、语言的整合,实现在一对一的交互场景中输出更符合用户实际需求的精准化、差异化的内容。在这个过程中,每一个跟人工智能进行交流对话的用户都将成为人工智能的数据库和语料库,而人工智能技术所生产的新话语、新内容也在不断丰富人类的语言库与智慧库。因此,以建立对话式连接为信息交互和情感共鸣为内容样态,扩充思想政治教育内容资源库,将生成式人工智能内容生成嵌入思政育人环境塑造中,有利于在“人—机器—人”三元关系中持续创造出话语内容生产和供应的繁荣生态,实现思想政治教育全学段融通的一体化发展。
(四)意识维度:为生成式人工智能大模型意识形态重塑明确价值导向
“话语背后是意识形态的幽灵。”[10]思想政治教育话语是思想政治教育话语权的基础,人与人之间的双向交流和互动共同构成了思想政治教育话语的实际运用。ChatGPT类生成式人工智能接受了大量的反映人类社会的价值观语言和语料数据,学习归纳后进行模仿式、缝合式创作,生成的内容不仅包括文本、图像等外显性内容,同样包括观点、逻辑、思维等内隐性内容,两种明暗交织的内容生成逻辑反映和重构着个体原有的意识形态。在语料库训练与情感表达中,人工智能大模型利用大数据编码构成语料分子单位,对原有的情感、价值、态度重新进行定位与排列,借助算法生成和解码程序输出人机交互对话的信息内容,呈现出用户情感、思想意识的编码与解码双重属性。而在语料库输入与结果生成中,ChatGPT等生成式人工智能以高度拟人化的“对话者”身份介入原先机械僵硬的人机交互,随着“技术对人的凝视”[11]主体拟人化的发展,凝视的环境会由单向的信息流推送至丰富的可交涉的社交环境中。在语料库价值属性和工具理性交织下,用户甚至可能打破原有的“合规性”,重塑传统思想政治教育话语传播体系,重新定义人机交互的方式和行为实践,形成新的意识形态话语和价值观导向,在话语转换中完成思想政治教育的价值建构。
二、当前思想政治教育生成式
人工智能语料库建构的现实困境
习近平总书记强调:“科技是发展的利器,也可能成为风险的源头。”[12]基于智能技术的“双刃剑”效应,生成式人工智能赋能思想政治教育,其技术优势所带来教育现代化、高质量创新发展的机遇,也会“表现为异己的、敌对的和统治的权力”[13],在技术、数据、内容、意识等层面带来多重风险与现实挑战,如图2所示,思想政治教育的规训性和解放性功能存在被不断弱化的现实困境。
(一)技术失控:语料库数字化鸿沟和技术壁垒
马尔库塞(Herbert Marcuse)就曾批判资产阶级通过技术使人们“爱和恨别人之所爱和所恨”[14],导致人们爱和恨人工智能之所爱和所恨的荒诞情形出现。人工智能技术融入思想政治教育的核心要义应当是“思政”,即以实现主流思想价值引领和满足个体全面发展需求为目的,然而技术权威性偏见和市场垄断很容易导致语料库数字化鸿沟和技术壁垒。在语料库训练过程中,人工智能大模型存在以群体性符号标定个体特征的数据化逻辑,偏重于语料数据中被视为权威或有影响力的内容和观点。而大规模语料库的建立和维护门槛过高,以及技术壁垒,又会导致某些技术开发者在生成式人工智能领域形成市场垄断,如谷歌的LaMDA和PaLM,Meta的LLaMA,英伟达/微软的Megatron-Turing等。思想政治教育语料库建构既存在人工智能语料库数字化鸿沟和技术壁垒等发展共性问题,又会因前期发展起步较晚、技术基础相对薄弱、资金支撑不足等原因,阻碍思想政治教育数智化进程,甚至出现人工智能技术对思想政治教育的规约和绑架。
(二)数据失衡:思政语料库建设不足和数据“饥饿”
“大语言模型的性能取决于训练数据的质量和数量。”[15]在思想政治教育智能场域中,生成式人工智能从思想政治教育语料库的原始特征出发,通过自我训练和自我学习来生成高级认知结果,实现围绕思想政治教育内容的人机交互式反馈。在整个过程中,语料库数据上的细微偏差会直接导致对学生世界观、价值观和人生观的误导,甚至对整个教育体系造成不良影响。思想政治教育这种对数据极高的政治敏感性,决定了国外语料库的意识形态、政治立场、语汇色彩等不能有效地被我们采用。而国内的中文语料库建设虽然取得一定的成就,但各大机构、各行业“数据烟囱”林立,数据无法聚合集约和互联互通,存在“总量”的不足问题。当人工智能模型数据清洗筛选的参数数量达到一定阈值时会呈现出规模报酬递减现象,此时语料库过拟合问题就容易发生,数据邻避冲突风险的增加导致“数据饥饿(Data Hunger)”[16]。技术在思想政治教育内容生成中的投入和应用不足,语料数据的“增值”和“质化”效应便会随之下降,人工智能以符号化的数据换算代替意义和价值传递,教育对象在数据失衡与主体性消解的教育过程中逐渐退化为“单向度的人”。
(三)内容失范:信息交互被动性和内容“黑箱”
在整个思想政治教育系统运行过程中,教育者与教育对象的信息交互是提升教育结果有效性的关键所在。齐泽克(Slavoj Zizek)交互被动性(Interpassivty)理论认为:“作为主体的‘我’在与客体互动时,客体有时候会从‘我’这里拿走、剥夺我自己对满足感(或哀悼、欢笑)的被动反应,以至于客体本身代替我享受了节目。”[17]基于自身超大体量的语料库模型和数据关联性,人工智能大模型很可能会模糊化主客体关系,从海量的匿名化处理的信息关联中推断出完全不相关个体隐私,在“黑箱”模式下对语料信息内容进行整合再造,生产出公众难以预测的文本内容,甚至为了维护自身的逻辑一致性故意输出语义错误的内容。信息交互被动性和内容生成“黑箱”问题,会导致思想政治教育主体在与客体人工智能对话时,不仅被动地接受客体传递的内容信息,主体的被动接受或享受也会被人工智能客体本身所替代。在内容失范中,思想政治教育工作者和教育对象沉浸于充当数字技术、符号化的虚拟角色,语料库中塑造世界、判断价值的话语权转移到人工智能客体,由此智能技术赋权转向智能技术越界,遮蔽了思想政治教育话语权。
(四)价值失真:语料意识形态偏差和话语“污染”
思想政治教育与智能技术融合发展并未改变其作为社会主导意识形态教化的本质属性,作为同属于人工智能思想政治教育场域中的载体,语料库依然具有意识形态属性。当机器学习运用具有明显意识形态问题的语料库时,人工智能便开始由被动的工具性角色转向主动的意识形态构造工具。例如,ChatGPT的语料库绝大部分是英文,“中文语料在总语料中占比不足0.1%,且其中包含繁体中文”[18]。这些以英文为主的语料很可能存在跨文化的伦理冲突、价值观错误、意识形态偏差等人为性的“污染”问题,生成式人工智能在训练过程中可能会“继承”人类知识中的不合理因素,在后续生成回应中会提供大量带有意识形态倾向甚至伪造的信息,甚至反向塑造个体的原有思想意识。由于生成式人工智能具有强大的文本生成能力,语料库数据意识形态偏差和话语“污染”,会导致其生成与思想政治教育内涵要求相悖的话语信息,价值的失真限制了思想政治教育议题的输出与表达,削弱了思想政治教育的话语权威,使思想政治教育在价值引领、政治导向、凝聚共识等方面逐渐式微,甚至影响到主流意识形态安全。
三、思想政治教育生成式人工智能语料库建构的实践路径
习近平总书记指出:“要运用新媒体新技术使工作活起来,推动思想政治工作传统优势同信息技术高度融合,增强时代感和吸引力。”[19]2023年7月,国家网信办等七部门联合公布的《生成式人工智能服务管理暂行办法》明确要求:“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动。”[20]在人工智能大模型领域,我们既要看到与西方国家在技术方面存在的差距,也要看到语料数据背后隐含的与西方国家意识形态的差异。老子的《道德经》曾曰:“道以明向,法以立本,术以立策,器以成事。”对于思想政治教育工作者而言,要站好自己的意识形态立场,用符合我国国情的话语体系和语料库来规制人工智能运行,立足底层逻辑和顶层设计融合质变,借助中国“道法术器”哲学智慧探索思想政治教育与人工智能技术的深度融合之路,层层推进、自下而上,打造囊括思想政治教育全局、全方位、全过程的人工智能语料库,推动新时代思想政治教育工作的守正与创新。基本模式如图3所示。
(一)底层逻辑:以技利器,自主创新,建设有中国特色的语料库新型数字基础设施
2021年教育部等六部门发布的教育“新基建”等相关政策强调要大力发展基于人工智能技术的教育助手等应用以提高教育教学质量。[21]语料库作为生成式人工智能的技术基础,具有多产业通用接入、多领域广泛应用的特征,未来极有可能成为社会的一种基础设施或生产要素,成为教育场景智能化的底层范式。要通过政策引导、物质保障、技术合作、多方参与等方式,加大语料库数据和人工智能新型基础设施建设,以技术为“器”,解决底层“卡脖子”难题,确保核心技术自主可控,实现“智能技术+思想政治教育”底层逻辑的有机融合。
第一,破解技术垄断,实现思政语料库数据互联互通。“核心技术受制于人是我们最大的隐患”[22],面对人工智能给思想政治教育带来的影响以及西方国家语料库技术,要树立大语料库理念,重视语料的现实价值,以大数据、云计算为基础条件,持续加大对人工智能语料库的基础设施建设和研发投入。以“智能技术+”模式建构新的语料要素结构,找准底层技术开展长期主义的创新攻坚,坚持走中国特色自主创新道路,打造具有国家级水准、以国家通用语为对象的国家思想政治教育语料库,“全国一盘棋”实现语料资源互联共享融合应用。
第二,保障数据链安全,确保契合思想政治教育环境。立足教育的公共性原则,制定符合新时代发展要求和契合思想政治教育现状的语料库技术标准,建构服务于思想政治教育需求的语料数字化基站,以此为锁链实现思想政治教育与人工智能的融通与联结。对思想政治教育语料数据链的安全性及时进行审查、判断和评估,坚决消除因语料库资源差异而造成的数字鸿沟,确保人工智能语料库契合思想政治教育领域环境。
第三,坚持自主创新,建设有中国特色的思想政治教育语料库。科技领域安全是国家安全的重要组成部分,无论是从政治安全、技术竞争、文化保护,还是教育内容供给角度考虑,我们必须加快自主创新,加快“卡脖子”核心技术攻关。依托国家大数据中心、国家图书馆、国家智慧教育平台等机构单位建构高质量的国家语料数据资源平台,配备完善支持思想政治教育语料库建设的硬件基础设施,制定规范语料库使用审核机制。按照“物理分散,逻辑集中”的原则,接入国内各类人工智能大模型语料库,利用好“东数西算”等国家一体化大数据中心开展协同创新,以合力建立起层层相扣、协同相连的人工智能思想政治教育语料库共同体,为推动思想政治教育变革提供强大的数字基座。
(二)中层耦合:以术驭数,范式引导,建构思想政治教育话语要素有效供给语料库
语料数据既是数字资源也是社会资源与政治资源,生成式人工智能程序只有在满足主流意识形态要求的前提下才能够保持恒久的生命力。面对“数据主义”[23]掀起几乎所有领域的颠覆性革命,要将符合社会主义核心价值观的语料库作为思想政治教育人工智能语料库建设与使用的基础,从可用之维与增智之维两个层面,为语料数据运用适恰、育人效果增强提供现实动能和教育场域,推动主流意识形态之“术”对人工智能语料库的全面“驾驭”,实现思想政治教育与人工智能连接中枢的良性“耦合”,提升思想政治教育的亲和力、针对性与时效性。
首先,建立健全思政语料库数据预处理语法规则。乔姆斯基(Noam Chomsky)提出的生成语法规则理论认为:“在生成话语的过程中,只用那些必需的规则。那么,可以把语法的任选规则看成是产生某个话语过程中的选择机制。”[24]我们可以通过融合马克思主义中国化场景,主动筛选思想度高和生动性强的思政资源,将更具代表性和时效性的数据纳入“语料池”。借助“训练—反馈—纠错—再训练”语料库要素循环系统,使机器在语言交流中生成符合思想政治教育的语法规则,打造全域性的思想政治教育语料库资源整合和数字服务平台。
其次,优化语料库Prompt指令范式引导。Prompt驱动大模型对文本描述进行表达,主要实现方式是通过建立相应的语料库和语义解析模型,将用户输入自然语言的分词结果与语料库中的关键词进行匹配,实现用户与机器之间的沟通。通过将Prompt范式的指令与以思想政治教育知识点为核心的教学资源组织方式相结合,扩充思想政治教育语料库和优化语义模型,让每个指令对应一个语料库中的关键词序列,建立兼具知识性、人文性、时代性与思想性的思政数据资源矩阵。
最后,建构开放、共享、高质量的思想政治教育语料库。语料库是人工智能大模型以技术为介质将公众观点“全数据化”分解的结果,中文语料库尤其是思政语料库的质量对思政专用大模型的学习和表现至关重要。要坚持用全局观念和系统思维建设语料库技术通用标准,通过整合全国马克思主义理论教育教学资源,推动思政课优质教学资源建设与共享,[25]加快建构开放、共享、高质量的思想政治教育语料库,持续强化思想政治教育大模型的泛化能力。
(三)上层构造:以法入理,落实价值旨归,建构高质量标注的人工智能思政大模型语料库
作为人类社会最普遍的实践活动,思想政治教育在人工智能的赋能下具备了更多的时代内涵,但其核心依然是帮助探求人类自身存在的本质,服务于人的自由全面发展。思想政治教育语料库要在符合审慎、合法、社会责任、尊重主体等伦理规范前提下,建立一整套符合社会主流价值要求以及教育对象思想需要的高质量的标注方法论,以语料库的“法”来规制内容生成,以上层内容为核心建构“人—内容—物”的价值链,使人工智能信息的生产、输出符合正确的政治方向与舆论导向,落实思想政治教育以人为本的价值旨归。
第一,以人为本,明确思政语料库协同保护基本法则。马克思认为技术的本质是人的延伸,技术的目的在于“解蔽主体”。在遵循技术服务于人的需要的根本前提下,要强化对语料库风险识别和数据溯源,及时出台人工智能应用于思想政治教育“教、学、管、评”各环节相应的政策法规,建构分级分类的语料库数据知识产权、隐私保护和数据共享保护体系,确保人工智能大模型的开发、应用符合思想政治和科技伦理标准。
第二,智能筛选,共建思想政治教育内容多模态语料库。立足思想政治教育领域这一特殊性与鲜明特色,明确特殊思想政治敏感数据、重要数据的安全标准,采用差异进化算法对语料库的内容进行智能筛选,以获得更广泛的统计趋势和更真实的思政数据模型。通过语料库可视化管控、远程督导和安全预警,持续增强“数据化过程的可见性、可解释性”[26],借助模型训练、数据供给、第三方服务等多方力量,共同打造多模态、标准化的思想政治教育语料库。
第三,强化标注,塑造智能“降噪”思想政治教育语料内容体系。香农(Claude Elwood Shannon)认为在一个信息化平台中信息与噪音的区分取决于其与系统的匹配程度,即系统可以解读的就是一种信息,无法解读的便是噪音。[27]专业化标注数据质量将直接影响思想政治教育大模型的学习效果,在数据训练过程中通过加强标注质量控制,采用无监督的对比式学习、自动化标注和人工审核相结合的方式获取语料文本向量表征,以提高思想政治教育语料库的标注质量。通过完善信息预警渠道,建立健全对不良生成内容的识别和阻断机制,从语料库源头上加强对网络信息全方位无死角的监督管理,消除无用信息和不良信息的“噪音”和“杂音”干扰,以语料库价值塑造思想政治教育人工智能大模型话语生态系统,实现思想政治教育内涵式和外延式发展的协调统一。
(四)顶层设计:以道明向,意识先导,建构思想政治教育人工智能价值观语料库
毛泽东同志曾指出:“掌握思想领导是掌握一切领导的第一位。”[28]意识形态工作是一项为国家立心、为民族立魂的工作,是“党的一项极端重要的工作”[29]。需要注意的是,生成式人工智能在接触不同来源语料库和价值观迥异的对象过程中,语料内容可能被不同赋值、定义、变换,逐渐演变为“另一种意识形态国家机器”[30]。作为思想政治教育工作者必须站稳政治立场,坚持用马克思主义理论引领思想政治教育,强化顶层设计能力,生成式人工智能语料库的建构将遵循和弘扬社会主义核心价值观,坚持用价值观的“道”规制人工智能发展方向,打造体现时代理论需求的中国特色语料库意识形态话语体系。
一要坚守政治立场,明确人工智能赋能思想政治教育的实践走向。在正确政治立场和价值观念的话语下应用,是人工智能介入思想政治教育的基本要求。要立足于思想政治教育价值立场,发挥社会主义核心价值观的价值引领作用,主动消解语料库建构过程中工具理性僭越价值理性问题。针对生成式人工智能语料库技术标准以及相关数据规则做出规范,探索建立具有中国特色的生成式人工智能技术体系。把握思想政治教育语料库话语意识形态迁演与人工智能话语跨场域之间的价值平衡,实现价值逻辑统合生成式人工智能技术逻辑。
二要坚定价值取向,推动建立人工智能语料库多元协同共治体系。生成式人工智能语料库容纳的是整个社会公众政治价值观,要通过提高社会主流价值观和优质思想政治教育内容赋值在语料库优先级的比重,使技术服务回归“主流意识形态的主导和灌输”[31]这一思想政治教育的本质。采用传统治理手段与现代信息技术优势结合方式,“着力打造技术识别机制、建构价值监督体系”[32],全面监管生成式人工智能语料库的开发部署、安全风险评估和合规性检查,建立合目的性与合规律性相统一的人工智能价值观语料库。
三要筑牢价值根基,建构思想政治教育人工智能价值观语料库。“在坚持马克思主义指导地位这一根本问题上,我们必须坚定不移,任何时候任何情况下都不能有丝毫动摇。”[33]要始终坚持用中国化和时代化的马克思主义教育人民、武装头脑,为教育者、受教育者制定合理使用人工智能的提问方式和准则,掌握生成式人工智能话语生产的规则。坚持从辩证唯物主义与历史唯物主义相结合的角度出发,将马克思主义世界观和方法论融入人工智能语料库的逻辑体系,以社会主义核心价值观优化语料库“内嵌式规则”伦理取向,坚决纠正技术的工具理性偏向,利用价值思维和技术思维相结合的思想政治教育语料库新模式,更好地实现人工智能时代背景下思想政治教育立德树人的根本任务。
四、结语
理论唯有经得起实践检验才能说服人。面对ChatGPT这类更高效、更便捷的智能技术介入思想政治教育,我们既不能无度放任人工智能的失范应用,也大可不必有柏拉图式的“文字即将替代口语焦虑”[34],毕竟“机器体系的节奏是人根据生活中的管理技艺而预订的”[35],生产力工具与人的关系并不能简单地替代。生成式人工智能是深入思想政治教育内在本质与发展规律的实践性赋能。我们要从回归现实的人的战略高度考量与审思,以系统化思维发掘新时代思想政治教育的规律,将社会主义核心价值观融入思想政治教育生成式人工智能语料库建构中,在语料库技术逻辑、价值遵循的权衡和超越中推动思想政治教育范式变革与规范性建构,实现思想政治教育与人工智能技术,以及教育者主导性与教育对象主体性的双向赋能、有机统一。
参考文献:
[1]JOHN MCCARTHY, MARVIN MINSKY, et al. A proposal for the Dartmouth summer research project on artificial intelligence, August 31, 1955[J]. AI Magazine, 2006,27(4):12-14.
[2]ALEX ENGLER. Early thoughts on regulating generative AI like ChatGPT[EB/OL]. (2023-02-21)[2023-09-02]. https://www.brookings.edu/blog/techtank/2023/02/21/early-thoughts-on-regulating-generative-ai-like-chatgpt/.
[3]新华网.中共中央政治局召开会议 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议[EB/OL].(2023-04-28)[2024-09-06].http://www.xinhuanet.com/politics/2023-04/28/c_1129576764.htm.
[4]卢岚.从互联网到ChatGPT:思想政治教育的技术重塑与建构逻辑[J].探索,2023(2):163-174.
[5]尤洋,郭宇.ChatGPT与因果性[J].科学学研究,2023,41(12):2122-2130.
[6]TALMOR A, TAFJORD O, CLARK P, et al. Teaching pre-trained models to systematically reason over implicit knowledge[C]. NeurIPS, 2020:1-11.
[7]BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020(33):1877-1901.
[8]赵建超.思想政治教育与人工智能深度融合的内在机理[J].思想理论教育,2023(8):94-100.
[9]蓝江.生成式人工智能与人文社会科学的历史使命——从ChatGPT智能革命谈起[J].思想理论教育,2023(4):12-18.
[10]侯惠勤.意识形态的变革与话语权——再论马克思主义在当代的话语权[J].马克思主义研究,2006(1):45-51.
[11]张敬威.ChatGPT的教育审思:他异关系技术的教育挑战及应用伦理限度[J].电化教育研究,2023,44(9):5-11,25.
[12]新华网.习近平:在中国科学院第二十次院士大会、中国工程院第十五次院士大会、中国科协第十次全国代表大会上的讲话[EB/OL].(2021-05-28)[2024-09-06]. http://www.xinhuanet.com/politics/2021-05/28/c_1127505377.htm.
[13]马克思,恩格斯.马克思恩格斯文集:第8卷[M].北京:人民出版社,2009:358.
[14]马尔库塞.“单向度”的人——发达工业社会意识形态研究[M].11版.刘继,译.上海:上海译文出版社,2014:175.
[15]徐月梅,胡玲,赵佳艺,等.大语言模型的技术应用前景与风险挑战[J].计算机应用,2024,44(6):1655-1662.
[16]YOAV GOLDBERG. Some remarks on large language models[EB/OL]. (2023-01-15)[2023-09-22]. https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8a9.
[17]齐泽克.幻想的瘟疫[M].胡雨潭,叶肖,译.南京:江苏人民出版社,2006:112.
[18]NOTTOMBROWN. GPT-3/dataset_statistics/[EB/OL]. (2022-06-02)[2023-09-29]. https://github.com/openai/gpt-3/tree/master/dataset_statistics.
[19]新华社.习近平:把思想政治工作贯穿教育教学全过程[EB/OL]. (2016-12-08)[2024-09-06]. http://www.xinhuanet.com/politics/2016-12/08/c_1120082577.htm.
[20]中国网信网.国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》[EB/OL].(2023-07-13)[2023-09-27]. http://www.cac.gov.cn/2023-07/13/c_1690898326795531.htm.
[21]教育部.教育部等六部门印发意见部署教育新型基础设施建设[EB/OL].(2021-07-22)[2023-09-28]. https://www.gov.cn/xinwen/2021-07/22/content_5626540.htm.
[22]新华社.习近平总书记在网络安全和信息化工作座谈会上的讲话[EB/OL].(2016-04-25)[2024-09-06]. https://www.cac.gov.cn/2016-04/25/c_1118731366.htm.
[23]史蒂夫·洛尔.大数据主义[M].胡小锐,朱胜超,译.北京:中信出版集团,2015:89.
[24]诺姆·乔姆斯基,安东尼·阿诺夫.乔姆斯基精粹[M].李梅,译.上海:上海人民出版社,2021:496-497.
[25]李梁.基于语料库及其技术的思政课优质教学资源建设与共享研究[J].思想政治课研究,2020(3):94-98.
[26]刘军,雷亮,钟昌振,等.生成式人工智能的教育应用监管路线图——UNESCO《教育和研究领域生成式人工智能使用指南》解读与启示[J].中国教育信息化,2024,30(8):13-28.
[27]CLAUDE ELWOOD SHANNON. Communication in the presence of noise[J]. Proceedings of the IRE, 1949,86(1):10-21.
[28]毛泽东.毛泽东文集:第2卷[M].北京:人民出版社,1993:435.
[29]新华网.习近平:意识形态工作是党的一项极端重要的工作[EB/OL].(2013-08-20)[2024-09-06]. http://www.xinhuanet.com/politics/2013-08/20/c_117021464.htm.
[30]路易·阿尔都塞.论再生产[M].吴子枫,译.西安:西北大学出版社,2019:177.
[31]《思想政治教育学原理》编写组.思想政治教育学原理(第2版)[M].北京:高等教育出版社,2018:81.
[32]阮李全,封星月.新时代高校思政课数字化转型:困境与突围[J].中国教育信息化,2024,30(8):120-128.
[33]新华社.习近平:在庆祝中国共产党成立95周年大会上的讲话[EB/OL].(2016-07-01)[2024-09-06]. http://www.xinhuanet.com/politics/2016-07/01/c_1119150660.htm.
[34]哈罗德·伊尼斯.帝国与传播[M].何道宽,译.北京:中国大百科全书出版社,2021:62.
[35]刘易斯·芒福德.技术与文明[M].陈允明,王克仁,李华山,译.北京:中国建筑工业出版社,2009:279.
Construction of Generative Artificial Intelligence Corpus for Ideological
and Political Education: Value Dimensions, Realistic Dilemmas, and Practical Paths
Qiang SHEN, Xiankui LUO
(School of Marxism, Wuhu Institute of Technology, Wuhu 241003, Anhui)
Abstract: The emergence and promotion of generative artificial intelligence, represented by ChatGPT, marks the transition of artificial intelligence from discriminative AI models to generative AI models. As a text generation deep learning model based on available data training on the Internet, generative artificial intelligence is pretrained by connecting a large number of corpora, which is an important infrastructure for it. Building a generative artificial intelligence corpus for ideological and political education can lay a technical foundation, provide data support, establish content patterns, and clarify value orientation for establishing a large language model that conforms to the rules of artificial intelligence communication in ideological and political education. In the process of constructing corpus, there are such problems as digital divide, insufficient investment in construction, interactive passivity, and ideological bias, which have led to practical difficulties such as technological loss, data imbalance, content loss, and distorted consciousness. We need to build a generative artificial intelligence corpus for ideological and political education with Chinese characteristics from the perspective of people returning to reality, based on underlying logic, middle level coupling, upper level structure, and top-level design, with the principles of independent innovation, paradigm guidance, value orientation, and consciousness guidance, from the construction of new digital infrastructure, effective supply of discourse power, high-quality quantity labeling, and artificial intelligence values, using a discourse system and corpus that are in line with China’s national conditions to regulate generative artificial intelligence, promoting the transformation and normative construction of ideological and political education paradigms in the balance and transcendence of technological logic and value adherence, and achieving the effective empowerment of artificial intelligence corpus on ideological and political education.
Keywords: Ideological and political education; Generative artificial intelligence; ChatGPT; Corpus
编辑:王天鹏" "校对:王晓明