内容生成式AI赋能教育出版知识服务的现实困境与优化路径
2023-10-20聂静宗利永
聂静?宗利永
【摘要】将内容生成式AI应用于教育出版知识服务领域,可以打破时空限制,赋能教育出版知识服务活动。AI优秀的交互性能和出色的编辑生成能力可以助力教育出版知识服务的内容生产理念变革、产品开发交互方式创新、应用场景拓展以及成本的有效降低,但教育出版知识服务应用落地的推进尚存在准确性不稳定、侵权风险加剧、伦理失范凸显、教育评价机制失衡等现实问题。对此,教育出版知识服务应加强技术前端的伦理治理,提高预训练模型的针对性,降低知识服务侵权风险,引入多元评价主体。
【关 键 词】人工智能;内容生成式AI;教育出版;知识服务
【作者单位】聂静,上海出版印刷高等专科学校;宗利永,上海出版印刷高等专科学校。
【基金项目】全国教育科学“十四五”规划2022年度教育部重点项目“人工智能时代在线教育知识服务研究”(DFA220433)。
【中图分类号】G230.7【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.15.009
人工智能时代,教育出版知识服务智能化转型需要突破原有的服務范围,从知识生产与传播转变为提供复合型的知识解决方案。国务院印发的《新一代人工智能发展规划》指出, 我国人工智能的发展重点包括大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统。其中,前三项与教育出版知识服务智能化密切相关[1]。在提升教育出版知识服务的人格化、场景化、智能化与公平化中,“数据”和“服务”是关键。2022年底,ChatGPT的横空出世成为公众关注的热点话题,其强大的内容生成能力让业界看到了内容生成式AI可延伸的广阔边界。内容生成式AI利用人工智技术生成内容,被认为是继专业生产内容和用户生产内容之后的新型内容创作方式,在文本、音视频、代码、3D建模等领域拥有显著的技术优势。目前,内容生成式AI的代表性产品有ChatGPT、Stability AI、谷歌“Imagen Video和Phenaki”、微软“小冰”、百度“文心一言”等。内容生成式AI的走红,正是因为人工智能实现了从感知、理解世界到生成、创造世界的跃迁[2]。将内容生成式AI应用于教育出版知识服务领域,可以打破时空限制,真正赋能教育出版知识服务活动。
一、内容生成式AI赋能教育出版知识服务的创新变革
1.助力教育出版知识服务的理念变革
数字化转型时代,教育出版知识服务不仅丰富了用户的知识储备,而且培养用户具备人工智能难以取代的创造性、迁移性、社会情感等技能。教育决定人类的未来,内容生成式AI赋能教育出版知识服务必须以人本逻辑为出发点,强调发挥人的认识主体性和实践主体性,以服务用户核心技能的形成为目标,培养用户具备应对未来技术挑战的能力。技能形成需要以知识积累为基础,并在外部场景变化中不断演练。内容生成式AI有助于教育出版知识服务拓展虚拟应用场景,推进用户知识与技能的迭代转换。
2.助力教育出版知识服务的人性化交互创新
内容生成式AI作为以用户为核心的个性化信息分发与内容创造工具,可适应多任务、多场景、多功能需求,能够依据用户提供的信息,利用千亿字数量级的数据训练成果生成符合用户个性化知识需求的内容。以ChatGPT为代表的内容生成式AI突破了以往人工智能侧重理性逻辑表达的边界,其在深度学习过程中融入关系计算和情感计算,能够以人的价值逻辑和思考方式进行文本分析,对给定文本的语气、情感进行识别,对个性化内容进行解剖,并以与人类高度相似的知识理解水平与回复生成能力进行反馈,大幅提升了知识服务过程中人机交互的自然性。作为教育出版知识服务的智能助教,以人性化对话沟通方式为主的内容生成式AI能够在很大程度上增加用户在平台上的留存时间,增强用户黏性。
3.助力教育出版知识服务的应用场景拓展
内容生成式AI的开源模式可汇聚多方教育出版知识服务主体的智慧,实现优势互补、资源整合,助力教育应用场景开发。多模态技术是内容生成式AI的底层技术之一,音频、文本、图像、视频等都可被称为一种模态。多模态数据治理有利于教育出版知识服务环境的管理,实现知识服务形态在物理空间和虚拟空间的快捷切换。具身认知理论认为,人的认知是身体和环境互动的结果,这里所指的身体包括听觉、视觉、嗅觉、触觉、脑电等多种模态。AI跨模态深度学习能够实现对教育出版知识服务多模态数据的理解,在此基础上,跨模态生成全新的知识内容,能够极大地提高人机沉浸式交互体验。
4.助力教育出版知识服务的降本增效
内容生成式AI具有强大的数字内容孪生能力、编辑能力和创作能力,可以大幅降低教育出版知识服务多模态内容的生产成本。传统数字人制作通过三维建模技术生成人物,耗时长、计算量大、成本高,而使用内容生成式AI用户仅需上传照片或视频即可在1分钟内完成建模,不仅成本低,还可以实现个性化定制[3]。例如,英伟达发布的内容生成式AI模型GET3D根据训练的2D图像,实现了每秒生成20个3D集合体的效率和速度。语义分析模型从对文本的理解升级为对文本的分析归纳总结,用户只需输入零星散乱的内容资料,内容生成式AI就能够自主提炼出结构化内容,这将实现教育出版知识服务内容生产的零成本,加之内容生成式AI具有优秀的交互功能及通用性能,其在内容分发方面具备天然优势,应用成本将同步降低。
二、内容生成式AI在教育出版知识服务中的细分应用场景
1.面向思维训练的知识服务
世界银行将现代社会所需的技能类型分为认知技能、社会和行为技能、技术技能三大类,进一步强调了具备认知技能和解决问题能力的重要性,并提出高阶思维技能(如计算思维、推理、创造性思维等)是认知技能的核心。面对现实世界中的复杂性问题,用户的解决策略具有共通性,但更多的是差异性,内容生成式AI依靠庞大的数据资源可以为用户提供丰富的训练主题,借助不同的主题培养用户掌握“如何从真实世界中选择研究对象”“如何从研究对象中发现真实问题”“如何针对问题寻找解决路径”“如何选择合适的支持工具”“如何建立可以迁移的问题解决模型”等推理思维[4]。这种思维训练能够充分发挥用户的主体性,帮助用户逐步达到从问题到方法、从简单到复杂、从过程到结果的思维进阶。
2.面向学习行为助理的知识服务
基于内容生成式AI的教育出版知识服务能够为用户提供个性化和定制化的学习体验:强大的文字处理功能和数据分析功能可以辅助用户进行跨学科自学、翻译、编程等学习活动;根据用户需求推荐有针对性的多媒体内容资源;通过人机对话交流方式提升用户的学习参与度,促进合作学习;借助优秀的预测能力和分析能力在主题探究活动中为用户提供有益启示,促进用户展开探究学习,培养创新精神和实践能力。
3.面向教研辅助功能的知识服务
内容生成式AI能够帮助教师完成一些简单的基础性工作:课前帮助教师设计教学大纲、课程讲义、生成教案等,教师只需进一步完善相关教学内容即可;课中可以根据教学需求、学情分析帮助教师形成多种创新的教学策略,增强教学的趣味性和互动性,提升教学效果;课后可以根据学生的学习情况帮助教师促进作业质量优化,监测学生学习效果,形成可视化教学质量评估报告等。此外,内容生成式AI还能辅助教师开展科研工作,通过其强大的数据采集能力、整合能力、分析能力,帮助教师进行科研选题前瞻性分析、科研项目可行性分析、科研成果转化等。
4.面向智慧客户画像的知识服务
智慧管理是指围绕教学科研业务领域形成的辅助性智慧化管理,包括业务管理(如内容服务、共享交流、智慧决策等)和综合管理(如用户管理、资源管理等)。内容服务主要是指针对用户的知识需求及行为习惯,自动生成个性化阅读推荐,帮助用户便捷地找到其所需的内容资源,并通过聊天机器人、数智人、互动游戏等形式打造虚实交互的沉浸式阅读体验空间,增强用户的阅读体验。共享交流主要是通过举办虚拟学术沙龙、版权授权交易等,为用户提供在线知识共享、增值服务等服务。智慧决策主要是满足用户在决策过程中对数据和信息的需求,为用户提供数据挖掘、定制知识库、学科竞争力评估报告等。用户管理主要是对用户的相关信息、教育背景、行为习惯、知识需求等进行分类整理,形成全面的用户画像。资源管理主要是对自有内容资源及开放获取学术资源进行多维度、细粒度、对象化的知识表示,深度探索关键技术攻关,构建富含语义的智慧知识中心[5]。
三、内容生成式AI赋能教育出版知识服务应用的现实困境
1.内容生成准确性不稳定
内容生成式AI属于机器学习模型,模型响应的质量和准确性取决于其训练数据的质量与多样性,海量数据并不代表海量高质量数据。现阶段,AI生成的内容在某些领域的准确性已经超过了人类专家结论的准确性,但在某些领域会给出逻辑看似合理但事实上并不正确的答案,这会直接影响教育出版知识服务用户的主体认知和价值观建构。造成内容生成式AI准确性不稳定的原因主要在于目前大多数AI系统在获取数据集时会优先考虑数据是否容易收集、是否可以获取,而非优先判断该类数据集是否适用、优质,并能够满足场景功能需求和应用目的。如果训练数据源头的质量不能得到保证,我们将无法准确把控AI生成内容的质量。AI获取的数据难免存在人为制造的谎言、偏见以及过时的知识或信息,如果AI将这些信息当作事实不断地进行训练并复现给现实世界,那么准确性失衡的恶性循环将不可避免。也许是出于AI产生的现实威胁,或出于权利人的著作权控制,人工智能在某些领域获取优质数据集的范围均受到限制。
2.知识产权侵权风险加剧
AI的核心竞争力在于其极强的机器学习能力,拥有庞大的语料库,能够不断进行数据挖掘和训练。预训练技术的主要思想是迁移学习,通过算法对数据量庞大的公开数据集进行分类整理,分析這些内容所表达的思想情感、所采用的语言特征、所特有的表达风格等,从中提取结构、规则、模式、趋势并自动构建特征,自主发掘有价值的内容,再将这些内容迁移到具体的目标场景中,通过目标场景的小数据集进行独立、持续的改进和优化。AI在预训练之前,首先要将文本转换成其能够理解的标准数据格式,再将这些数据复制并存储到机器中形成副本,这属于著作权法意义上典型的复制行为,如果预训练数据属于版权保护的客体范围,在未授权的情况下进行文本挖掘使用,将存在极大的著作权侵权风险。
同时,内容生成式AI的可版权性认定目前还存在争议,在现行知识产权法律体系下,包括我国在内的大部分国家,作品的作者仅有可能是自然人,AI还无法成为作品的作者。因此,北京互联网法院在“菲林案”中认为,AI不能成为作者,AI生成的内容也不能构成作品。但在“Dreamwriter案”中,深圳市南山区法院认为,AI生成的内容构成作品,受著作权法保护,且属于腾讯主持的多团队、多人分工形成的整体智力创作完成的法人作品[6]。
3.技术伦理失范凸显
教育出版知识服务不仅是知识的传播,还是丰富教育层面上人与人之间的精神互动。内容生成式AI在教育出版知识服务领域的应用如果过多依靠技术、算法,会导致用户过分依赖技术而忽略教学互动,这与教育的本质是相违背的。AI本身尚不具备价值判断能力,无法自我判断内容是否遵循教育伦理,其所依存的预训练模型在对人类社会过往数据学习总结的过程中,不可避免地会复制和延续当前社会既有的一些认知偏见。如果AI技术开发人员自身存在某些教育伦理认知偏见,就有可能在技术设计开发阶段有意识或者无意识地造成内嵌逻辑的价值失衡。这些算法缺陷会在一定程度上加深知识服务主体的偏见,对用户形成错误引导,而用户也在无形中受认知偏见的影响,形成认知固化。另外,AI获取的用户数据集本就存在结构性不平等和不平衡的现实问题,教育出版知识服务追求的教育公平性将无法得到保障。
4.教育评价机制失衡
对教育评价机制的冲击是内容生成式AI给教育出版知识服务带来的最大冲击。AI能够轻松拥有人类经过多年学习才能掌握的逻辑运算、语言表达、文章写作、总结概括、虚拟假设等能力,当知识被便捷调取并基于需求随时形成解决方案时,知识服务主体将难以辨别用户真实的理解水平、无法准确评价用户实际的学习效果,且难以量化评估用户内在的求知欲、创造力、想象力、社会责任感等综合素养。用户作为维持智能系统运转的数据来源,时刻作为被计算、被设计的目标,所谓个性化培养的过程也只是局部指标设定的结果,与教育评价的全面性并不相符。循环往复地片面理解用户,必将影响知识服务主体对用户知识需求的精准把握。智能技术时代,教育出版知识服务只有开发新的学习效果评价工具,建立新型教育评价机制和方式,重新认知智能化时代的用户需要学什么、怎么学,才能有效提升知识服务的效能。
四、内容生成式AI应用于教育出版知识服务领域的路径
1.加强技术前端的伦理治理,更好地体现教育本质
好的技术不仅要关注应用结果,还要重视开发过程。教育出版知识服务要加强对技术前端的伦理治理,注重开发团队的多元融合。例如:在技术开发、部署层面展开有效商谈,尊重教育规律,树立前瞻性、预防性的伦理设计意识,抑制无意识表达偏见;规范开发行为,明确技术开发设计主体的权责划分,坚持教育伦理的公正平等原则;确保算法程序制定的透明度和可追溯性,要求技术供应商公示说明算法使用的目的、伦理标准、具体参数、信息采集的范围、运行规则等,使教育服务消费者能够清晰地掌握个人信息采集的用途,当出现算法运行不当、侵害个人权益的状况时,能够及时追溯到相关负责人。
绝大多数从事AI科研工作的中坚力量没有经过专门的人工智能伦理教育与培训,为了使人工智能教育出版知识服务的科研开发人员承担起前瞻性的道德责任,科研机构需要将教育伦理原则转化为技术开发过程中的具体实践,设立一整套系统化的内部治理机制和技术解决方案,开展专业化的教育伦理培训。
2.提高预训练模型的针对性,更好地适配教育场景
为了拓展人工智能教育出版知识服务的应用场景,教育出版知识服务需不断优化和完善预训练模型:针对思维训练、助学服务、教研辅助、智慧管理等应用场景,为内容生成式AI后台数据库提供全面、动态的实践数据和事实材料;针对每一类应用场景构建标准化的输入框架和输出模板,并进行反复多次的预训练,以自动生成符合用户需求的内容;针对在实践中由于数据匮乏、质量参差不齐、多样性不足、版权冲突导致的难以获得有效数据材料等问题,教育出版知识服务机构可以定制合成数据作为真实数据的替代品或是增强集。现实世界中难以采集或者无法采集的场景数据也可以通过合成数据自动创建和生成,以有效提高内容生成式AI的场景适配性和准确性。合成数据可以更高效、更低成本、更高质量助力人工智能内容产业的未来发展,根据美国高德纳咨询公司预测,到2024年,用于训练AI的数据中将有60%是合成数据[7]。此外,在实践中运用合成数据还可以有效避免用户隐私泄露的问题。
3.完善数据标注,降低知识服务侵权风险
在机器学习和自然语言处理领域中,数据标注是机器智能化水平提升的重要一环。数据标注的质量和规模对提升人工智能的性能和泛化能力具有巨大影响。在训练自然语言处理模型时,需要大量的标注文本数据,数据特征越丰富,机器越能够理解自然语言的语法、语义和上下文信息,泛化能力越强,场景适用范围越广。虽然ChatGPT这类人工智能已经可以自动学习和生成文本,但要提高AI在教育出版知识服务这类专业领域的适配性和准确性,仍然需要具备专业知识的人力、设备来进行科学合理的人工标注。为了从源头上降低内容生成式AI的侵权风险,科研机构可以利用著作权制度中“思想和表达的二分法”理论,根据模型训练数据的抽象程度进行“思想”和“表达”标注,当生成内容只涉及训练数据集的“思想”时予以奖励,当生成内容不当使用训练数据集中的“表达”时则予以惩罚。
同时,科研机构可以在预训练中融入海量版权侵权案例,将独创性、复制、改编、合理使用、侵权行为等概念和规则编入算法设定,作为内容生成式AI的行动标准,让AI从认知逻辑层面明确哪些可为哪些不可为。如库兹韦尔就将防止剽窃他人作品的规则编入了“电脑诗人”RKCP的算法设计[8]。2023年1月10日起正式实施的《互联网信息服务深度合成管理规定》为AIGC在教育出版知识服务领域应用提供了很好的规范指引,多模态教学资源的合成和使用都应在法律允许的框架范围内展开。不断完善技术检测手段,强制性标注“AIGC”数据标签,可有效防止AI对学术生态的侵害。
4.明确各参与主体的角色、任务与责任,引入多元评价主体
教育出版知识服务可以辅助教育教學,但在技术与知识服务主体之间,须明确各自的角色、任务与责任。在具体的运行管理中,科研机构可将多方利益主体纳入 DAO 模型(所谓DAO,是指在区块链技术支撑上分布式存在的个体、内容和智能技术物通过算法聚拢,在智能合约和代币等公开透明的数字代码保障下自主生产、互动、流转价值的组织模式,这类组织具备超越第三方干预的自演化、自运转和自治理能力)[9],提高整个教育出版知识服务过程的透明度和公平性,通过智能合约明确各方的权利和义务,建立社区治理机制与共识机制。
教育出版知识服务机构要合理应用AI的技术功能,营造积极、健康的知识服务环境:注重辅助教师教学,加强与学生用户的情感交流,增强人文关怀,正确引导、监督学生正确使用人工智能技术;在提供内容资源整合时应做好研判,及时规避AI对尚不具备专业知识和能力的用户产生误导;积极引入多元评价主体,采用主客观相融合的评价体系,在该评价体系中,指标设计应覆盖基础知识体系架构、系统的问题解决能力、创造性的高阶思维模式、积极正向的人格特质等方面,以实现促进用户全面发展的目标。
|参考文献|
[1]田颂云. 教育出版的知识服务转型研究:愿景描摹、内在逻辑与实施路径[J]. 编辑之友,2022(6):33-38.
[2]腾讯发布AIGC发展趋势报告:迎接人工智能的下一个时代[EB/OL]. (2023-01-31)[2023-07-
16].https://mp.weixin.qq.com/s/9AjTpyL4HmQ6BDhW
IDbD0A.
[3] AIGC:Web3.0时代的内容生产革命[EB/OL].(2023-01-31)[2023-07-16].http://www.yitb.com/article-46181.
[4] 祝智庭,赵晓伟,沈书生. 技能本位的学习范式:教育数字化转型的认识论新见解[J]. 电化教育研究,2023(2):36-46.
[5]蔡子凡,蔚海燕. 人工智能生成内容(AIGC)的演进历程及其图书馆智慧服务应用场景[J]. 图书馆杂志,2023(4):34-43+135-136.
[6]梅傲,郑宇豪. 人工智能作品的困境及求解:以人工智能写作领域第一案为考察中心[J]. 出版发行研究,2020(12):50-56.
[7]趋势报告|人工智能的下一个时代 AIGC未来已来[EB/OL].(2023-02-03)[2023-07-16]. https://
baijiahao.baidu.com/s?id=1756792705666661456&wfr=spider&for=pc.
[8]黄鸣奋. 人工智能与文学创作的对接、渗透与比较[J]. 社会科学战线,2018(11):179-188+282+2.
[9]刘彧晗,喻国明. 游戏作为DAO媒介:数字文明时代社会的“再组织”方式:兼论媒介与人类存在方式的演进[J]. 新闻界,2022(12):25-36.