APP下载

语义技术在数字教育出版中的应用研究

2023-02-06秦翠玉

出版科学 2023年1期
关键词:教育资源图谱关联

徐 雷 秦翠玉

(武汉大学语义出版与知识服务重点实验室,武汉,430072)

1 引 言

在国家教育信息化的政策指引以及大数据、人工智能、5G等数字技术驱动下,我国数字教育资源建设已经形成了由各级教育信息化领导机构和学校、互联网公司、在线教育机构、智能科技公司、教育出版机构等多元主体构成的体系,各类数字教育产品和在线教育平台不断涌现,数字教育市场呈现良好的发展势头。然而,教育出版机构在教育信息化资源建设与应用中相较于其他主体而言参与度不高[1]。同时,从当前科学研究视角看,相关研究多集中于电化教育、开放教育等教育技术学科领域,以及向教育行业提供各类智能化技术的计算机学科等相关领域,教育出版领域视角下的相关探索尚未形成研究规模。此外,就当前已上线的各类数字教育出版产品、在线教育平台而言,对其依托的数字教育资源的开发利用仍存在如下问题:各类数字教育平台分散运行、海量数字教育资源零散分布,数据整合不到位、知识缺乏关联,数字教育资源重复开发,导致信息超载、资源冗余、利用率不高[2]。即使是2022年上线的国家智慧教育公共服务平台,虽然起到了汇聚精品教学内容的目的,但在知识的呈现与体验方面仍以视频、PDF等为载体,缺乏知识之间的交互性以及知识再利用的灵活性。

教育出版机构拥有优质的教育资源、资深的作者队伍和专业的编辑团队,熟悉教育资源的特征形态,同时肩负着传播知识、传承文化的历史使命,理应在解决上述问题中发挥主导作用。这符合国家教育信息化政策导向,契合教育部等6部委于2021年发布的《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》,是传统教育出版在数字时代提升自身市场竞争力的必然要求。语义技术在解决数字资源表征、组织、关联、发布、共享等方面具有成熟的国际标准和技术体系优势,可用于教育资源的语义组织,解决当前教育资源开发利用过程中面临的问题,并支持智能化的教育产品开发与智慧化的教育知识服务。本文以教育出版中的数字资源为核心,从语义技术视角出发,分析语义技术在数字教育资源开发利用过程中的成功经验与解决方案,构建基于语义技术的数字教育出版实践路径及知识服务场景,并探讨语义技术应用于数字教育出版领域的挑战与对策,为数字教育出版领域语义技术的应用提供思路。

2 语义技术

2.1 语义技术简介

1998年蒂姆·伯纳斯·李(Tim Berners-Lee)提出了语义网[3]技术构想,简称语义技术。相对于传统的以超链接为基础的互联网,语义技术强调对资源的结构化与语义化组织,以本体、关联数据、知识图谱等为主要技术特征,用于提升计算机对数字资源的理解程度。语义技术可以对诸如数字教材教辅、教学方法、教学工具、音视频课程等不同形态的教育资源以XML/RDF等语言进行统一描述,使用统一资源标识符(Uniform Resource Identifier,URI)来标识并进行广泛链接,实现数字教育资源不同粒度的语义组织与多维度关联,保证数字教育资源的高质量共享与重用,支持不同数字教育资源之间的互操作,支撑与用户个人知识地图之间的映射。同时,面对海量、多模态的数字教育资源,文本分析、自然语言处理、机器学习等技术也常常用于资源的语义组织与分析,这些技术通过对数字教育资源中知识的自动化识别与处理,以提高教育数据集、增强型数字教材、富语义出版物等数字教育产品的开发设计效率。

2.2 语义技术的应用价值

教育出版的本质是教材、教辅、教具、教学方法、教学资料和教学过程的组织、序化[4]。语义技术可以对传统的数字教育资源组织发布方式进行语义化、关联并化及可视化呈现,在教育出版领域具有广阔的应用前景与技术优势,主要体现在以下几个方面。

一是对机构内部数字教育资源的组织与序化。利用自然语言处理、文本分析等技术对出版机构内部数字教育资源语义化处理,通过语义标引的方式对知识点进行关联编排,构建教育领域本体库与知识图谱,有利于实现机构内存量资源的序化与关联,构建清晰的教育知识结构体系,帮助用户深入理解所学内容中蕴含的知识点、知识规律、知识关联等细粒度知识。

二是对机构外部增量数字教育资源的开发与关联。语义技术致力于对数字资源尤其是网络资源进行语义化表达、组织、存储。目前网络上存在海量的数字教育资源,如数字教辅、课件、试卷等文本型的学习资料,图片、音频、视频等多媒体格式的学习资源,以及互动游戏、电子书、教育问答知识库、学习型社交平台等多元形式的教育产品,语义技术可以实现这些教育资源之间的深度链接,促进出版机构内部存量资源与外部教育资源的关联与丰富,从而构建完整的教育资源知识体系。

三是对教育出版服务场景的拓展与智慧化。语义技术可以根据用户基本信息、使用过程的行为数据构建用户模型、进行用户画像,建立用户与知识点、教育服务平台之间精准的连接,为开展学习路径规划、知识点智能检索、个性化学习资源推荐等智慧知识服务提供基础。同时基于语义技术的数字教育资源的“按需重组”也有助于拓展数字教育出版服务场景、创新服务模式,实现传统教育出版向智慧教育出版的转型。

2.3 语义技术在数字教育资源组织中的应用现状

随着数字教育行业的发展与市场需求的激增,各级学校、互联网公司、智能科技公司、传统教育出版机构等多方主体也纷纷尝试利用语义技术对数字教育资源进行开发建设,拓展数字教育业务版图。如清华大学知识工程研究室联合互联网教育智能技术及应用国家工程实验室共同建设了中国基础教育知识服务平台OpenEDUKG ,根据K12教育9门学科的教材教辅资源构建基础教育本体概念模型,并通过知识抽取、本体映射、知识融合等技术实现海量教育资源的关联,构建基础教育全学科知识图谱,为学习者提供知识搜索、知识梳理与可视化、知识问答等应用服务[5];科大讯飞依托自身较强的科技能力推出了智慧教育应用,借助大数据与人工智能技术,分析学生常态化学情,帮助教师预设教学重点,同时利用语义技术与自适应推荐引擎为学生构建线上线下可视化的自主学习场景[6];文泉学堂以清华大学出版社的特色内容为基础,引入知识图谱体系根据学科知识点关联内容资源,为用户提供知识内容的个性化搜索、订阅、推荐、阅读、学习等服务[7]。

在科学研究层面,尤其是教育技术、电化教育、开放教育等领域也展开了深入探索,主要围绕以下3个方面开展:一是基于本体等数据模型的数字教育资源语义表示,主要借助本体、叙词表、元数据等数据模型实现学习资源、教育者、学习者等教育领域实体及其之间关系的形式化描述,消除教育领域相关概念、术语、知识的歧义,精准表征教育场景、专业知识[8][9][10];二是基于关联数据技术的数字教育资源语义关联,多集中于教育关联数据的发布[11]、教育数据的互联与聚合[12][13][14]、开放教育资源构建[15]等方面;三是基于知识图谱的数字教育资源智能应用,主要涉及教育知识图谱的构建[16]、学习资源的个性化推荐[17][18]等方面。当前的相关研究实践为教育出版领域进行教育资源的组织利用与教育知识服务场景的开发提供了参考经验和思路,但在技术应用的规范性、教育资源的数据规模、应用场景的深度开发等方面仍存在不足。主要体现在教育资源的语义化、标准化、开放化仍没有达到全面共享与再利用的程度,支撑教育知识服务场景的平台功能单一、智能化不足、用户采纳率不高,科学研究层面所提供的数据模型与技术在不同学科领域之间移植难,所构建的教育数据集或知识图谱数据规模小,语义技术在当前的实践中仍未完全发掘出海量教育资源中蕴含的价值。

3 语义技术赋能数字教育出版的实践路径

通过分析当前语义技术在数字教育出版领域的研究实践,结合语义技术的应用特点,本文归纳设计了语义技术在该领域的应用框架,如图1所示。整个框架包含资源层、资源加工层、技术融合层、应用层4个层面。教育出版机构内部纸质教材、教辅、试题册等资源的收集与数字化,现有数字教育资源的集成,外部开放教育资源的采集,以及内外部教育资源预处理形成教育资源库是资源层的基础工作;资源加工层则对资源层中的教育资源进行知识抽取、知识表示、知识融合、知识推理,形成教育知识图谱,这是语义技术应用框架的核心部分。具体而言,教育出版机构可结合手动和自动化的方式从现有教育资源库中抽取编辑结构化知识,利用XML/RDF等语言进行符号化、形式化的知识表示与编排,再通过知识融合操作消除知识概念的歧义、剔除错误和冗余的知识,进行知识校对,同时通过知识推理进一步挖掘教育资源概念、关系、属性中的隐含知识,最终形成教育知识图谱为应用层中实现教育资源与用户需求场景的关联映射提供支撑;语义技术是数字教育出版领域应用的核心技术,但不是全部,因此需要在技术融合层结合人工智能、用户体验等技术来实现更为丰富的应用层功能,诸如深度学习、区块链、5G、VR/AR等技术目前都有在教育领域中的实践探索,通过融合技术开发数字教育平台与产品为用户提供不同场景下的教育知识服务;应用层中,针对教育教学过程中各类用户,包括师生、家长、教育管理者等群体,从学习时间与空间两个维度设计智慧教育知识服务场景。其中师生是数字教育出版产品的直接使用者,是教育出版机构的主要用户,在教与学的过程中会形成大量的用户生产内容(User Generated Content,UGC)数据,如教师的教案制作、教学设计、学生辅导、作业批改等数据,学生的学习偏好、学习效果、社区讨论等数据,需格外重视这两类用户的行为数据并通过语义技术进行精准表示和用户画像,从而与教育知识资源关联匹配,为智能化的教育知识服务开发提供支撑。

图1 语义技术在数字教育出版领域的应用框架

3.1 数字教育资源的语义表征

数字教育资源的语义表征与传统数字形态教育资源的主要区别,是提供智慧教育服务的基础。叙词表、元数据、本体等数据模型是对数据特征的抽象表示,以规范的形式揭示数据的本质特征。叙词表和元数据作为信息描述和信息组织的工具已有悠久的历史,本体是对领域知识的归纳和形式化,目的在于共享和重用,很适合对教育资源中的知识体系进行描述、表达和呈现[19]。目前国内外学者提出了许多教育资源数据模型,如AIISO[20]、XCRI[21]、LOM[22]、LRMI[23]、ONIX[24]、SCORM[25]、CELTS[26]等,这些数据模型可以实现学习资源、知识内容、教育者、学习者及其之间关系的形式化描述,其中本体还可用于消除教育领域相关概念与术语的歧义,更好地表征教育领域知识。知识内容根据粒度大小可划分为知识点、知识块、知识体系,知识点是学习内容的最小单元,如公式、定理、命题、知识概念等,不同的知识点可以根据知识之间的关系组成知识块,各个知识块依据特定关系可以构成知识体系。教育出版机构可以依靠自有的资深作者队伍与专业编辑团队依据教学大纲与课程标准对不同学科的教育概念体系进行分类与梳理,厘清知识点与知识点之间的关系,定义知识概念、属性、关系及相关约束条件,再由本体工程师按照本体构建的原则进行迭代操作形成知识本体模型。在教育本体构建过程中,知识点之间的关系主要包括:上下位关系,即两个知识点具有属种关系;包含关系,某一知识点表述中包含了另一个知识点;同义关系,两个知识点表示的内容具有相同或近似的含义;兄弟关系,两个知识点具有相同父类上位概念关系词;前驱关系,两个知识点具有严格的时序关系,具有明显的先后传递性,需要学习完前面的知识,才能掌握后面的知识。在实际操作中需要作者、教师、学科编辑、本体工程师一起协作进行缜密的分析与论证,保证知识生产的正确性和知识编排的逻辑性。此外,为了加快教育本体知识体系的构建,可以借助自动或半自动化的本体构建技术来完成,例如可使用分词、词性标注、依存句法分析等文本分析技术来处理高中物理教材,自动构建物理教育本体,解决传统人工手动构建本体低效、耗时等问题[27]。

3.2 链接外部开放教育数据,丰富数字教育资源

数字教育资源的广泛与深度互联是链接用户个人知识地图、激发用户知识发现兴趣、促进用户问题解决和知识构建的有效手段。关联数据具有一套完善的数据发布原则和促进网络级数据互操作性的标准,可利用维基百科、开放教育资源(Open Education Resource,OER)、链接开放数据云(Linked Open Data,LOD)等外部数据来丰富内部教育数据。比如,可通过创建具体语法树和抽象语法树来识别C语言源代码的不同元素和关键概念,并借助关联数据技术用DBpedia、MOOCs、链接开放数据云等外部数据丰富内部教育资源,实现教育资源的互操作[28]。广义上的教育资源不仅包括教材、课本、习题册等学习资源,还包括在线学习课程、知识问答社区以及用户在学习过程中的行为数据,而关联数据技术支持不同类型的教育数据之间的重用、共享,实现知识与人的连接,可以进一步扩大并丰富教育知识库。比如,可以从网络上分布的多个信息源中收集医学数据,利用SNOMED-CT等生物医学本体进行描述,并通过关联数据技术将其链接到链接教育医学对象(Linked Educational Medical Objects,LEMO)数据集中,形成包括从PubMed Library,YouTube和Blogging中收集的10000多个资源的数据集,实现网络教育资源的聚合与丰富[29]。还可通过重用SIOC、FOAF、Schema.org词汇将用户学习过程中的社交活动(Share,Rate,Tag,Comment)作为关联数据公开[30],这不仅可以成为出版机构获取教育资源的来源,而且通过知识实现了用户之间的连接。教育数据的关联操作不像教育知识体系设计需要教育领域专家重度参与,在实践中,本体对齐、知识图谱补全等自动化技术常用于教育关联数据的构建与完善,教育出版机构可采用不同的技术嵌入途径来提升教育关联数据的构建效率。

3.3 构建教育知识图谱,支撑智慧教育知识服务

知识图谱可看作由本体作为模式层与RDF数据模型兼容的结构化数据集,从知识表示的角度看知识图谱本质上是一种大型的语义网络,知识图谱可以将各种线性的、离散的、非结构化的知识用图这种形式组织起来,以网络化的方式呈现知识。这种知识组织结构和用户的知识体系具有天然的相似性,通过链接多源多模态的教育资源,实际上关联起了多类型多粒度的知识,构建教育知识图谱的流程如图2所示。首先,从各类教育资源库中抽取知识单元,也就是知识点,涉及实体抽取、关系抽取与属性抽取等知识抽取步骤,可借助机器学习等自动化方法从教材、教辅、课件等资源库中抽取实体、关系、属性等知识要素;第二步,对维基百科、开放教育资源、链接开放数据云等外部教育资源与内部教育资源进行数据整合。通过上一步知识抽取得到的教育知识中可能包含大量的冗余与错误信息,比如在关于古代诗人这一学习主题中,“青莲居士”“谪仙人”都对应于唐代诗人李白这一实体。“李杜”既可以指李白与杜甫又可以是李商隐和杜牧的合称,如若不做区分将出现知识错误,因此需要进行共指消解、实体消歧等知识融合操作消除知识的歧义,剔除冗余和错误知识,确保知识表征与编排的质量。同时,通过知识推理进一步挖掘隐含的知识,丰富扩展教育知识图谱。最后,由于数字教育产品具有高精准性、高质量等要求,因此需要通过知识图谱更新与补全以及严格的质量控制与多次迭代优化形成最终的教育知识图谱,以为后续提供智慧教育知识服务奠定基础。在这方面,清华大学出版社利用知识自动抽取、语义分析、文本分类、数据挖掘等技术对理工、计算机、经管等专业学科领域的教育资源进行知识点自动标引与知识关系自动识别,形成高等教育知识图谱,从而实现知识的按需重组以支撑用户智能搜索、学习资源个性化推荐等服务场景。

图2 教育知识图谱构建流程

4 语义技术支撑的教育知识服务场景

在利用语义技术实现数字教育资源的细粒度组织与多维度关联的基础上,可以从时间与空间两个维度来构建基于语义技术的教育知识服务场景,如图3所示。

图3 基于语义技术的教育知识服务场景

4.1 时间维度

学生的学习过程可简单划分为课前的自主学习、课中的课堂教学与课后的自我反思与学习效果评估,其中学生与学习同伴、教师之间的交流是贯穿整个学习过程的,学习资源是整个与教学过程中不可或缺的。出版机构可以借助语义技术结合每个阶段师生的具体需求从融合了内外部教育资源的教育知识图谱中重组知识及教育资源,提供适应性学习资源配送、个性化学习内容推荐等服务。通过语义技术知识关联与知识推理的功能帮助用户主动获取知识,根据用户使用数字教育产品过程中的检索、浏览、点击等学习记录,为用户关联更多相关的学习资源,从而满足用户学习资源获取的需求。知识不仅源于与学习内容的连接,也可源于与学习内容背后的人的连接,出版机构可以根据不同学习阶段的具体场景提供社交互动服务,借助语义技术通过知识实现人与人之间的关联,满足用户交流、分享、互动的需求。

课前:学习路径规划与智能备课。在学生自主学习的课前阶段,可以采用本体与知识图谱技术对用户的基本信息、学习兴趣、学习问题、学习情况等数据进行记录分析并进行用户画像,根据用户画像模型结合智能算法规划学习者学习路径,为学生设计适宜的学习目标、设置合适的学习任务。如松鼠AI开发了以高级算法为核心的智能适应学习系统,通过纳米级的知识点拆分和学习前的测试检测学生的学习水平,自动化地规划学生的学习路径,引导学生合理地进行课前自主学习活动。在课前环节,还可以为教师提供智能备课服务。课程体系中涵盖了各种类别的课程,各个课程内容上存在交叉,并且不同的教师对各个课程的重点与课程属性可能有不同的理解与表达,这为课程设计、课程安排带来了困难。出版机构可以借助语义技术对课程知识进行统一表征,利用语义技术实现教学目标、教育技术、教学工具、学习者、学习资源、教育环境等教育实体的关联,对教学体系中隐性知识进行自动推理,帮助教师设计教学体系、进行课程开发、设置培养方案,从而支撑教师课前备课场景。

课中:个性化教学与智能答疑。在课前的自主学习中学生会产生各类学习问题,在课中学生将通过教师的教学解决个人困惑、拓展个人知识体系。在这一环节需要分析学生的学习水平、学习进度、知识接受程度提供适应性的学习资源,辅助教师开展个性化教学活动,为学生答疑解惑。如基于知识图谱技术构建的C语言在线课程平台[31]提供了个性化教学设计服务,使教师能够根据学生特点与学习问题自主构建C语言领域知识库,并根据学生学习情况与进度及时调整、修改、添加满足学生个性化需求的课程,以达到良好的教学效果。以自然语言理解、语义相似度计算等技术为支撑的智能问答系统可以理解用户以自然语言提出的问题并从教育知识图谱中找到最贴切的答案,实现“问题-知识”的精准匹配,解决学生的疑难问题。因此,可以借助智能问答系统为用户提供精准的语义检索与答疑服务,并通过语义技术呈现的学习知识的前后顺序关系结合智能聊天机器人技术,以提问的方式引导学生由浅入深地理解与消化知识,从而解决自主学习过程中遇到的问题。

课后:学情评估。在课后学习过程中,学生通过测试题、练习题等方式巩固所学知识以及检测知识掌握的程度,同时根据教师评价以及学习同伴之间的相互评价与交流,进行自我反思、延伸学习内容、完善个人知识结构、形成个人知识地图。一方面,教育出版机构可以根据教学大纲与课程标准中考察的知识点与维度提供个性化的测试题库,为每个试题贴上语义标签以便根据学生所学内容、学习问题等学习情况灵活、高效地组卷。比如被麦格劳—希尔(Mcgrawhill)收入旗下的知识空间的评估和学习系统(Assessment and Learning in Knowledge Spaces,ALEKS) 公司[32]基于认知科学的“知识空间”理论对特定知识建模与描述,为学习者提供多元题目测试、学习进度检测、实时反馈、学习建议等服务,评估学生的学习效果与知识掌握的程度,从而帮助学生查漏补缺以及辅助教师分析学情以更有针对性地开展后续教学活动。另一方面,借助语义技术为学生提供课后知识梳理与知识可视化服务,帮助学生构建个人知识地图,并利用关联数据技术将学生个人学习过程中生成的知识图谱发布到学习社区以供教师、学习同伴之间相互评论与交流。这不仅建立起了用户之间的连接,而且学习社区中的互动、不同认知的交互也促进了用户新知识的生成、个人知识体系的延伸。

4.2 空间维度

随着移动互联网技术与智能移动终端设备的发展,泛在学习、碎片化学习成为人们非正式学习的主要方式。教育出版机构可以按照学科知识的规则,根据用户的需求以及用户所处的学习环境、位置、空间、所使用的学习软件、学习终端设备等情境因素,从已构建的教育知识图谱中抽取相应的学习资料与知识单元进行再开发与整合,提供泛在学习服务满足用户具体情境中的学习需求。例如,当用户在某一地点学习A知识时,可以借助语义技术结合情景感知技术提供与该地点和A知识相适应的学习资源,同时还可以借助基于知识图谱的推荐系统主动为学习者汇聚相关联的学习资源并精准推送,以实现任何用户可以在任何地方使用任何设备获取所需的任何知识。当前碎片化学习已成为一种流行的学习方式,但存在知识分散、信息泛滥、教育资源组织无序、质量良莠不齐等问题,教育出版机构可以基于自有的优质内容资源以及教育知识图谱提供专业的碎片化、泛在化学习服务。根据学科知识的内在逻辑采用语义技术对学习内容进行碎片化分割,形成知识结构清晰、知识容量合理、学习重点与难点聚焦的“精”而“微”的知识块推送给用户。这个过程不仅需要全方面地考虑用户的认知负荷与认知心理,还需要根据不同的学科内容、专业知识特点采取不同的知识分割策略并保证知识划分与重组的完整性。同时,对分割的知识块进行标签化处理,为用户提供个性化资源检索服务,提高用户检索与获取教育资源的效率。比如清华大学出版社建设了以知识点为锚点的学习内容,根据学科知识的内在逻辑构建专业知识图谱,使得用户可以根据学习资源的标题、简介、目录、全文等进行智能搜索,便于用户获取个性化的教育资源。此外,语义技术在教育数据语义建模、链接、发布等方面具有显著优势,可以为智慧校园建设提供底层技术支撑,为教师、教育管理者等用户提供教育管理服务,提高校园事务处理的工作效率。比如将本体技术用于智能环境建模以促进智慧校园中异构知识与信息源之间的信息集成与知识共享,同时结合智能代理技术来支持学生与教师出勤率检测、教学计划制定、教学评估等学校管理活动,推动教育管理模式的创新,实现良好的教学管理效果[33]。教育出版机构可以对学校教职工、学生、家长等数据精准表示并和教育知识图谱链接,建立多源异构教育数据之间的关联,为教育管理者开展教学管理工作、建设智慧校园提供支持。

5 数字教育出版领域语义技术应用的挑战与应对

虽然当前语义技术在数字教育出版领域已有不少应用研究与实践,呈现巨大的发展潜力与广阔的应用前景,但是在教育数据质量与组织标准、教育资源知识产权与数据隐私、技术应用门槛与成本等方面仍面临着挑战,需要进一步地研究与探索。

5.1 挑 战

教育数据质量与组织标准问题。关联数据与知识图谱技术虽可以汇聚海量多源教育数据,但在保证教育关联数据与教育知识图谱的质量和完整性方面面临着挑战。出版机构向用户提供的数字教材、在线课程等产品与服务是动态的,需要随时向用户显示相关联的数据资源,如何及时更新数字教育资源、如何保持高水平的教育数据质量是需要持续关注的问题。同时,外部教育数据存在“不是机器可读的格式”“缺乏开放许可和标识符”等问题,我国的开放教育数据还处于“重开放、轻质量”的阶段,教育数据中普遍存在完整性、时效性、规范性和准确性等质量问题[34]。实践中各类教育数据标准建设的滞后是形成“数据孤岛”和“数据碎片化”的主要原因,如各类教育数据集、教育知识图谱是由不同机构发布的,使用了不同的词汇表、建模规则与设计原则,不利于应用程序跨平台获取数据并进行整合。

教育资源知识产权与数据隐私问题。数字教育资源的开发利用、语义出版物的制作、教育数据集的发布,前提是对学习资源、教学工具、软件设备等教育资源拥有足够的版权。出版机构在利用语义技术实现大规模教育资源互联互通、内外部教育资源关联丰富的过程中,必须要解决知识产权问题。而当前知识产权的相关法律与规章不够完善,开放教育数据存在将有价值的信息泄露给竞争对手的风险[35]。同时,数字教育出版产品的市场投入需要对用户的基本信息、行为偏好、社交活动、浏览记录等数据进行分析与挖掘,这存在侵犯用户隐私权的风险,如何合法合规地获取用户数据、保证用户信息不被滥用也是教育出版机构面临的一大难题。

语义技术门槛与制作成本问题。语义技术作为一项新型技术相对于传统的数据库技术而言在工程实践上存在技术门槛,这可能会在一定程度上限制教育资源的语义开发与利用。出版机构面临着语料库的使用、教育本体库的建设、多学科教育知识图谱的构建、自然语言处理、机器学习等复杂技术的运用,以及与传统出版技术的融合等一系列问题。同时,技术的应用需要持续的资金和人力投入,这也就意味着出版机构在前期教育资源语义组织与关联方面需要投入大量成本,而高昂的资金与人力的投入可能导致语义出版物项目启动困难。此外,教育数据集、增强型数字教材、富语义出版物等数字教育产品及智慧教育知识服务的盈利模式尚不明晰,数字教育出版的商业模式仍需进一步探索。

5.2 对 策

加强数字教育出版标准体系建设,提高数字教育资源质量。在利用语义技术组织教育资源、建设数字教育平台时,应尽可能重用已建立的成熟的术语标准,并根据具体应用需求开发相适应的教育领域本体,实现不同学科内外部教育资源的有效链接。同时,根据国内教育教学的特点,还应加强教育资源的元数据标准及数据模式标准的建设、应用和推广,从而实现数字教育内部资源与外部开放教育资源的语义集成、整合、共享和重用。此外,学术出版领域为科学数据分配唯一标识符以促进科学数据管理与共享的实践也为教育数据的出版提供了借鉴。同时,还可以考虑基于关联数据技术的五星原则来促进开放教育资源的检索与重用,使之成为中国教育领域的基础设施,推动国家“十四五”期间的教育新基建。

探索数字教育出版知识产权与用户隐私权保护路径。出版机构在进行内部资源开发以及利用外部资源丰富教育数据的过程中,可以通过买断图书版权、组建专业的知识产权管理团队、引入区块链技术,借助其可追溯、去中心化的特点构建可信的教育出版智慧数据等方式解决数字教育作品版权归属、利益纠纷等问题。在倡导教育出版机构遵循知识产权相关规定的同时,也应加强用户的知识产权教育,培养广大用户的版权保护意识。国家层面上,还应该完善数字教育出版知识产权保护机制,明确数字教育作品的版权归属、侵权责任承担主体,严厉打击侵权行为。此外,出版机构还需要格外注意用户隐私的保护,确保用户数据合法合规地使用。

重视技术创新与人才培养,探索教育出版盈利模式。语义技术涉及本体、关联数据、知识图谱、自然语言处理、文本分析、机器学习等技术,技术壁垒比较高,出版机构需要重视复合型出版人才的培养,组建既懂语义技术又精通编辑业务的人才队伍。由于对数字教育资源进行多维度、细粒度的语义组织与关联是后续提供不同场景下智慧教育知识服务的前提与基础,出版机构需要重视语义技术的研发与应用,并探索语义技术与人工智能、大数据、VR/AR等技术的融合,优化数字教育出版流程,建设智慧教育资源池,研发基于智慧教育数据的产品,挖掘用户智能学习场景,创新教育出版知识服务模式,提升用户智慧教育体验,从而实现数字教育出版盈利模式与商业模式的突破。

注 释

[1]梁小建.教育出版服务主导数字化转型与营销策略研究[J].出版科学,2017,25(4):28-34+39

[2]曹艳.基于知识管理的网络学习资源管理模式设计[J].中国教育技术装备,2011(24):96-97.

[3]Berners-Lee T,Hendler J,Lassila O.The Semantic Web[J].Scientific American,2001,284(5):34-43

[4]许洁,汪琨禹,马青青.基于三大出版领域的出版学基础理论构建探索[J].科技与出版,2019(10):104-111

[5]OpenEDUKG[EB/OL].[2021-08-29].http://open.edukg.cn/home

[6]科大讯飞[EB/OL].[2021-05-08].https://www.i flytek.com/edu

[7]文泉学堂[EB/OL].[2021-05-08].https://www.wqxuetang.com/about

[8]Cheng B Y,Zhang Y,Shi D X. Ontology-based personalized learning path recommenda-tion for course learning[C]//2018 9th International Conference on Information Technology in Medicine and Education(ITME).IEEE,2018:531-535

[9]Kusuma S F,Siahaan D O,Fatichah C. Automatic Question Generation In Education Domain Based On Ontology[C]//2020 International Conference on Computer Engineering,Network,and Intelligent Multimedia(CENIM).IEEE,2020:251-256

[10]Nurjanah D. LifeOn, a ubiquitous lifelong learner model ontology supporting adaptive learning[C]//2018 IEEE Global Engineering Education Conference (EDUCON). IEEE, 2018: 866-871

[11]Rajabi E, Sanchez-Alonso S, Sicilia M A, et al. A linked and open dataset from a network of learning repositories on organic agriculture[J]. British journal of educational technology, 2017, 48(1):71-82

[12]Carbonaro A. Enabling smart learning systems within smart cities using open data[J]. Journal of e-Learning and Knowledge Society, 2020, 16(1): 72-77

[13]Rajabi E, Greller W. Exposing social data as linked data in education[J]. International Journal on Semantic Web and Information Systems (IJSWIS), 2019, 15(2): 92-106

[14]Dhekne C, Bansal S K. Linking and maintaining quality of data about MOOCs using Semantic Computing[C]//2017 IEEE 11th International Conference on Semantic Computing (ICSC). IEEE,2017: 81-84

[15]d’Aquin M. Putting Linked Data to Use in a Large Higher-Education Organisation[C]//Proceedings of the Workshop on Interacting with Linked Data.Greece:CEUR-WS, 2012: 9-21

[16]吕品,贺云艳,许嘉,等.面向教育的中文知识图谱自动构建技术[J].中国教育信息化,2021(4):86-92

[17]Chen P ,Lu Y,Zheng V W, et al. KnowEdu : A System to Construct Knowledge Graph for Education[J]. IEEE Access,2018,6:31553-31563

[18]邱玥. 知识图谱增强的在线课程推荐方法研究[D].武汉:华中师范大学,2020:20-22

[19]李金定.叙词表、元数据与本体之间关系探究[J].图书馆学研究,2007(8):61-64

[20]Academic Institution Internal Structure Ontology[EB/OL].[2021-04-30].https://vocab.org/aiiso/schema

[21]eXchanging Course Related Information[EB/OL].[2021-04-30].https://core.ac.uk/download/pdf/55533856.pdf

[22]Learning Object Metadata[EB/OL].[2021-04-30].http://edutechwiki.unige.ch/en/Learning_Object_Metadata_Standard

[23]Learning Resource Metadata Initiative[EB/OL].[2021-04-30].https://dublincore.org/about/lrmi

[24]喻乒乒.ONIX元数据标准2.1版与2.0版对比研究[J].现代情报,2006(1):88-91

[25]Sharable Content Object Reference Mode[EB/OL].[2021-04-30].https://scorm.com/scormexplained

[26]CELTSC标准清单[EB/OL].[2021-04-30].http://www.celtsc.org/channel/bzlist.html

[27]陈继智.教育本体自动构建关键技术研究[D].上海:华东师范大学,2020:27-29

[28]Carbonaro A. Enabling smart learning systems within smart cities using open data[J]. Journal of e-Learning and Knowledge Society, 2020, 16(1): 72-77

[29]Al Fayez R Q, Joy M. Using Linked Data for Integrating Educational Medical Web Data-bases Based on BioMedical Ontologies[J]. The Computer Journal, 2017, 60(3): 369-388

[30]Rajabi E, Greller W. Exposing social data as linked data in education[J]. International Journal on Semantic Web and Information Systems (IJSWIS), 2019, 15(2): 92-106

[31]和青芳,贺玲芳,李红豫. 构建C语言在线课程平台[C]//中国计算机用户协会网络应用分会2020年第二十四届网络新技术与应用年会论文集.2020:317-321

[32]Research Behind ALEKS[EB/OL].[2021-05-08].https://www.aleks.com/about_aleks/research_behind

[33]Samia Z,Khaled R,Warda Z.Multi-agent systems and ontology for supporting management system in smart school[C]//2018 3rd International Conference on Pattern Analysis and Intelligent Systems(PAIS).IEEE,2018 :1-8

[34]刘凤红,彭琳.FAIR原则背景下国际出版集团的数据政策和实践[J].中国科技期刊研究,2021,32(2):173-179

[35]Perkmann M,Schildt H.Open data partnerships between firms and universities:The role of boundary organizations[J]. Research Policy,2015,44(5):1133-1143

猜你喜欢

教育资源图谱关联
绘一张成长图谱
整合校外教育资源 做好青少年道德教育
“一带一路”递进,关联民生更紧
奇趣搭配
补肾强身片UPLC指纹图谱
智趣
主动对接你思维的知识图谱
面向数字化教育资源的Flash到HTML5转换研究
自主学习视角下的开放教育资源文献综述(上)
杂草图谱