数智时代翻译学知识图谱构建与应用研究
2024-04-14宣伟
宣伟
摘要:数智时代的悄然到来深刻变革着社会实践,特别是知识图谱在不同场景的落地应用,有效解决了知识沉淀、数据关联和推理分析等问题。作为图网络形态的知识存储结构,知识图谱在翻译学领域构建及应用问题,学界尚未引起足够重视。在爬梳相关文献基础上,针对翻译学这一垂直领域呈现出的数据结构复杂化和知识来源多样化特征,探讨自底向上构建翻译学知识图谱基本原理和关键技术,设计翻译学知识图谱的应用场景,以提高翻译学知识服务能力和认知智能水平,更好满足数字人文发展和新文科建设需要,亦为后续相关研究提供启示和借鉴。
关键词:知识图谱;翻译学;垂直领域;人工智能
一、前言
国家高度重视面向未来的教育认知智能化发展。2023年2月,中共中央和国务院发布的《数字中国建设整体布局规划》指出大力实施国家教育数字化战略行动[1]。《中国教育现代化2035》提出利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合[2]。随着云计算、大数据、区块链、5G、全息技术、扩展现实等新一代信息传播技术的迅速发展并深入影响社会众多行业和关键领域,社会服务智能化水平得以不断提升,人类社会进入到数智时代。
“数智时代”目前尚未形成统一概念,但可以肯定的是数智时代的核心内容即为“数智融合”,它作为面向未来的信息化力量,其内涵发展始终与信息技术迭代发展同频共振,包括“大数据驱动”研究方法论范式、智能方法创新、人机融合行为等前沿研究方向[3],从脑机技术、全域交互、人机融合、虚实共生、教育均衡、教育智脑等方面赋能未来教育新形态[4]。
在此时代背景下,翻译学也迎来了以大数据和人工智能运用为典型特征的“数智时代”,尤其是以知识图谱(Knowledge Graph,KG)为代表的大数据知识工程正受到学术界广泛关注。知识图谱是人工智能符号主义发展的典型性代表,由本体(Ontology)技术和语义网络拓展发展而来,它不仅是对客观世界进行描述的概念体系,也是一种结构化的语义知识库和通用语义知识形式化描述框架。
二、知识图谱概述
目前,知识图谱尚无统一定义。根据维基百科,知识图谱是使用语义检索,从多种来源收集信息,以提高搜索质量的知识库[5]。本质上来说,知识图谱是通过由实体和关系组成的三元组(头实体、关系、尾实体),形式化描述和存储客观世界各类实体(Entity)及相互关联关系。
回溯发展历程,知识图谱始于斯坦福大学费根鲍姆(E.A.Feigenbaum)于1965年提出的专家系统(Expert System,ES)概念,基于知识进行决策,使人工智能研究从推理算法主导变为知识主导[6]。之后,奎林(M.R.Quillian)提出语义网络(Semantic Network,SN)知识表示模式,用相互连接的节点和边来表示知识[6],为万维网上的知识互联奠定坚实基础。2012年,Google公司为改善用户搜索体验,提升搜索效率和质量,在Freebase基础上提出知识图谱概念[7]。
按照知识聚类组织法,将知识按照主题特征进行聚合。知识图谱可划分为通用知识图谱,例如单语的Freebase、OpenKG、Cyc、WordNet、OpenIE、Probase、CN-DBprdia、百度知心、搜狗知立方等;多语的DBpedia、GeoNames、YAGO、WikiData、BabelNet、Google知识图谱等。此外,知识图谱与各领域、各行业实现深度融合,面向特定垂直领域的知识图谱构建已迅速成为研究热点,例如军事、中医、交通、医疗、新闻与传媒、体育、金融、高等教育等特定领域,具有专业程度高、知识规模大、知识粒度细等特点。
三、翻译学知识图谱研究现状
翻译学自创立伊始,天然地具有跨学科属性。1972年,霍尔姆斯(James Holmes)发表“翻译研究的名与实”(The Name and Nature of Translation Studies)确立了翻译学学科属性及研究分支,为学术界研究翻译指明了方向[8],被視为翻译研究的奠基之作。后经过图里(Gideon Toury)制作成“地图”,以更直观的方式呈现出来,对于其广泛传播发挥了重要作用[9]。一定程度上来说,这也是翻译学知识图谱的雏形。
爬梳翻译学知识图谱文献,根据布拉德福定律(Bradford's law),选取核心期刊,选取BlueMC词云工具,绘制词云图,排名前十依次为:知识图谱、Citespace、可视化分析、翻译模型、表示学习、语料库翻译学、三元组分类、知识表示学习、字幕翻译、机器翻译。现有研究呈现出研究方法单一。多采用由陈超美博士团队研发的科学文献可视化软件CiteSpace进行相关领域历史梳理,分析研究现状及预测未来研究趋势;研究内容趋同,内容较为重复,同质化倾向较为明显。
现有研究较少关注“翻译学”本体(Ontology),实际上翻译学内涵丰富,体系庞杂,涵盖翻译家、代表作、发表年代、研究机构等多种管理对象,数据结构松散,数据间关系复杂。而知识图谱具有强大的语义处理能力,可将不同数据进行知识抽取,为用户提供精准的知识服务。翻译学知识图谱的构建可深入揭示该垂直领域中各实体间关系,促使资源和服务的有效整合,为翻译学知识组织提供理论框架,同时也对其他垂直领域知识图谱的构建提供一定的启示。
四、翻译学知识图谱构建
知识图谱的构建方法通常有自顶向下和自底向上两种[10]。前者指事先确定好知识图谱的本体和数据模式,再添加实体予以丰富完善,例如Freebase项目即为此类,数据多从维基百科中抽取。大多数知识图谱构建多采用后者,即先从置信度较高的数据中提取出实体后,再构建顶层的本体和数据模式。知识图谱构建初期二者界限较为分明,随着数据量增大和数据模型的不断修正,两种方式经常综合起来使用。
鉴于翻译学这一特定垂直领域特点,本知识图谱构建采用自底向上的方式。其关键节点包括知识建模、数据获取或预处理、知识抽取、知识融合、知识推理、知识管理。
(一)知识建模
知识建模,又名本体构建,现尚无固定流程与方法,可以细分为:人工構建方法,包括Uschold、TOVE、IDEF-5、Methontology;半自动构建方法,包括五步循环法、七步法、循环获取法、Protégé等。翻译学知识呈现出错综复杂、多源异构、存储方式多样等特点,需要深入分析翻译学概念内涵,才能将翻译学概念准确且有效表达出来,可用资源描述框架(Resource Description Framework,RDF)和网络本体语言(Web Ontology Language,OWL)来描述实体和本体以建立知识体系。
(二)数据获取或预处理
数据的获取及处理是成功建立翻译学知识图谱的重要前提。翻译学数据可以从翻译学教材、翻译学专业网站、翻译学视频等获取,分为结构化数据、半结构化数据和非结构化数据(自然语言文本)。前两者数据抽取较为简单,数据噪声小,经过数据清洗就可以得到质量较高的结构化三元组数据,而非结构化数据通常包括文本、图像、视频等内容,在实体、关系、属性等非结构化知识抽取基础上,可辅助图像识别分类和专家梳理等人工过滤办法。
(三)知识抽取
知识抽取是翻译学知识图谱构建的核心步骤,面临算法选型和技术框架确定等诸多挑战。知识抽取的核心内容为识别并抽取实体,常见的算法主要有:利用jieba、IK、HanLP等分词工具的基于规则方法;利用隐马尔可夫模型(HMM)、条件随机场(CRF)、Standford NER等算法的基于特征的统计机器算法;结合卷积神经网络(CNN)、循环神经网络(RNN)、注意力网络等基于深度神经网络的算法。此外,为了解决基于规则和词典的关系抽取出现的可迁移性差和成本高昂的问题,学界和业界也探索了Boostrapping和远程监督学习的弱监督学习方法和Bert/GPT+CRF深层网络的监督学习方法等。
(四)知识融合
翻译学知识图谱的核心价值在于连接聚合不同来源的特定领域知识、专家知识和数据等,因此,不同知识融合需要解决冗余、噪声、歧义、冲突、欠完备等问题,而数据清洗不能有效解决上述问题。这就涉及实体对齐、关系识别、消歧等步骤,利用词性标注、分词、主题词分析等自然语言处理技术,从数据源置信度和答案置信度进行置信度分析,并进行包括融合策略构建在内的多源数据融合。YAGO和BabelNet成功实现了跨语言知识关联和共享为翻译学知识图谱的知识融合提供范例,据此可得出具有操作性的翻译学知识图谱。
(五)知识推理
在完成上述步骤后,所得翻译学知识图谱较为残缺,这就需要知识推理进行知识发现予以补齐。知识推理的算法主要有基于传统逻辑的推理、基于图的推理和基于深度学习的推理来挖掘实体之间隐藏的语义关系。
(六)知识管理
传统知识管理方式已无法满足数智时代带来的海量文件存储、检索和管理的现实需求,因此建立基于表结构和基于图结构的知识图谱存储方式已引起学界和业界广泛关注。在有效管理和存储翻译学知识基础上,知识生命周期管理、知识审核与修正、知识安全管理、知识版本管理等知识质量校验同样应引起足够重视。
五、翻译学知识图谱应用
近年来,以元宇宙、数字孪生、ChatGPT、数字人、湖仓一体等为代表的数字技术的产生和发展助推了翻译学知识图谱发展,已经成为翻译学领域研究的重要增长点。作为操作性和实践性明显的领域,翻译学知识图谱至少在以下场景得到具体落地应用。
(一)专题主题文献计量分析
学者多采用CiteSpace挖掘知识共现网络关系、高频关键词、高被引作者和文献、热点主题等发展脉络和热点前沿,也有少数学者采用BICOMB、SPSS22.0、R语言Bibliometrix等工具。翻译学知识图谱可视化展示翻译学知识,有效解决“数据孤岛”问题,提升主题文献分析效率,赋能翻译学研究的智能化、个性化、定制化。
国内相关垂直领域大规模知识图谱正处于积极探索期,较为知名的是由清华大学计算机系知识工程实验室团队研发的中国基础教育知识图谱EduKG(open.edukg.cn),该图谱涵盖基础教育九门学科内容,实现学习资源语义化分析和个性化推荐等功能。除此之外,北京外国语大学人工智能与人类语言重点实验室研发的外语学科知识图谱LingNet尝试建立外语学科概念之间关系,也产生了较为深远影响。
(二)翻译知识服务平台构建
在翻译知识图谱基础上,可积极构建翻译知识服务平台以满足数智时代的知识服务需求。具体来看,以知识图谱为基础提供知识检索服务,以知识推理系统为用户提供智能问答服务,以用户画像为基础提供个性化推荐服务。在文献分析基础上,拟构建的翻译知识服务平台从需求分析出发,对平台功能性需求和非功能性需求进行详细分析,主要包括下列关键环节:
1.明确所需技术和工具
可选择ASP.NET作为开发平台,以 VisualStudio作为开发工具,以面向对象的编程思想作为指导,运用目前实用而高效的Web应用程序开发技术ASP.NET、XML以及C#、Java script等编程语言,必要时使用部分第三方控件。
2.数据库设计与建设
根据平台需求,选择SQL Server作为系统数据库。根据翻译知识服务平台实际管理需求设计数据库表结构,包括实体表、关联表和属性字段,确保数据的组织和存储的合理性。根据数据库设计,创建数据库和相应的表结构,并设置索引、约束等数据库元素,保证数据的完整性和一致性。
3.平台功能开发
根据界面设计和用户体验要求,使用HTML、CSS和JavaScript等技术,开发前端界面和交互功能,实现用户界面的友好性和响应性。根据模块划分,使用所选的编程语言和开发框架编写后端代码,实现各个功能模块,包括数据处理、业务逻辑和接口设计。
4.系统集成与测试
将开发完成的各个功能模块进行集成,确保模块之间的协同工作和数据交互的正确性。对集成后的系统进行功能测试,验证平台的各项功能是否按照需求规格和设计要求正常运行。
5平台部署与上线
准备服务器环境和网络配置,确保平台的运行环境满足要求。将开发完成的平台部署到服务器上,配置域名和端口,确保平台能够通过互联网进行访问和使用。
(三)翻译智能产品研发
数智时代的典型特点是数字化和人工智能的深度耦合,知识图谱在深化认知智能应用水平,为实现人、数据、知识的互联互通提供坚实基础。不可否认的是,市面上出现的众多翻译智能产品能够实现智能问答、智能搜索与查询等操作,但涉及的翻译知识较为简单,未能实现系统化和专业化,且鲁棒性较低。而翻译学知识图谱的应用可有效提升翻译智能产品的研发,提升翻译智能产品的智能化水平。研究发现,人工智能技术中的自然语言处理、机器学习、计算机视觉已经在产品研发中得到广泛运用,特别是机器翻译、图像识别、语音识别等技术,而“AI技术+流程+团队”模式推动服务能力、翻译行为和管理方式变革[11]。
六、结语
数智时代带来的大数据和大知识为翻译学研究带来了挑战,知识图谱在解决“数据孤岛”、弥合数据和知识“鸿沟”、提升认知智能水平等方面发挥着巨大作用,不失为有效路径。以知识图谱为基础的认知智能发展深度契合国家高度重视并着力发展的“新文科建设”,有力推进哲学社会科学与新一轮科技革命和产业变革交叉融合。翻译学研究需乘势而为,坚持“古今结合”和“文理融合”,以期实现学科深度融通,培养交叉复合型翻译人才,为高质量推动“一带一路”建设,展示中国形象、发出中国声音贡献“翻译力量”。
参考文献
[1]中共中央,国务院.数字中国建设整体布局规划[EB/OL].[2023-03-27].http://www.gov.cn/xinwen/2023-02/27/content_5743484.htm.
[2]中共中央,国务院.中国教育现代化2035[EB/OL].[2023-03-27].https://www.gov.cn/zhengce/2019-02/23/content_5367987.htm.
[3]陈国青,任明,卫强,等.数智赋能:信息系统研究的新跃迁[J].管理世界,2022,38(01):180-196.
[4]郑思思,陈卫东,徐铷忆,等.数智融合:数据驱动下教与学的演进与未来趋向——兼论图形化数据智能赋能教育的新形态[J].远程教育杂志,2020,38(04):27-37.
[5] Wikipedia. Google Knowledge Graph[EB/OL]. [2023-02-14].https://en. wikipedia. org/wiki/Google_Knowledge_Graph.
[6]田玲,张谨川,张晋豪,等.知识图谱综述——表示、构建、推理与知识超图理论[J].计算机应用,2021,41(08):2161-2186.
[7] SINGHAL A. Introducing the knowledge graph:things,not strings[EB/OL]. [2023-03-09]. https://www. blog. google/products/search/introducing-knowledge-graph-things-not/.
[8] Pym,A.1998. Method in Translation History[M].Manchester: StJerome.
[9]朱健平.完整再現霍尔姆斯翻译研究学科构架图[J].外语教学理论与实践,2018(04):75-83.
[10]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.
[11]崔启亮.人工智能在语言服务企业的应用研究[J].外国语文,2021,37(01):26-32+73.
作者单位:南开大学外国语学院
责任编辑:尚丹