APP下载

知识图谱在新闻生产平台中的应用

2024-09-30韩笑端木义平

互联网周刊 2024年18期

摘要:在5G时代信息大爆炸的背景下,知识图谱成为一种有效的信息管理工具,通过将零散信息进行关联,可以形成完整的知识体系。在新闻领域,知识图谱的应用能够改变传统的新闻内容存储和管理方式,提高新闻生产效率,为用户提供一种更加便捷的方式来获取所需信息。本文重点探讨了新闻领域对知识图谱的需求、知识图谱在国内外新闻领域的应用状况,以及知识图谱在新闻领域可能出现的应用场景,以期为相关人员提供参考和借鉴。

关键词:知识图谱;新闻生产平台

引言

知识图谱是一种可将信息有效结构化的方法,可以把零散的信息关联起来,形成一个完整的知识体系,使人们能够更好地理解和使用信息。对于新闻领域来说,知识图谱的引入为新闻领域提供了新的可能性和机遇。通过将新闻信息结构化,知识图谱可以帮助新闻生产者更好地管理新闻内容,提高新闻生产的效率,同时,也为用户提供了一种更加便捷的获取他们需要的信息的方式。

1. 知识图谱综合性阐述

知识图谱是一种利用图形结构来表达和整理知识的方法,它将事物(如对象、事件、概念等)表示为节点,将事物之间的关系表示为边,从而形成一个网络结构。这种结构可以帮助人们更好地理解和分析复杂的信息和知识。

1.1 知识图谱的特性

(1)结构化。知识图谱将信息从非结构化状态转化为结构化的形态,使机器可以更好地理解和处理这些数据。

(2)语义化。知识图谱不仅保存了数据,还保存了数据之间的关系,这种关系是有语义的。例如,“北京是中国的首都”这个语句可以被转化为知识图谱中的两个节点(北京、中国)和一个边(是首都)。

(3)可连接。知识图谱中的节点和边可以连接到其他知识图谱,从而形成一个更大的知识网络。这种连接可以帮助人们发现新的知识,并深入洞察。

1.2 知识图谱的类型

知识通常可以被划分为领域知识、百科知识、场景知识、语言知识、常识知识等几种类型。基于这些知识种类,可以将知识图谱归类为领域知识图谱和通用知识图谱。领域知识图谱专注于某一特定领域的知识,如保险、医疗、法律等,其构建的难度相对较小。通用知识图谱则覆盖知识面更为广泛,包括各种各样的信息,因此,在构建过程中面临的挑战更大。

1.3 知识图谱的构建

建立知识图谱的过程通常涵盖三个核心步骤:知识抽取、知识融合、知识推理[1]。知识抽取是指从各种数据源中自动提取结构化的知识,包括文本、图像、语音等。知识融合是指将各种不同来源的知识进行统一和整合,消除冗余和矛盾。知识推理是指基于已有的知识进行推理和推断,得出新的知识。

通常,知识图谱的构建采用Neo4j图形数据库来实现。主流的图形数据库还有JanusGraph、HugeGraph。

知识图谱的出现是多种相关技术在发展过程中相互影响、融合和进化的产物,这些技术包括语义网络知识表示、本体论、语义网、自然语言处理等,其技术基础融汇了Web、人工智能、自然语言处理等多个领域的先进理念和方法。在全球范围内,除了Google的知识图谱外,还有一些高质量大规模开放的知识图谱,如DBpedia、Wikidata、ConceptNet,以及Microsoft Concept Graph等,这些知识图谱涵盖了多种语言和广泛的领域。此外,还有OpenKG等中文开放知识图谱平台。

知识图谱广泛应用于搜索引擎、社会网络、推荐系统、自然语言处理和人工智能等领域。Google把搜索引擎从反向索引转向到知识图谱,满足更多的检索场景,提供更准确和丰富的搜索结果;Facebook的社交图谱可以帮助用户发现新的朋友和兴趣;Amazon的商品图谱可以提供更个性化的购物推荐。

2. 知识图谱在国内外主流媒体中的应用现状

央视网“人工智能编辑部”的“I学习”智能时政数据库,成功打造了中国首个大规模的中文时政领域知识图谱[2]。这个以时政知识图谱为核心的工具,实现了时政新闻的全面知识结构化、图谱化、可视化,不仅有效助力了时政内容创作过程中的策划选题、思路拓展和数据提取等环节,更在提高生产效率方面发挥了重要作用。

《华盛顿邮报》在网页新闻中嵌入知识地图,在新闻正文中,一些关键知识点会被标注。当读者点击这些标注时,正文右侧将以知识卡片的方式展示相关的背景新闻或相关信息。这种补充显示的知识主要以简洁的文字和图片形式呈现[3]。

《纽约时报》应用知识图谱的新闻编码代表了一种创新的新闻展现形式,其来源于《纽约时报》研究与发展实验室提出的“Particles理论”,对新闻中提取出的新闻颗粒即信息点进行编码。这种新闻编码是对新闻中提取出的信息点,即新闻颗粒进行编码的过程。通过这种方式,新闻信息具备了被搜索和提取的能力,可以被拆解为各个元素,并在清晰的时间轴上进行组织。这种策略能够实现新闻信息的实时增量积累和重复利用,同时,也可以将相同的新闻内容自动转化为不同风格的文章[3]。

3. 知识图谱在新闻生产平台的应用研究

知识图谱能够将碎片化、分散的信息集成到一个统一、结构化的框架中,提供更深层次、更全面的信息理解和应用,在有效处理大规模数据时,不断挖掘其中的价值,服务于各种复杂的任务和需求。新闻领域信息系统利用自然语言处理、机器学习和图谱构建等先进技术,可以从新闻素材中提取和分析信息,进一步将这些信息编织成一张知识图谱,实现对新闻事件的深度挖掘和理解,从而赋予新闻更深远的价值和意义。这个过程可以帮助新闻机构提高新闻生产、发布和推荐的效率和质量,同时,也为新闻消费者提供了更好的阅读体验。

在以往的新闻制作过程中,新闻内容的过度重复加工导致大规模的人力资源浪费,同时,也给新闻制作人员带来了挑战,他们需要创新并提供高品质的新闻产品,让用户可以轻松高效地获取信息。现在利用知识图谱技术,能够使新闻信息技术系统提供优质的数据资源和自动化工具,从而提升新闻从业人员的生产效率。以下是知识图谱在新闻生产技术平台中的一些综合应用场景,其能够在新闻生产、媒体内容智能标注、新闻元数据推荐、制作流程优化等方面,加强和优化媒体内容资源数据管理能力。

3.1 新闻聚合

使用知识图谱自动标记新闻报道的主题,根据主题进行分类,能够让新闻采编人员和新闻用户更容易找到他们感兴趣的内容。将不同来源的新闻按照主题、事件、人物等进行分类和链接,帮助新闻采编人员和新闻用户更全面地了解某个事件的发展过程和背景信息。例如,知识图谱可以将所有关于特定政治事件的新闻聚合在一起,使用户能够从多个角度和多个来源了解整个事件。

3.2 新闻推荐

通过知识图谱可得到更细粒度、知识层面的新闻与用户特征信息,构建采编人员的兴趣模型,可以帮助理解采编用户的资料查阅习惯和兴趣爱好,从而提供更个性化的新闻推荐,推荐更符合个性化需求的内容。这一功能模块同样可以应用于新闻用户的订阅和展示平台中。例如,使用知识图谱将用户的浏览历史、社交媒体活动等数据与新闻文章的主题、作者、出版日期等信息相结合,以生成更精确的推荐。

3.3 自动新闻生成

基于知识图谱技术的自动新闻生成技术,能够自动从大量的数据中提取信息,然后生成新闻报道。通过把新闻事件、人物、地点、日期等信息转化为知识图谱的节点和边,机器可以根据这些信息自动生成新闻报道。例如,知识图谱可以将一场足球比赛的结果、进球球员、比赛地点等信息转化为新闻报道的框架,然后通过自然语言处理技术填充具体的描述和评论。此外,对这些内容进行关联性分析,以此为基础,形成的分析结果将作为可供编辑记者参考的素材。

3.4 事件追踪和分析

知识图谱作为一种结构化的知识表示方法,可以帮助人们更好地理解和利用通过自然语言提取的信息,从而更高效的进行事件追踪和分析。利用自然语言处理技术,对新闻素材进行细致的分析和处理,以挖掘并理解文本中的语义信息,同时也有能力识别文本中的情感和立场。自动探索新闻素材中的事件和主题,对相关信息进行分类和整理,以便深度挖掘和理解各种事件。例如,自然语言处理技术可以用来识别、收集和分析有关特定事件(如选举、自然灾害[4]、谣言治理[5]或冲突)的信息,以便新闻记者和分析人员进行深入的研究和报道。也有研究人员使用知识图谱分析工具CiteSpace软件进行行业或领域(如跨文化传播[6]、短视频研究、我国AI主播)信息的知识图谱,形成这些领域的基本知识结构体系结构化和可视化构建。

3.5 媒体内容资源管理

通过知识图谱构建统一和高效的管理框架,优化媒体内容资源管理的采集、存储、处理和分发各环节构成的工作流程。支持媒体内容资源的高级分析,如趋势预测、影响力评估等,用于媒体机构理解媒体内容资源的使用情况和用户需求,对媒体内容的策划和生产也有一定的指导意义。

在该技术平台构建的新闻内容元数据关系管理模块中,采用“前端D3.js+后端Neo4J”的技术路线,以关系图的方式将新闻内容元数据之间的关系进行展示和追溯,将新闻内容制作过程中的各种生产数据、各层级数据之间的关系进行任意维度的分析,为新闻内容生产提供高效便捷的查询和管理手段。

4. 知识图谱技术在新闻领域应用发展展望

信息大爆炸给新闻生产者和媒体从业人员带来了许多深刻的变化和挑战,挑战和机遇并存。随着人工智能技术的发展,知识图谱在新闻技术系统中的应用呈现多元化的趋势,未来的发展前景广阔。以下是一些可能的发展趋势和应用场景。

首先,知识图谱的规模和深度将会进一步扩大。未来的知识图谱不再局限于处理结构化数据,而是能够深度挖掘非结构化数据,包括文本、图片、视频等。例如,通过对新闻报道的图片和视频进行深度学习分析,知识图谱能够提取出更丰富的信息,进一步解读和分析新闻。

其次,知识图谱将会更加智能化,具有更强的自学习和自适应能力。通过深度学习和强化学习等技术,知识图谱能够实现自我进化,随着信息量的增加,其分析能力和准确度将不断提升。这使得新闻机构能够更快速、更精准地进行新闻事件的跟踪和分析。

再次,知识图谱还可能与人工智能技术进行融合和应用,发挥更大的作用。在应对“假新闻”的挑战上,知识图谱也有巨大的潜力。通过对新闻事件的深度分析和跨源核实,知识图谱能够辨别出虚假的新闻报道,帮助用户获取真实、准确的新闻信息。

最后,知识图谱在系统运维和安全方面也逐渐得到广泛应用,在近几年的研究中,研究范围包括事件关联与紧急响应、网络安全分析、风险管理、故障排除,以及预测性维护。例如,基于图数据库的系统日志图谱模型[7],在传统日志分析信息维度中引入网络安全知识、系统环境数据和威胁情报三个维度的背景知识,能够提供多维度分析能力与强事件关联能力。使用基于安全知识图谱和逆向特征的弱点信息补全方法对开源网络安全知识库进行弱点加固[8],可以解决现有弱点信息补全方法对弱点信息不同邻域特征学习不充分的问题。构建面向域名解析系统的知识图谱[9],用于提高网络域名系统服务器日志分析能力。知识图谱能进一步帮助运维人员理解和监控网络活动、跟踪系统配置变化、识别和管理安全风险、存储和检索知识,以解决问题并预测和处理可能的系统问题。例如,结合知识图谱算法的优势和复杂社交网络建模的特点解决恶意用户筛选的问题,在传统的静态网络安全知识图谱上引入了时序信息,可以有效地预测网络攻击事件[10-11]。

结语

近年来,知识图谱在新闻技术系统中的应用逐渐广泛,但同时,其在实施过程中仍面临许多挑战和限制。未来,随着人工智能技术的发展和社会的进步,知识图谱将会在新闻技术系统中发挥更大的作用,将改变新闻的生产、分发和消费方式,为新闻机构和用户带来更加便捷和有价值的体验。

参考文献:

[1]张吉祥,张祥森,武长旭,等.知识图谱构建技术综述[J].计算机工程,2022,48(3):23-37.

[2]谭景瑜,李璇.以内容为纽带以技术为驱动——央视网2023年两会报道创新应用实践[J].中国传媒科技,2023(4):17-22.

[3]宋卿,戚成琳,张鹏洲.知识图谱技术在新闻领域中的应用思考[J].中国传媒科技,2016,(05):19-21,39.

[4]周华清,李来斌.国内外突发事件的应急传播研究热点与趋势分析(2012~2021年)[J].电子科技大学学报(社科版),2023,25(3):38-49..

[5]宁辰.基于知识图谱的国内网络谣言治理研究可视化分析[J].新闻世界,2024(6):26-29.

[6]刘懋琼,杨海燕.跨文化传播舆情管理知识图谱构建[J/OL].情报科学,2024(6):1-13[2024-09-04].http://kns.cnki.net/kcms/detail/22.1264.G2.20240627.1142.006.html.

[7]郑中一,李赛飞,江晓峰.基于图数据库的系统日志图谱模型构建与分析[J].信息安全与通信保密,2023(6): 110-121.

[8]周莎,申国伟,郭春.基于安全知识图谱与逆向特征的弱点信息补全[J].计算机工程,2024,50(1):145-155.

[9]胡昌秀,张仰森,刘洋,等.面向域名解析系统的知识图谱构建与应用方法[J].科学技术与工程,2023,23(23): 9979-9990.

[10]朱弘毅,李荣臻,刘万里,等.基于知识图谱的恶意用户筛选算法研究[J].计算机与数字工程,2023,51(10): 2334-2338.

[11]黄智勇,刘昕宇,林仁明,等.基于知识图谱的网络攻击预测方法研究及应用[J].现代电子技术,2024,47(9): 91-96.

作者简介:韩笑,硕士研究生,高级工程师,hanxiao@xinhua.org,研究方向:媒体融合;端木义平,本科,高级工程师,研究方向:AI、广播电视制作、播出。