APP下载

人工智能服务的科技情报信息收集与处理优化研究

2024-07-17王伦

科技资讯 2024年10期

摘要:研究比较了循环神经网络系列算法以及自然语言处理等多个算法在PennTreebank数据集上的表现,采用ROUGE得分作为评价指标。结果显示,自然语言处理模型在自动摘要任务上表现最佳,能够生成更准确、更全面的摘要。此外,在不同类型的数据中,基于自然语言处理技术的人工智能抽取方法也表现出较高的抽取准确率,优于传统方法。这表明自然语言处理在科技情报信息收集与处理领域具有显著优势。

关键词:人工智能科技情报收集与处理自然语言处理

ResearchontheOptimizationoftheCollectionandProcessingofScientificandTechnologicalIntelligenceInformationBasedonArtificialIntelligenceServices

WANGLun

NeijiangInstituteofScientificandTechnologicalInformationandNewTechnologyDevelopment,Neijiang,SichuanProvince,641000China

Abstract:Thispapercomparestheperformanceofmultiplealgorithmssuchastheserialalgorithmofrecurrentneuralnetworksandnaturallanguageprocessing(NLP)onthePennTreebankdataset,andusestheROUGEscoreastheevaluationindex.ResultsshowthattheNLPmodelperformsbestontheautomaticsummarytask,whichcangeneratemoreaccurateandcomprehensivesummaries.Inaddition,indifferenttypesofdata,theAIextractionmethodbasedonNLPtechnologyalsoshowshighextractionaccuracyandisbetterthantraditionalmethods,whichshowsthatNLPhassignificantadvantagesinthefieldofthecollectionandprocessingofscientificandtechnologicalintelligenceinformation.

KeyWords:Artificialintelligence;Scientificandtechnologicalintelligence;Collectionandprocessing;NaturalLanguageProcessing

近年来,随着人工智能技术的迅猛发展,特别是自然语言处理(NaturalLanguageProcessing,NLP)技术的不断创新,科技情报的收集与处理迎来了新的机遇[1]。当前,研究者们正积极探索如何利用人工智能(ArtificialIntelligence,AI)技术优化情报收集与处理流程。其中,基于NLP技术的AI抽取方法备受关注。该方法能够自动执行数据清洗与标准化任务,有效识别并链接文本中的关键实体至知识图谱,进而精准抽取实体间的复杂关系[2]。研究旨在进一步验证NLP技术在科技情报信息收集与处理优化领域的显著优势。通过引入循环神经网络(RecurrentNeuralNetwork,RNN)系列算法、正规化梯度下降算法(DescentRegularizedGradientDescent,DRGD)以及网络的加权进化算法(WeightedEvolutionaryAlgorithmforNetworks,WEAN)进行对比试验,并采用ROUGE得分作为评价指标,全面评估各算法在自动摘要任务上的性能。同时,本研究还将探讨基于NLP技术的AI抽取方法在不同数据类型中的抽取准确率变化情况。期望通过本研究,为科技情报信息收集与处理提供更高效、更准确的解决方案,推动情报工作的整体效率和质量提升。

1基于AI技术的科技情报信息收集与处理

1.1AI在科技情报信息收集与处理中的优势

在科技情报收集过程中,信息分散且多样化,源自新闻报道、学术期刊、专利数据库、企业报告等不同渠道,其格式、质量和详细程度差异显著,为情报分析带来了显著挑战。然而,AI技术在此领域彰显了其强大潜能。它能自动执行数据清洗与标准化任务,有效剔除重复、错误或无关数据,并统一格式,优化后续分析流程[3]。同时,借助自然语言处理中的命名实体识别技术,AI识别并链接文本中的关键实体至知识图谱的相应节点,桥接不同信息源。AI还能精准抽取并构建实体间的复杂关系,如合作、竞争和技术关联,甚至通过规则推理或机器学习揭示隐藏关系,从而显著提升情报的丰富度和深度。在知识图谱构建与维护方面,AI可以构建一个包含多个信息源知识的知识图谱。

1.2基于NLP的知识图谱关系型数据抽取与分类

完成RPA参数设定后,利用NLP模型对知识图谱关系型数据进行分类。关系型数据的分类可以更好地理解和组织知识图谱中的关系,从而支持更精确地查询和分析。抽取NLP知识图谱数据的过程主要分为以下几个步骤:首先,选择中层键值与外键关系数据作为样本,以获取实体之间的关联信息[4];其次,逐一抽取实体图谱数据,并从中提取构成元素,如字节、区间、配置等;最后,通过建立外键列-主键列的缓存,抽取实体之间的关系数据。同时,根据中层键值表中属性特征、空间特征,时间特征等实体数据的特征,并检索匹配的特征。此外,还需抽取字段配置数据。为了保证数据的完整性和准确性,需要从实体关系中抽取对应的字段。最后,对抽取的数据进行验证与整合,确保数据符合要求。

知识图谱关系型数据AI抽取结构是一个复杂而精细的系统,它涵盖了多个关键组件,共同协作以实现从多源信息中高效、准确地抽取和整合知识[5]。AI抽取是整个系统的动力源泉,负责自动化地从原始数据中识别和提取关键信息。它利用先进的机器学习算法和自然语言处理技术,能够处理各种格式和类型的数据,无论是结构化,还是非结构化的。实体数据,这是知识图谱的基础构建块。实体可以是人、地点、组织、事件或其他任何可以被明确识别和定义的事物。AI抽取系统从文本中识别出这些实体,并为每个实体创建唯一的标识符。外键实体,这些实体在知识图谱中扮演连接不同数据点的桥梁角色。外键实体的存在使得知识图谱能够形成一个丰富而互联的网络。字段配置,是定义如何存储和处理实体数据的关键环节。字段配置指定了每个实体属性的数据类型、格式和约束条件,确保数据的一致性和准确性。

2模型对比分析与性能测试

为了验证自然语言处理(NLP)在科技情报信息收集与处理优化领域的显著优势,实验引入了循环神经网络(recurrentneuralnetwork,RNN)系列算法、W型基于上下文的循环神经网络(RNN-context(W))、C型基于上下文的循环神经网络(RNN-context(C))、分布式随机梯度下降(DistributedRandomGradientDescen,DRGD)以及网络加权进化算法(WeightedEvolutionaryAlgorithmforNetworks,WEAN),并将它们与NLP在PennTreebank(PTB)数据集上的表现进行了全面比较。为确保评估的客观性和准确性,研究采用了ROUGE得分作为评价指标,这是一种基于召回率(Recall)的自动摘要任务评估方法,实验结果如表1所示

表1展示了不同模型在ROUGE评价指标下的得分情况,包括R-1、R-2和R-L指标。这些模型分别是RNN、RNN-context(W)、RNN-context(C)、DRGD、WEAN和NLP。RNN作为基础模型,其ROUGE得分相对较低。DRGD和WEAN算法相对于RNN算法在ROUGE得分上有较大提升,尤其是在R-1和R-L指标上。这表明这两种算法在自动摘要任务上具有更好的性能,能够生成更准确的摘要。NLP模型在所有模型中取得了最高的ROUGE得分。此外,实验还在结构化数据库数据、半结构化数据、三元组数据、本体和语义网数据中测试了NPL模型和表现较好的WEAN模型的抽取准确率变化情况,实验结果如图1所示。

从图1展示的结构化数据库数据、半结构化数据、三元组数据、本体和语义网数据4种条件下的知识图谱关系型数据抽取效果来看,研究提出的采用NLP技术的AI抽取方法在各种数据类型中都表现出了较高的抽取准确率。具体而言,在结构化数据库数据中,该方法的平均抽取准确率达到了95.1%,比WEAN模型高出了10个百分点。这表明在处理结构化数据时,基于NLP技术的AI抽取方法能够更准确地识别和提取关键信息。在半结构化数据中,虽然抽取准确率出现了小幅度的波动,但平均仍然达到了93.2%,且相比WEAN模型波动更小、准确率更高。虽然WEAN抽取方法和本文提出的基于NLP技术的AI抽取方法在准确性上都存在一定的波动,但整体上看,研究所提方法的抽取效果都优于传统方法。

3结论

AI技术在科技情报信息收集与处理优化领域具有巨大的潜力和优势。实验结果表明,基于NLP技术的知识图谱关系型数据抽取与分类方法能够高准确地提取关键信息和构建实体之间的复杂关系,有助于理解和组织知识图谱中的关系,支持精确的查询和分析。AI抽取结构涵盖了多个关键组件,如AI抽取、实体数据、外键实体、字段配置和NLP知识图谱库等,共同协作以实现从多源信息中高效、准确地抽取和整合知识。因此,AI技术在科技情报信息收集与处理中具有重要的应用前景,对于应对复杂多变的科技环境和信息时代的挑战具有强有力的支持作用。

参考文献

[1]范俊军,沐华.我国低资源语言大规模数据建构及语言田野实践的数据转向[J].云南师范大学学报(哲学社会科学版),2023,55(6):25-35.

[2]罗锦钊,孙玉龙,钱增志,等.人工智能大模型综述及展望[J].无线电工程,2023,53(11):2461-2472.

[3]CHANGA,JESKEL,ULBRICHS,etal.theELIXIRcoredataresourcein2021:newdevelopmentsandupdates[J].NucleicAcidsResearch,2021,49(D1):D498-D508.

[4]红彩.人工智能赋能的公安情报流程研究[D].北京:中国人民公安大学,2023.

[5]陈婷婷.人工智能融入市域社会治理问题研究[D].南昌:南昌大学,2022.