基于文本信息分析的情报技术研究
2020-09-10胡尧强
胡尧强
摘要:文本信息作为情报分析的重要载体,对我国情报技术的发展具有非常重要的影响。基于此,本文就针对情报技术中文本信息分析的相关内容进行了深入的探究,旨在推动我国情报学的全面发展。
关键词:文本信息;情报技术;研究
一、简述文本信息分析的概念及重要意义
文本信息分析的具体含义,主要是指运用模型理论对文本信息实施统计、分析、理解、转换与生成的过程。【1】通过对情报信息来源的具体分析,我们可以从中了解到情报来源的主要渠道是通过十大文献源及其他相关资料来获取的,这其中包含期刊论文、会议论文、政府出版物以及产品样本等,这些文献资料中蕴含着情报工作所需要的大量信息资料。
文献信息作为情报研究工作中极为重要的处理对象,其通常是以文本形式呈现出来的,对文本信息分析的处理流程主要是以检索为基础的序化以及信息、知识和情报之间的转化,文本信息分析的主要目标是能够更方便快捷的找出情报工作所需的信息资料,并运用相关知识对信息实施分析处理,由此得出最终的情报信息。
伴随科技水平的不断发展,推动了文本信息分析工作的信息化管理,同时也对情报专家提出了更为严格的要求,如何灵活的运用现代化信息技术来对文本信息进行收集与整合,从而准确快速的找出文本信息中有价值的情报资料,是每个情报专家需要迫切解决的一大问题。
二、基于本文信息分析的情报技术探究
从语言层面探究文本信息分析的处理过程
文本信息主要是借助自然语言来描述与展现的,而文本信息分析从处理单位的层面出发,可以分为词语分析、句子分析、语段分析以及篇章分析,从分析的层面出发,文本信息则可以划分为语音分析、语法分析、语形分析、语用分析以及语义分析。对此,我们可以从以下几点进行详细研究:
(一)语法角度探究
通过对文字信息语法实施研究分析后,就可以进行针对性的信息抽取,通过对信息抽取技术的灵活运用,就可以顺利的展开后续工作,如信息库的建设、列表式搜索、跨语言信息检索以及辅助审稿等。语法分析主要是针对句子进行分析,其主要包含句子内部结构分析和句子相似度匹配分析。针对相似句子的判断依据主要是从词形相似度、句型结构相似度以及词序相似度等方面进行考量的,并以此为基础,构建出相关的向量空间法、依存结构法以及编辑距离法。
(二)语义角度探究
通过对文字信息语义实施研究分析后,就可以进行针对性的知识抽取,知识抽取是以知识工程实施的,在构建具体的知识库后,便可以进行后续的精细式知识组织、知识推理以及知识连接等具体工作。语义分析的相关概念主要体现在以词法分析和语法分析为前提标准,通过对知识库中语义知识的合理运用,将语法结构描述转化为以逻辑和概念等知识表示为基础的语义表示,通过对领域知识的灵活运用将句子的语义加以分析整理,并在此基础上用过判断及推理的方式,展开后续的知识抽取与发现、观点与流派搜索等实际工作。【2】
(三)语用角度探究
在经过具体的语用研究分析之后,就可以展开后续的风格型搜索、学者自动评价以及意见挖掘等高级处理。就目前而言,大部分科学评价都是通过论文、项目、著作以及专利等信息资料实施统计的。而学位论文的网络评价,则是从学术作风及学术品德等角度来进行具体的评价工作的。
(四)词法角度探究
文本信息的词法主要包体现在自动分词、词性标注以及词频统计等方面,通过对数据适时预处理后,尽可以进行抽取特征词构建矩阵向量,借助向量空间模型、支持向量机以及潜在语义标引等模型加以计算,从而实现分类、聚类与共词分析等目的。
三、从智能层面探究文本信息分析的处理方法
在进行具体的文本信息处理工作时,我们不能忽视情报与智能之间存在的关联性,处理的过程离不开智能,而处理的目标则是为了获取有价值的情报信息,情报学的核心目的在于如何加强对智能的科学运用。因此,情报学的发展进步是无法脱离智能而独立进行的。人工智能与计算机定性相关的较为常见的处理方法主要包括神经网络、支持向量机、模糊决策树、潜在语义分析等。下面我们就针对文本信息分析的几种智能处理方法进行了详细的研究。
(一)决策树
决策树是以实例为基点的归纳学习算法,它可以针对一组无规则、无次序的事例推理出决策树表示方式的分类规则。通过自顶向下的递归方式,将决策树内部节点的属性值进行比较,并依据不同的属性值来对该节点向下的分支加以判断,在决策树的叶节点得出最终结论。决策树被广泛运用于文本分类、数据挖掘、机器翻译和知识发现等技术领域。
(二)支持向量机
支持向量机主要是由贝尔实验室研究小组所提出的一个技术理论,它是以计算学习理论的结构风险最小化原则为基础的,可以有效的解决线性不可分的问题。在实际的分类问题中,支持向量机技术原理主要体现在通过在高维空间中寻找一个超平面作为两类的分割,以此来保障错误分割率控制在最小值。支持向量机主要应用于文本分类和数据挖掘等技术领域。
(三)贝叶斯网络
贝叶斯网络作为一种图形模式,其主要作用是用来表示变量间的连接概率的,它能够准确的发现数据之间的内部关系。贝叶斯理论明确了信任函数在数学中的计算方法,其具备相对稳定的数学基础,与此同时它还展现了信任度跟随证据而变化的增量学习特征。贝叶斯可应用于文本分类、态势估计以及热点监测等技术领域。【3】
(四)遗传算法
遺传算法,主要是基于某一随机而生的抑或特定的初识群体出发,依据一定的操作准则,如选择、复制、变异以及交叉等,在逐步的迭代计算后,依据不同个体的适应度值,实现优胜劣汰。遗传算法的特点主要体现在直接对结构对象实施操作,不存在求导与函数连续性的具体限定,具备内在的隐并行性及良好的全局寻优性能,通过对概率化寻优方式的巧妙运用,可以自动获取搜索环节中的相关知识并以此来对优化过程进行指导。遗传算法从数学层面来看,属于一种概率性搜索算法,而从工程学层面来看,则属于一种自适应的迭代寻优过程。遗传算法主要被应用于情报采集、文献聚类、知识工程以及信息抽取等技术领域。
(五)神经网络
神经网络的技术原理主要是模仿人脑神经网络的具体结构和某部分工作机制,运用多种神经元构建网络,最终实现大规模并行计算的求解方法。每个神经元的输出都连接着另一个神经元的输入。神经元的输出值是通过神经元输入与阈值的加权函数来共同计算得出的。神经网络主要应用于文本分类、智能检索、文本聚类、自动分词以及数据挖掘等技术领域。
结语:
综上所述,文本信息作为情报分析的重要来源,对情报学的整体发展具有非常重要的价值。因此,相关部门应具备与时俱进的发展眼光,结合先进的现代化技术,来不断完善与创新情报分析的相关技术,实现情报技术领域的不断突破。
参考文献:
[1]迟玉琢.2018年我国情报学研究进展[J].山东图书馆学刊,2019(04):24-31+54.
[2]张云,杨建林.从学科交叉视角看国内情报学的学科地位与发展思考[J].情报理论与实践,2019,42(04):18-23.
[3]王鹏.“互联网+”环境下的科技情报发展趋势及团队建设[J].竞争情报,2018,14(03):23-28.