基于SWOT 分析的非结构化数据文本分类算法

2022-10-19易晓宇易绵竹

科技创新与应用 2022年29期

易晓宇，易绵竹

（信息工程大学洛阳校区，河南洛阳 471000）

网络是一个互动的、超链接的、异质的、分布的和动态的信息传播渠道。网络的体量从各领域的角度来看都是相当庞大的，而且在日常电子活动中的渗透迫使人们改变和扩大现有的基于信息的技术革命，并建立一个新的基于知识的时代。为用户提供信息源的提炼技术已经变得越来越必要。相关文献报道，网络上约有80%的信息是以非结构化的形式存在的，如电子邮件、新闻文章和网页[1]。结构化数据类似于机器语言，使信息的操作和管理更加直接；而非结构化数据通常是自然语言文本，没有严格的语义结构或数据库格式。显而易见，如果能够立即将非结构化数据转化为结构化数据，那么从非结构化数据中理解情报就会更加简单。

向跨领域的分析人员提供有针对性的信息。其囊括了信息检索系统用来发现知识的自然语言处理和数据挖掘技术。使用分类算法智能地挖掘文本得到了广泛的研究。研究主要调查了在挖掘非结构化数据过程中采用的文本分类算法，并对各分类算法的优势、劣势、机会和威胁（SWOT）的使用趋势进行了结论性的分析。主要在情感分析的应用领域探讨这些算法，在一篇文献中，情感分析基本上是作为一个典型的文本分类任务来研究的。图谱中可以确定未开发的社交媒体技术和这些算法在各社交媒体中的使用程度，相关研究人员可以更为方便地了解基于机器学习的社交媒体情感分析领域已完成的工作。

1 知识发现框架分类法

信息密集型应用要求科研人员从典型的文档检索发展到“知识”发现。传统的发现框架包括自动发现目标知识的新方法，这些方法来自数据挖掘、信息检索、自然语言处理、人工智能、机器学习和统计等研究领域。重要的分类法如下。

1.1 数据挖掘

数据挖掘被定义为从大型数据集或数据库中提取隐含的、未知和潜在有用信息的非简单抽取方法。用来从结构化的数据集合中识别和提取新颖、有效及可理解的模式。数据挖掘是从大量的数据中提取或挖掘知识。

1.2 数据库中的知识发现

知识发现是在数据中发现新颖、有趣和有用模式的过程。数据挖掘通常被认为是在数据库中发现知识过程中的一个重要步骤。因此，数据挖掘和数据库中的知识发现（Knowledge Discovery in Databases，KDD）常被当作同义词。

1.3 信息检索

一个典型的信息检索任务是用户在特定情况下为解决其当前问题所需的检索。网络信息检索（IR）可以被定义为将IR 的理论和方法应用于万维网。其涉及IR 的技术和实际应用。

1.4 信息抽取

信息抽取（IE）可以使信息检索更加精确，因为其在细粒度层面上工作，通过从检索到的文件中提取相关的事实，将使用IR 系统检索到的相关文件集合转化为可以有效理解和分析的信息。IE 包括命名实体识别（NER）和关系抽取等子任务。因此，IE 可以用来改善IR 过程中的索引部分。

1.5 网络挖掘

网络挖掘是指使用数据挖掘技术自动检索、提取和评估（规范化/分析）信息，以便从网络文件中发现知识[2]。数字革命产生了巨量数据，促进了利用智能算法从其中发掘出有价值知识的需求。由于网络数据的异质性、半结构性、分布性、时变性和多维性，自动发现目标知识是一项具有挑战性的任务。

为确定一个有价值的知识发现框架，数据挖掘、数据库知识发现、信息检索、信息抽取和网络挖掘都有明确的不同目标，却又相互补充。网络挖掘中，信息检索和信息抽取作为预处理文本数据的子任务，应用数据挖掘算法促进有用模式的发现。另外，网络挖掘可以提高IR 系统的精度，并以更好的组织方式呈现检索结果。网络挖掘是数据挖掘过程的延伸，网络挖掘过程的主要组成部分包括：信息检索模块，用于检索相关文件；信息抽取模块，用于从检索到的文件中选择有不同数据，并将其转化为形式表示；泛化模块，主要使用数据挖掘方法自动发现多个网络文件的模式；分析模块，用于分析数据。

网络信息的多样性将网络挖掘分为3 个大类，即网络内容挖掘、网络结构挖掘和网络使用挖掘。文本挖掘是网络内容挖掘的一种类型，是从文本中获取知识的过程。其也被称为文本数据挖掘（TDM）和文本数据库中的知识发现（KDT），是汇编、组织和分析大型文件集的过程，为分析和决策者提供信息。区分文本挖掘和数据挖掘主要是考虑数据库的特点，在文本挖掘中是非结构化的数据，在数据挖掘中是结构化的数据。结构化数据指的是具有高度组织性的信息，这样的信息在关系型数据库中是无缝的，可以通过简单、直接的搜索引擎算法或其他搜索操作进行搜索；而非结构化数据基本上是相反的[3]。非结构化数据在编译时更为耗时和耗力。

2 文本挖掘过程

文本挖掘是从语料库中识别新信息的过程，主要是为了在文本中发现用户以前未知的知识。文本数据主要是非结构化数据，挖掘这种类型的数据主要涉及将非结构化的数据系统地转化为结构化的数据，并使用专门的数据挖掘技术发掘出隐藏的知识。因此，文本挖掘中的智能是基于自然语言处理技术（NLP），NLP可以作为一种预处理技术来获取数据，并初步了解数据中存在的模式。因此，文本挖掘=统计NLP（结构化数据）+数据挖掘（模式发现）。文本挖掘的通用策略包括预处理（消除停顿词、词根等）、使用各种统计或语义方法选择特征，以及使用适当的数据挖掘建模及算法（分类或聚类或回归技术）[4]，最终预测出具有可解释性和可行性能的模型。分类或聚类算法是2 种关键的数据挖掘方法。分类是一种有监督学习，在特征的基础上为实例分配预先设定的标签，需要训练数据。聚类是一种无监督学习，不需要训练数据，在特征的基础上对类似的实例进行分组。

本研究的重点是确定用于文本数据挖掘的分类算法，仅考虑使用分类算法挖掘过程的每个步骤。步骤依次为：文本预处理（句法/语义文本）—特征生成（词袋）—特征选择过程（简单计数统计）—数据挖掘监督/无监督/半监督学习算法（分类/聚类）—结果分析与预测模型。

2.1 文本转换

将非结构化数据转化为结构化的知识发现方法，包括2 个子任务，即文本预处理和特征生成。预处理将文件转换为适合分类任务的表示。一般来说，文本可以用2 种方式表示，即用词包表示，每个文档被表示为一组词，以及其在文档中的相关频率（词频）（基本上与集合中的词的顺序无关）或直接表示为字符串，即每个文档是一个词的序列。大多数文本分类方法使用词包表示法[5]。

在分析非结构化文本之前需要进行清洗。常见的文本清洗任务包括用空格替换特殊字符和标点符号、规范化大小写、删除重复字符和消除用户自定或内置的停用词及词干化。因此，文本数据清洗基本上是文本预处理的一个子任务，文本数据清洗包括的子任务有数据整合、数据还原、特征选择及数字数据离散化。

2.2 特征选择

文本特征的高维度和不相关特征（噪声）的存在，分类之前需要完成的基本任务之一是特征选择。方面级情感分析的主要任务是抽取对象（特征）和极性词。特征选择方法从文档中去除非信息术语，提高分类效果并降低计算的复杂性。常用的特征选择方法有：基尼指数（Gini Index）、信息增益（IG）、互信息（MI）、χ2统计（CHI）、文档频率阈值（Term Frequency）、Tf-idf。特征转换方法有：监督LSI、线性判别分析和广义奇异值分解。特征选择方法的目的是通过删除与分类无关的词减少特征集的大小，降低维度，提高分类的准确性。

2.3 数据挖掘

数据挖掘是网络挖掘的归纳任务，可以自动发现多个网络文件的模式。分类是文本数据挖掘研究中重要任务之一。其本质上是根据文档的内容将其归入预先确定的类别的过程，通常包括2 个步骤：模型构建和模型使用。

2.3.1 模型构建

为了描述一组用于分类的预定类别，需要使用分类规则、决策树或数学公式来表示训练集，构建一个模型。

2.3.2 模型使用

上述模型用于对未来或未知对象进行分类。测试样本的已知标签与模型的分类结果进行比较。测试集独立于训练集，否则就会出现过拟合。模型的准确性是通过准确率评定，准确率是指被该模型正确分类的测试集样本的百分比。

2.4 结果分析

建立预测模型后，下一步就是验证或解释挖掘出来的模式。更具体地说，其对应于从网络上获得的知识的解释、验证和可视化[6]。算法的性能可以通过以下参数来衡量：训练时间、测试时间、分类准确度、精确度、召回率、微平均、宏平均和平衡点（精确度=召回率）。目标是实现分类高质量和高计算效率。

3 挖掘非结构化数据的分类算法

分类算法的目标是将文本归入一个预先设定的类别中。其定义为：给定一个训练数据集D={X1，…，XN}，数据集中的每条记录均被贴上一个类别值，这个类别值是从一组由{1…k}为索引的K 个不同离散值中抽取的。训练数据用来构建分类模型，该模型将基础记录中的特征与类别标签之一联系起来。对于类别未知的特定测试实例，训练模型用来预测该实例的类别标签。为了给本研究提供一个结论性的工作，采用SWOT（优势、劣势、机会和威胁）分析。SWOT 可以快速进行战略分析，通常用来了解当前的情况或计划，评估相对机会，分析领域内外的所有积极和消极因素[7]。随着情感分析应用于商业与政府，SWOT 适用于评估、理解和评价相对机会。表1列举了在文本挖掘相关研究中的分类算法。

表1 文本数据挖掘中分类算法的SWOT 分析

每种分类算法都有自己的优势和劣势。目前，预训练模型因使自然语言处理由原来的手工调参、依靠专家的阶段，进入到可以大规模、可复制的大工业施展的阶段而兴起。而且预训练模型从单语言、扩展到多语言、多模态任务。

情感分析是人们对某个实体的意见、态度和情感的计算研究。其将人们的情绪划分为消极、积极、中性的基本极性。从用户意见中得到分数，概括出用户的观点。情感分析描述了一个自然语言处理问题，将意见性文本与事实性文本区分开来，如果是前者，则确定其极性。同时，从应用层面考虑，情感挖掘在社交网络的趋势上是可行的。从20 世纪90 年代中期提出情感分析，“社会网络”仍在热议中。研究用户在不同的讨论门户上所持有的观点，这也是情感分析在思考人群行为方面所发挥的不可或缺的作用。所有用户在网络上产生的数据都被称为社会媒体内容，这些进入动态网络的数据没有任何格式或顺序可循。从其流动的数量和种类来看，是“大数据”的一部分。

4 结论

从海量的大数据中挖掘和分析信息，是一个高效的决策过程。回顾用于智能挖掘非结构化数据的主要文本分类算法的应用情况，并从各算法的优势、劣势、机会和威胁（SWOT）方面对其使用趋势进行了结论性的分析报告。探讨了这些算法的应用范围，即情感分析为一种典型的文本分析。其目的是了解基于机器学习的社交媒体情感分析领域的任务，确定该领域有待解决的问题和研究空白。