浅谈数据挖掘技术在科技搜索服务中的应用*

2021-06-28王彦婕

山西电子技术 2021年3期

王彦婕

(山西省信息产业技术研究院有限公司，山西太原 030012)

1 绪论

随着信息产业技术的不断发展，互联网逐步成为大众获取与交流信息的最大平台，我们通过在网页中简单地搜索相关词语就可以得到我们想要的信息，在科技服务平台网上搜索关键词就能获取科技相关方面的知识。在搜索引擎不断更新交替的现状下，最初的传统搜索服务手段已经被淘汰，现代社会越来越不满足落后且单一的大众化搜索服务，信息发展急切需要全面精准的专业化信息检索服务。本文基于数据挖掘技术，获取了大量科技类文本数据，并结合项目已有的大量科技平台数据，建立一个数据量大且有效性高的数据库，并对数据进行清洗、处理、量化、建模等步骤，以便于进一步服务于科技搜索引擎。

2 数据采集

数据采集是所有数据挖掘研究的基础，构建一个数据量大，数据有效性高的数据资源库是一切数据挖掘研究的基础。我们可以利用网络爬虫技术来定向获取或非定向获取数据，根据网络爬虫相关规则：以某个选定科技服务网站作为起始网站，通过各个网站页面的超链接遍历整个网络，利用URL根据广度优先算法从一个网页文档爬取到另外一个网页文档来获取所有数据信息。

数据采集后将所有数据汇集形成自有科技数据库。整合现有数据，包含各类科技数据；科技项目中整个项目生命周期中的数据包括管理数据、申报数据、申报信息、结题验收信息及产生的成果数据；科技论文内容、负责人及参与人信息；还包括科研设施与仪器、生物(物种)资源与实验材料、科技文献、科学数据、重点科技创新平台、重点实验室、工程技术研究中心、科技创新团队、科技基础条件平台、创新券服务等数据。只有数据库足够完全，基于数据挖掘形成的科技引擎才足够可靠。

3 数据清洗

分析整理平台现有数据，进行数据预处理，对数据进行筛查和清洗，最后融合形成自有科技数据库。我们爬取到的数据多为文本数据，文本有其自身特征，比如有很多对我们搜索不太相关的符号、语气词、连词、乱码等以及“得”、“啊”、“呀”、“和”、“这”等词，这些词基本会出现在所有爬取到或项目已有的文本数据中，但这些词对搜索服务没有任何帮助，数据建模也毫无意义，因此文本数据预处理就是要将无用词都删除掉。我们可以参考停用词表，停用词表就是研究人员通过多次数据分析及采集总结出的对数据挖掘用处不大的词语，因此我们选用一个停用词表对我们的数据进行清洗。

4 数据处理-分词技术

分词技术是数据挖掘的基础。分词技术根据分词的原理和词性特征可分为2种：第一种是基于词典分词的算法，也可以理解为字符串匹配分词算法。这种算法是按照特定的规则将我们构建的数据库中的数据与一个已经建立成功的可靠词典进行比对匹配，若在词典中找到该词则比对匹配成功，识别了这个词汇，反之抛弃。常见的基于词典的分词算法有单向最大匹配算法和双向匹配法。基于词典的分词算法是目前应用最广泛和频繁的，分词效率快，分词方法简单，因此之前很长时间研究者们都致力于提升这种分词算法的有效性，进行优化，比如设定数据字符长度，数据结构等。第二种分词方式是基于统计学的机器学习分词方法，这类机器学习算法目前常见的有HMM、CRF、SVM、深度学习等算法，机器学习算法的基本思路是将数据进行训练，考虑到了词出现的频率，且结合上下文，因此具备更高的挖掘基础，对数据有更佳的识别效果。

本文通过分词算法可以将科技数据进行分词处理，综合考虑以上介绍的两种数据挖掘中的分词技术，本研究采用哈尔滨理工大学LTP对科技数据的语料进行分词处理，处理过后的科技本文数据实例结果如表1所示。

表1 分词处理结果

5 数据挖掘及建模

在利用网络爬虫技术进行了科技类数据采集、数据预处理、数据清洗、数据分词处理等处理后，再进行进一步的数据挖掘。大数据处理技术是通过运用大数据处理计算框架，对数据进行分布式计算。在计算之前要将词语数值化。

数据挖掘就是从海量的数据中采用自动或半自动的建模算法，构建数据之间的关系网，寻找隐藏在数据中的信息，是从数据库中挖掘有效信息的过程。数据挖掘一般和计算机科学相关，并通过机器学习、模式识别、统计学等方法来实现知识挖掘。在搜索引擎中主要是进行文本挖掘，搜索文本信息需要理解人类的自然语言，文本挖掘指从大量文本数据中抽取隐含的、未知的、可能有用的信息。所涉及相关算法包括：TSP、Best-first Search、Word2vec、TF-IDF、WordNet等算法。

5.1 Word2vec将词语数值化

采用Word2vec训练构建并分词后的科技类数据库，将所有词语向量化，变成可用于计算和建模的数值。简单来讲，Word2vec是一款能高效地将词转变为多维向量的计算工具，其计算思想是：先构造一个目标函数，词向量是构造目标函数的辅助参数。通过对目标函数进行优化，可以获得各个参数，包括所需要的词向量。主要通过神经网络将词映射到一个N维空间，N维空间表示了词的特征。在当前研究中人们经常使用的方法有CBOW模型与Skip-gram模型，图1和图2分别给出了两种模型的示意图。

图1 CBOW说明图

图2 SG说明图

其中，Skip-gram模型的方式是使用选取的目标词预测文本中其他词语的向量表示，而CBOW则相反，它是根据词语所在文本的上下文环境推测目标中心词，输出中心词的向量表示。相比较而言，Skip-pram模型用于将科技文本数据向量化的效果更好。

5.2 TF-IDF数据挖掘算法

将科技文本数据向量化后，我们可以运用TF-IDF算法对数据进行加权处理。TF-IDF是统计学的一个公式，运用于评估一个词语对于整个文本或者整个数据库的重要程度，我们主观地认为一个词语的重要性取决于这个词在数据库中出现的频度，出现次数越多，越重要。比如在一篇科技类论文中，“爬虫技术”一次频繁出现，那我们认为该论文主要研究爬虫技术。因此某词语在一篇科技类文档中出现次数越多, 同时在我们构建的数据库中出现次数越少, 越能够凸显本文档，这就是TF-IDF数据挖掘算法的意义。