智能机器人语料库的自动分词方法研究

2019-09-10高秀艳耿兴隆李战军

新纪实 2019年8期

高秀艳耿兴隆李战军

【摘要】智能机器人自动回复功能的实现依赖于足量的语料库，语料库的基本单位为词语，因此将整篇的文章语料进行分词并对出词语进行词频统计，可以为下一步的机器学习做好准备。Python语言在自然语言处理过程中广受编程者青睐，它简洁的语法和强大的第三方库为编程提供了极大的方便。Jieba模块在自然语言处理中功能强大，能按照全模式、精确模式和搜索引擎模式对文章进行分词，使用该模块对文章进行分词后，再利用analyse子模块进行词频统计，可以为后期的模型训练提供更准确的数据集，从而提高机器人的回复准确率。

【关键词】机器人;语料库;Jieba模块

自然语言处理是和语言紧密相关的一门学科，是统计和机器学习和语言学的交叉学科，是让计算机能够理解人类语言的一种技术。自然语言处理的主要目的是研究能够表示自然语言的模型，及如何通过计算机处理这些数学模型[1]。智能机器人即依据此进行工作，获取足量的语料后进行分词，并对词语按一定的规则进行建模，用模型训练机器人，使它具备根据输入内容自动检索答案并给出反馈的功能，从而实现自动回复。

一、汉语分词的研究现状

中文分词有人工分词和机器分词两种，鉴于分词效率，目前多使用机器分词，目前常用的机器自动分词方法有：基于词典的分词方法、基于统计的分词方法和混合方法[2][3]，其中词典和统计的方法是目前分词技术的主要方法，但基于词典的分词方法在处理歧义字段时性能欠佳，而基于统计的分词方法虽能解决这一问题，但由于其需要大量的计算，时间消耗相当可观，因此混合方法是目前被最多采用的方法。

二、python语言及jieba分词模块介绍

Python语言是当今流行的开源编程语言，它可以跨平台使用，语法简洁，安装方便，广受編程者青睐，其丰富的第三方库也使它如虎添翼，更加方便的完成各种数据处理及运算。

Jieba模块是免费的第三方模块，也是目前Python中最好的中文分词组件，它可以以精确模式、全模式、搜索引擎模式三种模式对语料进行分词，并可使用子模块analyse进行关键词提取及词频统计。

Jieba模块使用cut函数或lcut函数实现分词，使用cut_all参数来判断是否使用精确模式：

cut_all = True：使用全模式，获取文本中所有可能的组词方式。

cut_all = False：使用精确模式，也即默认模式。

Cut函数返回可迭代序列，可以使用for循环进行遍历，lcut则直接返回分词后的词语列表。

jieba的安装及导入：

Jieba的安装非常方便，可以直接使用python中的pip命令进行安装，保证电脑联网的情况下，在windows运行窗口输入pip install jieba，即可进行安装，成功安装后的提示如图1。

若遇此种方法安装不成功，也可以单独下载jieba的安装包，并使用cd命令切换到该安装包所在目录下，执行python setup.py install命令进行安装。

Jieba成功安装后，可以使用import jieba来在程序中导入模块。

三、使用jieba模块实现对文章的分词及词频统计