中文分词算法在搜索引擎应用中的研究
2019-04-04王洪浩
王洪浩
【摘 要】在对汉字信息进行处理的过程中,汉字词汇本身的构成具备一定的特殊性,无法实现像英文一样根据空格来分隔单词。因此,对于一整段汉字进行切分形成独立词语是中文信息处理上难点所在。论文主要对中文分词算法以及相应的中文分词技术进行分析和研究,帮助更多人了解到中文分词算法在搜索引擎中的应用。
【Abstract】In the process of processing Chinese characters' information, the formation of Chinese character vocabulary itself has certain particularity, so it is difficult to separate words according to spaces as in English. Therefore, the fragmentation of a whole Chinese character into independent words is the difficulty of Chinese information processing. The paper mainly analyzes and studies the Chinese word segmentation algorithm and the corresponding Chinese word segmentation technology, so as to help more people understand the application of Chinese word segmentation algorithm in search engine.
【关键词】中文分词算法;搜索引擎;中文分词技术
【Keywords】Chinese word segmentation algorithm; search engine; Chinese word segmentation technology
【中图分类号】U44 【文献标志码】A 【文章编号】1673-1069(2019)01-0103-02
1 引言
中文分词作为机器翻译、文本分类、主题词提取、信息检索的基础环解锁,在近些年来技术的发展以及中文相关算法中也逐渐受到人们的重视。在搜索引擎技术的逐渐应用推广过程中通过将搜索引擎和中文信息处理相应技术结合在一起,从而进一步推动全文搜索和中文分词技术的研究,有越来越多优秀的中文分词算法出现,并应用到搜索引擎中,更好地实现关键字准确搜索[1]。
2 中文分词技术
在对中文分词技术进行分析过程中,目前可以从应用上将其分为基于字符串匹配的分词技术、基于统计的分词技术、基于人工智能的分词技术三大类。
2.1 基于字符串的匹配技术
分词技术中有基于字符串的匹配分词技术,此类技术又可以称为机械分词计算法或基于词库的分词算法,通过预测一个充分大的机器词和等待切分的汉字串进行匹配。通过不同的扫描方向将其分为逆向、正向、双向匹配三种[2]。同时,也可以通过不同的长度优先匹配可以分为最大匹配和最小匹配。按照是否与词性标注过程相结合分为单纯分词和分词与标注相结合的一体化分词方法。在分词串点支持之下匹配分词效率非常高,算法相對较简单,但存在一定的问题就是准确性相对较差,很难排除机器机械切分所带来的歧义。其中字符串匹配主要有正向最大匹配分词算法、反向最大分子匹配分词算法、双向匹配分词算法三种不同类型。第一种正向最大匹配分词算法,该算法数据结构简单,算法简单,无需任何示范句法以及语义知识,例如,在词库中使用max表示最大词条长度,STR是等待切分的四汉字串。通过等待切分的汉字串前max这个汉字作为匹配时段与words中的对应词条进行匹配,如果其中有该词组就匹配成功,词组被分离出来,反之就去掉相应匹配字段最后一个字,将余下字符串思维与另一个匹配字段进行匹配。第二种,反向最大匹配分词算法基本原理和正向最大匹配分词算法基本相同。但是两种处理方法不同,一个从最顶端另外一个是从汉字串的尾端开始处理,相比较最大正向匹配法来说,此种方法能够更好地实现对交际型的歧义字段的处理,简单、快速切分,歧义准确率有明显提升,但无法完全排除歧义现象。第三种,双向匹配分词算法,此算法就是将以上两种算法结合起来构成双向匹配算法,能够进一步提升千分准确率,还能够有效消除部分歧义现象。但由于需要进行正向和逆向两相反方向的扫描,因此具备一定的复杂性。同时,分词词库还需要能够同时支持这两种顺序检索,总体来说算法相比以上两种要复杂的多。
2.2 基于统计的分词方法
基于统计的分词算法又称为无词库分词,认为词组作为最稳定的组合,相邻汉字在文本中同时出现次数越多,就越有可能构成一个词[3]。同时可以将自相邻贡献的频率作为词组可信度,对语料中相邻贡献字的组合频度进行统计,并对互现信息进行计算,同时通过频度方式来对词的频率进行判断,达到识别新词,但总的来说效率无法提升,十分有效,时空开销相对较大,识别精度相对较差,无法达到有效识别。其中,在对汉字间的紧密程度进行统计的模型主要有互信息、T测试两种方式。
2.3 基于人工智能的分词方法
在人工智能基础之上所采取的分词方法,此算法就是在分词的同时通过句法、语义,对于其中所经常出现的歧义切分现象可以通过句法信息、语义信息两方面来解决。在当前的人工智能研究领域中两个研究热点所在就是专家系统和神经网络系统,通过这两者能够更好地保证分词的智能性,是未来一段时间内分词研究的主要趋势和热点所在[4]。但此种方法实现的基础是大量的语言知识和信息,在拥有大量信息的同时也以拥有了知识本身所带来的复杂性和灵活性,很难能够直接读取各种语言知识和信息组织,此种方法至今为止还停留在试验阶段,没有正式投入使用,这也和人工智能技术不够成熟、技术成本相对较高等因素相关。
3 面向搜索引擎的中文分词关键技术
在搜索引擎处理用户查询需求以及处理文档的过程中中文分词是其中的基础所在,对于整个搜索引擎信息检索准确度产生影响的两大关键因素主要是未登录词识别、歧义消解,两大问题将会严重影响搜索引擎准确性和顺利性,在网络环境中搜索引擎中推广和应用中文分词方法必须要解决未登录词识别、歧义消解两大问题。但我国对未登录词问题研究的时间相对较短,认识上还存在不稳定性,还无法寻找有效方法解决此问题,还有非常长一段路要走。而对于歧义切分问题来说,现阶段的研究主要集中在交集型歧义字段的研究上。
4 结语
本文通过搜索引擎中常见中文分词算法进行分析,并对面向搜索引擎中文分词关键技术中两大问题进行分析,寻找更为有效方法来提升分词准确性。
【参考文献】
【1】申兵一, 巩青歌. 中文分词技术在搜索引擎中的应用研究[J]. 计算机与网络, 2010, 36(1):60-63.
【2】董妍汝. 中文分词技术在搜索引擎中的应用[J]. 办公自动化, 2010(4):44-45.
【3】刘红芝. 中文分词技术的研究[J]. 电脑开发与应用, 2010, 23(3):1-3.
【4】周宏宇, 张政. 中文分词技术综述[J]. 安阳师范学院学报, 2010(2):54-56.