APP下载

基于语言模型的一种音字转换高效解码算法

2016-11-19张志强张太红刁琦董峦

智能计算机与应用 2016年5期
关键词:模型

张志强 张太红 刁琦 董峦

摘要:音字转换是汉语言信息处理的一个重要方面,在语音识别、汉语拼音输入等方面都有广泛的的应用。本文首先回顾了词树的理论知识,然后对词树进行求解,最后对词树进行剪枝,随之,对产生的多音字进行处理。基于上面的理论,提出了一种基于语言模型实现音字转换的高效解码算法,这种算法涉及到零概率重估、路径剪枝和多音字处理等多项技术,实验结果表明这种算法可以达到97.78 %的准确率,与以往的算法相比,效果比较显著。

关键词:语言模型;n-gram 模型;音字转换

中文分类号:TP391.1 文献标识码A

引 言

语言模型(Language model)[1]是语音识别系统(speech recognition system)[2]的一个重要组成部分。语言模型,通常可分为基于统计的语言模型(Statistical language model)和基于规则的语言模型(Rule based language model)两大类。在现在的技术条件下,基于统计的语言模型(Statistical language model)处于主流地位,具体是通过对大量的语料进行统计[3],获得词与词之间相互连接信息,为评价一个词串是否有意义提供基础依据。

统计语言模型中,n-gram语言模型是公认的研发设计代表[4],因其结构相对简单,而且易于构建与应用。但是,在实际运用n-gram语言模型时,却会不断发现,由于训练语料稀疏而引起了一定的零概率问题[5]。而采用本文提出的算法,仿真实验结果表明对解决这一问题则呈现出优质有效的运行效果。本文即针对这一课题内容展开分析论述。

猜你喜欢

模型
自制空间站模型
构全等模型解中考题
从勾股定理到“一线三等角”模型
基于ARIMA模型与Markowitz均值-方差模型的投资组合选股
基于ARIMA模型与Markowitz均值-方差模型的投资组合选股
三角函数的坐标系模型
巧构模型妙解赛题
模型小览(二)
借模型之力 释难题之疑
导数中涉及“[ex,l n x]”的模型