浅谈中文信息处理的主流技术

2012-04-29陈波涛

读写算·素质教育论坛 2012年29期

关键词：语音识别信息处理

陈波涛

摘要文章分析了中文信息处理的主流技术，尤其是几个重要的部分，即N元模型、语音识别和句法分析技术。

关键词信息处理；N元模型；语音识别；句法分析

一、中文信息处理的特点

1.汉字的特殊性

我们都知道，英语在计算机信息处理方面的优势就是其字母数量有限，因而可以很容易的进行输入输出以及信息的加工和处理，而中文的汉字则数量庞大，且字形相对复杂，这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码，总结来说有以下几种方案，即汉字输入编码,汉字标准编码,汉字内码和汉字形码。

2.书面汉语的特殊性

汉语的另一个特征是在书面表达中，词语和记号之间没有明显的分隔标记，这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合，比较英文我们会发现，英文单词之间都是用空格来做分隔符，而中文则是习惯通过字、整句以及段落进行简单的划分，而这其中的一个难点就是对词语的划分，我们都知道，英语中也有短语划分的问题，但是由于中文的词语远比英语的数量和范围要庞大，因而处理起来更为困难。

3.汉语语音的特殊性

在语音方面，汉语的特征是音节结构相对简单，音节划分界限比较清晰，但是声调和变调是中文与英文的显著区别，因而在语音识别和语音合成方面来讲这是一个劣势，但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。

4.汉语语法的特殊性

在语法方面，汉语词汇的句法功能相对来说难以判断，这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义，因此如果不能很好的掌握句法，就特别容易产生歧义，因此汉语语句自动分析这一重要技术是一项难以攻克的技术。

二、中文信息处理的若干技术

1.N元模型

设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2。。。wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。 P(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri- gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)转贴于中国论文下载中

符号∏i i=3,…,n P(…)表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。

2.语音识别

语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流，使机器听懂人类的语言，并及时的做出准确的反馈。语音识别技术包括了信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取，在这个问题上我们通常采用的是以音节为识别单元。另外，在特征参数的提取技术方面，由于语音符号中含有大量的信息，它们通常被称为声学特征。特征参数是决定语音识别质量的关键技术，因此我们应该极可能的采集所要传播语言的语义信息，剔除掉说话人的个人信息干扰，这样才能保证特征参数的有效性和准确性。

3.句法分析

句法分析是以汉语的语法特征为分析方法，对句子、段落中的短语结构树进行各个句子成分关系的分析，分析的主要内容包括：句子中所有的单句，每个单句在句法中的作用是什么，在单句以上更大的语法结构是什么，句子中的短语或词组类型是什么，在句子中起了什么作用，最后，所有这些成分是如何有机组合或附着在整个句子中的，这些就是句法结构分析的主要内容，这叫做线图分析法。值得说明的是，英语语言结构中主语必须置于谓语之前，否则所表达的意思就完全变化了，当然，在一些特定情况下，如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。

三、结语

中文信息处理技术有着重要的意义，它是语言学与信息技术的有机融合，旨在对中文的音、形、义等输入计算机，进而进行必要的信息加工与处理，在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说，语言信息处理是将自然语言的各个部分，包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工，然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。我们都知道，自然语言是我们日常最重要的交流沟通工具，是人类进行思维活动、文化传播的有效载体，因此语言信息处理这种技术有着重要的意义，本文专门分析了利用计算机处理中文信息，即汉语信息处理技术，希望本文能够对同行们有所启示，还望能够多多交流学习，更好的完善这项技术。

参考文献：

[1]曹邦伟,高传善.计算机与信息处理[M].上海:复旦大学出版社,2001.

[2]陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002,(1).