APP下载

文字输入处理软件综述

2013-03-23樊汉超

电子科技 2013年4期
关键词:中文信息分词拼音

樊汉超

(西安外事学院工学院,陕西西安 710077)

20世纪80年代钱伟长教授自行研制和设计的“钱码”问世。在推出自己“钱码”的同时,他认为当下的输入方式尚不理想。与此同时,国内第一个智能拼音软件程序由林才松和周有光研制成功。经过多年的实践证明,要从汉字编码角度得到一个易学、易懂、好用的理想输入方式较为困难[1-5]。

近年来,计算机软、硬件的发展速度成几何级数增长,计算机信息资源不断扩充,使得智能化的汉字输入软件更为方便。众多智能输入软件被研发的共同目的都是识别和选定输入的重码字符、单词和词组,从而缩短平均码长,推进编码简单化和规范化进程[6]。

1 以理解为基础

这一类软件可称为是出现最早且理想化的智能输入软件。该类输入软件的工作原理主要是以理解为基础,利用汉语语法来合并同音字和词以及消解歧义分词,根据自动搜索到的分词得到同音词及候选词,通过查找知识库得出相关的规则,随后经过进一步的推理得出转换结果。通过实时修正编辑错误和批量学习使得系统能够不断完善和改进,此过程也可称作是自学习过程。这类软件通常表现为计算机能够识别和处理的一系列固定搭配、公式和可供自定义的规则,且又是一种人工智能语言,可作为自然语言的分支来理解[7]。

代表作品:拼音语句输入系统In Sun(王晓龙等研制,哈尔滨工业大学);智能ABC(朱守涛研制,北京大学)

性能特点:(1)由于该类程序是自行研发编写的语法体系,包含了最基本、歧义最少的汉语语法重点。所以,该系统的输入正确率较其他系统更高且更稳定。(2)软件拥有可调节的开放式知识库,因此即使是小型系统的主机仍可正常运行。

存在的问题:这一程序也有其自身缺点,例如:在逐个字连续输入整句时,由于整句字符过长,平均码长较长,采用简化拼音键入正确率较高,在整句处理中占有优势,一旦出现转换上的错误,则需要逐一纠正,通常会打乱操作者的正常思路。现阶段,在建立系统的知识数据库时,汉语语言的表达和识别就会显得较为困难;自动搜索分词的过程因存在歧义分词的缘故,对词语识别的精确度也受影响;语句所用语法不够规范,使得筛选率较低,使程序的运行受到限制。但由于该类程序并未达到预期效果。因此,开发者只能寻找其他更加实用、更容易被接受的算法。

2 以语言统计为基础

该软件是基于理解和语言统计相结合的设计。输入软件的工作原理主要是以语言统计为基础,利用语言统计的数据来合并同音字和词以及消解歧义分词,通过统计字与字的同现概率矩阵来实现汉语语言统计库的结构,这里的矩阵大小是固定的,只是和字符集的大小有关,根据输入语句查找数据库,以词法、语义、句法和自定义的规则来制约文章从而进行解析推理,如果存在同音词,则采取最优评价法来确定最佳结果,如果当具有最优评价意义的第一选择并非标准选择时,便可选择次优选择或手动方式进行修正,以便下次转换时修改计算机评价值,这也是一种自学习过程。这类软件属于运筹学范畴[8]。

代表作品:最优评价函数法拼音汉字转换系统(蔡榕设计);Auto Way(蒋子刚设计);智能输入软件(夏莹等研制,清华大学人工智能实验室)。

性能特点:(1)与已经进行语言统计或属于同等类型的领域系统相比,该系统进行程序转换的正确率更高,也就是语言统计具有一定的偏向性。用户在使用过程中,该语言统计数据库就会从传统的通用录入型向符合用户端需求的语言习惯专业型转变。(2)该软件所占用的运行空间较小,在CPU仅为486的电脑上依然可正常使用,运行无压力。

存在的问题:其作为整体的同现概率矩阵,不能独立运行、自行分割,而是更偏向于整体化的处理,如果一旦出现转换错误,便能键入返回逐一纠正,通常会打乱正常思路。(3)该系统软件的键选正确率会受到限制。因此对于目前阶段,自动、自主进行分词的精确度智能可达到约98%。

3 以模板匹配为基础

该系统是通过模板搜索引擎来完成汉语语法体系的组织系统。这类系统软件的基本工作原理是以模板匹配为基础,将汉语语法知识寄予在大量的短语串中,进而利用这些短语串来合并同音字和词以及消解歧义分词。其需要搜索大量的语句来获取短语串,才能大体上包含汉语语法知识,根据输入语句查找模板词库和句法规则库,然后进行匹配处理,如果匹配结果单一,则不需要概率推理;如果存在两个以上的候选结果,那么就根据句法规则或概率推理作进一步的决定,选出最终结果[9]。

代表作品:智能狂拼(中文之星数码科技有限公司);黑马智能输入软件(黑马新技术公司);自然码2000(大自然软件开发有限责任公司)。

性能特点:与已经检索过的模板词汇或属于同等领域的系统相比,该软件的输入程序转换正确率更高。用户在使用过程中,语言统计数据库会从传统通用录入型向符合用户端需求的语言习惯专业型转变。

存在的问题:(1)模板词汇数量众多,需要较大的存储空间,这对电脑的硬件设施有较高要求,CPU为486及以下型号的计算机则无法使用。(2)使用拼音输入和模板进行匹配的输入软件,通常仅支持26键的汉语拼音输入法,也偏向于整句、整段文字的处理,一旦出现转换错误,会打乱正常思路。目前阶段,自动、自主分词的精确度智能达到约98%,键选的准确率受到一定的限制。

4 以上下文关联为基础

该类输入软件的基本工作原理是以上下文关联为基础,通过采用语言统计来实现上下文关联的智能输入,基于模糊控制,利用上下文的语言环境来智能地选择获取重码字。该输入软件的调节机制涉及到许多矛盾和相互牵制的受控参数,可以较为精确地表现出各种语言的现象差异,获得较好的效果。

代表作品:青月亮汉字通智能输入软件平台GM 3.1(青月亮科技开发有限公司);一笔智能输入软件(一笔软件有限公司);101智能输入软件TZ8.2/9.1/2000(字原科技有限公司)。

性能特点:和已经学习过的或具有相同类型的语言材料的系统程序相比,该程序键选率相对较低。以青月亮汉字通这款通用智能处理软件为例,其是一种结合了音码、形码和笔画码的智能处理软件,不仅支持26键位的汉语拼音输入法,也支持10键位、8键位甚至是5键位的输入法,同时,还支持超大字符集,加强了所输入文件的上下文关联度,实用性较强,易于表达理解。

存在的问题:(1)字段输入仍未从根本解决软件程序的整句型偏向,仍然侧重于整段文字的处理。(2)对于新开发运用的上下文关联技术,需要用户进一步的熟悉运用,否则,用户极有可能因不熟悉运用步骤而放弃使用。所以,类似于青月亮汉字通这类的通用智能处理软件也支持使用关闭上下文关联的智能输入法,其保留了原来逐字逐段的输入方式。

5 结束语

推动以文字为基础,以词语为主线的智能处理理念,是汉字语言输入技术的发展趋势。汉语输入已经发展到拥有近十种汉字输入智能化处理方案。有些程序依靠概率统计的方式方法,有些则是依靠自动化控制技术。其中,运行效果较为理想的青月亮文字处理软件采用了模糊控制的方法,运用语法规则和动态语进行统计,并综合计算机智能化技术将是汉语文字处理软件的发展方向。

[1]俞士汶.中文输入中语法分析技术的应用[J].中文信息学报,1988(3):59-61.

[2]王晓龙.语句级汉字输入技术[J].中文信息学报,1996(12):32-35.

[3]章森.语句拼音汉字转换的智能处理机制分析[J].中文信息学报,1998(2):87-89.

[4]蔡榕.最优拼音汉字一次输入变换法及拼音汉字转换系统的实现[C].上海:第三届中文信息处理国际会议论文集,1992.

[5]夏莹.利用上下文相关信急的汉字文本识别[J].中文信息学报,1996(2):81-82

[6]郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993(1):47-49.

[7]仲兴国.多词组一次性拼音汉字变换[J].中文信息学报,1990(6):61-63.

[8]张普.智能化汉字键盘输入法的最重要发展方向[M].北京:中国标准出版社,1997.

[9]陈一凡.汉字编码输入技术的发展趋势[J].计算机世界,1987,11(8):5 -9.

[10]黄昌宁.中文信息处理的主流技术是什么[J].计算机世界,2002(24):94-96.

[11]杨小辉.文字软件处理实论[J].电子世界,2012(4):84-87.

猜你喜欢

中文信息分词拼音
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
中国中文信息学会2019年活动计划2019年活动计划表
中国中文信息学会2018年学术活动计划
快乐拼音
快乐拼音
论英语不定式和-ing分词的语义传承
书 讯
COLING 2010即将在北京召开