APP下载

文字软件处理实论

2012-08-15西安外事学院工学院杨小辉

电子世界 2012年7期
关键词:键位输入法分词

西安外事学院工学院 杨小辉

一、前言

还在八十年代输入软件智能化先行者林才松先生设计了第一个智能拼音软件尽管林氏的创举得到语委的支持和周有光教授的帮助,但PC/XT和CCDOS却表示“爱莫能助”,林先生只得无功而返。

十年过去了,计算机软、硬件的发展速度以几何级数的形态增长。计算机系统资源的丰富为人们开发出实用的、算法各异的汉字输入智能软件创造了条件。各种类型输入软件智能化的共同目标是山软件来识别和选定上屏的重码字、词与缩短平均码长,促使编码简中北和规范化。

二、基于模板匹配的智能输入软件

1.原理

寓汉语语法知识于巨量的短语串中,进而利用这些短语串来消化同音字、词,以及化解歧义分词。这种短语串通常称之为“模板词”。

这种系统通过模板词搜索引擎来完成汉语语法体系的组织。需要搜索巨量的语料,获取巨量的短语串,才有可能大体上包容汉语语法知识,例如:智能狂拼搜索了100亿字语料,模板词库最大时需要约540MB存储空间。根据分词后的输入语句查找模板词库和句法规则库,然后进行匹配处理。如果匹配结果唯一,则不必再用概率推理;若存在两个以上的候选结果时,则根据句法规则或概率推断进一步判定,选出一个最有希望的可能结果作为输出。

2.典型作品

中文之星数码科技有限公司推出的智能狂拼;

黑马新技术公司推出的黑马智能输入软件;大自然软件开发有限责任公司推出的自然码2000(句输入版)。

3.优点从与存在的问题

优点:对于几己经搜索过模板词的或者具有相同类型的领域,系统的转换正确率比较高,或者说模板词库具有偏向性。对每一个用户而言,在使用过程中,模板词库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型。

存在的问题:(1)模板词数量巨大,对电脑硬件有一定的要求,486及以卜的低档机难以使用。(2)对拼音输入的模板匹配智能输入软件而言,通常只支持汉语拼音的26键位输入,注重连续和完整的音节输入,平均码长较长,采用简化拼音输入时键选率较高。(3)偏重整句处理,当出现匹配错误时,需要使用者回头去纠正,干扰了正常的思维。自动分词的准确度只能达到98%使键选率的降低受到限制。

三、基于上下文关联的智能输入软件

1.原理

文献[5]采用语用统计来实现上下字关联智能输入。下面介绍的是一种基于模糊控制理,利用上下文关联(向上关联4个词语,向下关联1个词语)的语用环境来智能选择重码字。在学科分类中属自动控制分支非线性控制范畴。将自然语言看成是一个模糊的集合,将汉字输入系统作为一个非线性控制范畴的模糊控制系统来对待,预学习工具(或者转换出现错误时的手工键选信号),相当于一个传感器,算法程序、汉语知识库和动态语用统计库作为非线性调节器,使得系统的键选率和平均码长逐渐趋于最优。例如,青月亮汉字通上文关联4个词,下文关联1个词,合计上下文关联5个词,这一调节机制涉及到许多相互矛盾和相互牵制的受控参数,模糊集合的特征函数从[0,1]区间连续取值,可以较为准确地表现各种语言现象差异,获得比较好的效果。

2.典型作品

青月亮科技开发有限公司推出的青月亮汉字通智能输入软件平台GM 3.1;

一笔软件有限公司推出的一笔智能输入软件(26键位和10键位);

字原科技有限公司推出的101智能输入软件TZ8.2/9.1/2000 0

3.优点从与存在的问题

优点:(1)对学习过或者具有相同类型的语料,键选率比较低,或者说汉语知识库具有偏向性。对每一个用户而言,在使用过程中,汉语知识库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型。(2)青月亮汉字通作为一种音码、形码和笔画码二位一体的通用智能处理平台,支持26键位、10键位、8键位和5键位规模的键兀集,支持GB18030的27533超大字符集,为各种输入法增加上卜文关联智能输入的后处理支持,让这些输入法变得更易学、更好用。(3)采用字段输入,不使用语句级输入,使语法规则简约化,易于知识表达。此举不但降低了键选率,还大大缓解了输入过程中“回头看”的问题,基木上贴近了人们的使用习惯。(4)程序开销积木化,在CPU为486的机器上就能运行。遵从一系列信急处理用的国家标准和规范,特别是与汉字输入密切相关的两个标准《GB/T 18031-2000信急技术数字键盘汉字输入通用要求》和《GB(待定)信息技术通用键盘汉字输入通用要求》。(5)旅拼音输入时,采用人工分词,在形式上与英文接轨,既可以避免3%的歧义分词错误,也可以兼容简拼输入,大幅度降低键选率和平均码长。青月亮汉字通在保证支持完整拼音输入的同时,尤其提倡使用简拼输入(一个音节要么只取音节的首字母,要么就取完整音节)。

存在的问题:(1)字段输入还未能完全根治输入过程中“回头看”的问题,每当终选字词有错时,仍然需要近距离的即时修改。(2)对“上下文关联”机制的人机界而,用户需要一个熟悉的过程。因此,青月亮汉字通也允许使用者关闭“上下文关联”智能输入,仅保留“上文关联”机制和恢复逐字、逐词上屏的输入方式。

四、实例举证

GBK字集以外生僻字的输入:使用Windows自带的“造字程序”。该程序操作简单,使用方便,既可以用两个字重新拆分组合成一个新字;也可以选一个相近的字加以修改而造一个新字;还可以直接在编辑框中画出您所需要的字,比较便利的是前两种方法,其步骤如下。

取两个字中有用的部分,重新组合成一个新字。以“腘”字为例(为便于排版,没有选用GBK以外的字作为例字,下同),单击“开始”按钮,选“程序”、“附件”、“造字程序”,出现“造字程序”窗口。在弹出的“选定代码”窗口中确定所造的字的代码位置,比如AAA1后按“确定”按钮(如没有出现,则选“编辑”中的“选定代码”命令),此时在“造字”窗中出现“编辑”工作区。再选“编辑”菜单中的“调用”命令(在Windows2000、XP中则为“复制字符”命令),单击“字体”按钮,选择字体后,在“形状”框中输入参考字“腊”,按“确定”按钮。在“编辑”框中出现“腊”字。再选“窗口”中的“引用”命令(在Windows2000、XP中则为“参照”命令),一样选定字体,输入参考字“掴”,在“造字”窗中出现带有“掴”字的引用框。用“造字”窗左边的圈选工具圈选“编辑”框中的“昔”,按Del键。圈选“引用(参照)”框中的“国”,将它拖到编辑框中合适的位置,然后关闭“引用”框。再选“编辑”菜单中的“保存字符”命令,在对话框中按“确定”按钮。此时该字已经建立,如文章中需要用到“腘”字只要将输入法切换至区位输入法,键入AAA1,即可出现“腘”字。

[1]夏莹等.利用上下文相关信急的汉字文本识别[J].中文信息学报,1996(2).

[2]郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993(1).

[3]仲兴国.多词组一次性拼音汉字变换[J].中文信息学报,1990(6).

[4]张普.智能化汉字键盘输入法的最重要发展方向[M].中国标准出版社,1997(2).

[5]陈一凡.汉字编码输入技术的发展趋势[J].计算机世界,1987,11(8).

[6]黄昌宁.中文信息处理的主流技术是什么?[J].计算机世界报,2002(24).

猜你喜欢

键位输入法分词
要命的输入法
分词在英语教学中的妙用
如何快速提高生产力软件的效率?
非触勿动 秒治键盘误触
结巴分词在词云中的应用
结巴分词在词云中的应用
找回微软拼音输入法设置
输入法顺序听我使唤
百度被诉侵犯商标权和不正当竞争
浅谈提高小学中年级学生中文录入速度的策略和研究