论打印类匿名信所用汉字输入法的判定
2015-04-09欧阳国亮
□欧阳国亮, 何 琳
(1.中国刑警学院 文件检验技术系,辽宁 沈阳 110035; 2.湖南省郴州市永兴县公安局,湖南 郴州 423300)
论打印类匿名信所用汉字输入法的判定
□欧阳国亮1, 何琳2
(1.中国刑警学院 文件检验技术系,辽宁 沈阳 110035; 2.湖南省郴州市永兴县公安局,湖南 郴州 423300)
摘要:探索不同输入法产生的言语错误类型,把握其规律,为打印类匿名信所用输入法的判定提供依据。方法:对拼音输入法、五笔输入法、手写输入法的言语错误类型进行比较分析和分类统计。结果与结论:不同输入法的言语错误类型不尽相同,根据文字材料中错别字词的类型与特征,可以推断打字者所用的汉字输入法,这对某些案件的侦查具有缩小范围的作用。
关键词:文件检验;匿名信;输入法;特点
打印形成的匿名信给检验鉴定工作带来了诸多麻烦,一是这类信没有手写字迹,造成排查嫌疑人困难;二是国内打印机具、打印材料及文字字库都比较单一,造成确定打印来源困难,这都给案件的办理增加了难度。但从另一个角度看,凡是打印的文件,就不得不涉及汉字输入法。我国的汉字输入法相比其他国家而言种类要多,大致可以分为三大类:五笔类、拼音类、手写类。不同的人,对这三类输入法的掌握及使用情况有所不同,匿名信制作者也不例外。这就为我们推断匿名信制作者使用的输入法提供了可能。
一、判定汉字输入法的侦查学价值
对于某些打印类匿名信案件,如果能判定出该信制作者所用的汉字输入法,那么对整个案件的侦查来说有其特殊的价值。这种价值主要表现在两方面:
(一)可以推断匿名信制作者的汉字录入习惯,从而缩小侦查范围
个人使用汉字输入法具有很强的稳定性,也就是说某个人习惯使用一种输入法之后,在很长的一段时间内都会选择这种输入法,从而形成既定的习惯。[1]对于某些具体案件而言,在嫌疑对象较多的情况下,如果能够根据信文中的言语特征判定出匿名信作者的汉字录入习惯,那么就可以起到缩小侦查范围的作用。如东北某县一散布虚假恐怖信息案,犯罪嫌疑人制作了多封匿名信邮寄往学校、政府机关,造成不良影响。警方经过对信纸、信封、信文打印痕迹进行分析,初步判定该系列匿名信出自该县教育局人事股。但人事股有七、八个人,难以确定具体是何人作案,于是将匿名信送检至我部门。在检验过程中,我们发现信文有几处错别字比较扎眼:“响应号召”打成了“响应号如”,“联合签名”打成了“联合答名”。这应该是五笔输入法输错字根所致,因为“召”和“如”的字根分别是“VKF”“VKG”,“签”和“答”的五笔字根分别是“TWGI”“TWG”,它们的字根都非常接近,据此判定匿名信制作者使用的是五笔字型输入法。经警方进一步调查,平时人事股只有曲某一人有五笔打字习惯。事后,曲某对匿名信事件供认不讳,交代了作案的动机和过程。
(二)有助于推断匿名信制作者的年龄及文化水平,为案件侦查提供线索
有些汉字输入法跟文化水平以及年龄有较大的关系,如文化水平中上者一般对拼音输入法较为熟悉,而年龄较大或者文化水平较低的人,一般习惯使用手写输入法。前几年,山西一铁路公安部门联系到笔者,表示他们一部门领导连续两年收到匿名恐吓信,给其身心带来很大影响。尽管多次进行了排查,但由于恐吓信系打印形成,没有发现特殊线索。于是希望我们能对匿名信做进一步分析,协助调查。我们对检材进行分析后发现,信文中出现了较多的错别字,量化统计后发现这些错别字多为笔画多的复杂字形,如“道德败坏”写成“道徝败坏”,“世事繁杂”写成“世事擎杂”等。我们对这些字进行了反复的录入实验,实验结果表明无论是拼音还是五笔均不可能出现上述错别字,只有手写输入法会造成这种识别错误(下文将论述)。据此我们推断匿名信制作者使用了手写输入法,同时结合信文内容多涉及内部事情以及多处言语表达错误等情况,进一步推断匿名信作者应该是一名文化水平不高的老年人。建议以此为线索,重点排查内部文化水平不高但已退休的人员。不久嫌疑人聂某浮出水面,该嫌疑人年龄65岁,两年前退休,因对退休后的待遇问题不满,于是想出了恐吓领导的办法以发泄情绪。
综上所述,判定打印类匿名信所用的汉字输入法,可以用来推断匿名信制作者的文字录入习惯以及年龄甚至文化水平,进而为案件的侦查侦破工作起到缩小侦查范围、提供侦查线索的作用。
二、各种汉字输入法的判定
为什么根据言语特征就能够推断作者所用的汉字输入法呢,原理又是怎样的?这是因为今天的电脑普遍使用拼音输入法、五笔字型输入法、手写输入法等。匿名信制作者在运用这些输入法输入汉字的过程中,难免会造成一些言语错误,如错别字、错误词语、标点等。输入法不同,造成的言语错误类型也会有所不同,比如五笔输入法造成形近别字,拼音输入法容易造成音近别字等。这些言语错误,可作为判定匿名信作者使用何种输入法的基本根据。
(一)五笔字型输入法的判定
五笔字型输入法是一种非常高效的汉字输入法,它将文字拆分为不同的字根,因此重码率低,使用者较多。运用五笔字形输入法录入汉字容易产生的错别字有三类:
一是形近别字。如“进入”打成“进人”,“休息”打成“体息”,“窍门”打成“窃门”等。这些字都是由于形体过于相近,录入者一时不注意输入识别码或者选错词条造成的。
二是偏旁部首相同的别字。如“信息”打成“停息”,“团结”打成“图结”,“营运”打成“管运”等。这类错别字的形体差别较大,但因偏旁部首相同,而且结构相近,运用五笔输入法录入时容易输错字根从而造成错别字。
三是字根部件相似的别字。如“学生”打成“沉重”,这是因为“学”与“沉”都有三点和“冖”的字根部件,只是位置不同。此外,“生”与“重”在字根部件上也有很大的相似性。运用五笔输入法录入“学生”“沉重”这两个词语时输入的字根都是“IPTG”,稍不注意就会造成错词。
判定匿名信作者使用的输入法是否为五笔输入法,主要看信文中的错别字(或打错的词语)是否属于上述三类。尤其是第三类,价值非常高。此外,五笔输入法打错的字或词,很容易导致整个句子不通顺,如“这件事我不想让它变得热搞(闹)”“一把手大变样,沉(学)习作风大变样”“如(召)集上访群众”。因此,在检验分析匿名信时,凡是碰到这种情况,首先应该考虑该字是否由五笔输入法录入,同时要注意结合五笔字根的特点予以辨别,不能当成普通的错别字来看待。必要的时候,应该在电脑上用五笔输入法自己试验几次,检验一下错别字是不是因为它与本字在字根上趋同造成的。
(二)拼音输入法的判定
拼音输入法是普及面最广、种类最全的一种输入法。使用拼音输入法打字,容易产生的言语错误主要有两类:第一类是单个的同音别字或音近别字,如“不许报景(警),否则撕票”“感(赶)紧去办”“只做弟(第)一次”;第二类是音同或音近的词语,如“在这样的北京(背景)下”“一把火把凉裤(粮库)烧了”“这件事情不是敬茶(警察)能管得了的”,拼音输入法中的整词输入功能很容易产生这类错词现象。
从判定拼音输入法的价值看,上述言语错误中的第二类的使用价值相对更高。通常而言,信文中只要出现了一个音同或音近的词语,基本上就可以判定该信文系拼音输入法录入而成。因为其他输入法(如五笔、手写、郑码)一般是不会产生音同或音近词语的。
需要注意的是,拼音输入法也是使用人口最多的一种汉字输入法。我们曾经对37封打印匿名信的文字错误类型做过统计分析,[2]在265个错别字中,多数错别字是由同音输入造成。统计情况如下表:
从上表可以看出,音近别字是形近别字的7倍。这实际上反映出制作打印类匿名信的人多采用拼音输入法。这种情况与当前社会上普遍使用拼音输入法的现状完全相符。从言语识别的角度看,如果确定了匿名信的制作者使用的是拼音输入法,这客观上也反映出言语人接受过汉语拼音教育,因此对推断言语人的文化水平甚至年龄都有参考作用。
(三)手写输入法的判定
手写输入法是近年来产生的一种文字输入法,广泛应用于计算机和手机等设备。有些打印类匿名信制作者由于不懂五笔和拼音(从使用手写输入法的社会群体看,主要是年纪较大的及文化水平较低的群体),因此在制作匿名信时常常选择手写输入法打字,手写的工具主要是鼠标或手写笔。
手写输入法需要电脑进行图形识别,然后形成文字。[3]由于手写体与印刷体存在较大的差异,这无形中提高了电脑识别的错误率,因此运用手写输入法录入而成的文档容易出现形近别字,如“看-着”“快-块”“徘-排”。我们统计发现,字形越复杂,手写输入法识别的错误率就越高,比如“萧-潇”“鼓-豉”“襄-囊”“纂-篆”。除文字外,手写输入法打成的文档常常出现标点符号使用错误,例如将“,”“、”识别成一类符号从而造成混用、误用。甚至将标点符号识别成英文字母或数字,如将句号“。”识别成“O”,将感叹号“!”识别成“l”“1”“L”等。这些言语特征可作为判定言语人使用的输入法是否为手写输入法的基本依据。
三、判定汉字输入法需要注音的问题
(一)注重言语特征的数量
有些打印形成的匿名信,信文中可能只有一个形近别字或一个同音字,这是孤证现象,不足以判定匿名信作者使用的就是五笔输入法或拼音输入法。因为单个错别字的出现具有很大的偶然性,尽管不排除单个错别字具有判定输入法的价值,但分析时应该看文中的形近别字或同音字数量是否较多,错别字出现的频率是否较高。原则上来说,应该在两个以上方能作为判断的依据,而且不能是重复的错别字。总之,只有注重特征的数量,才能保证推断结果的质量。
(二)注意甄别形近别字
如前所述,使用五笔字型输入法或手写输入法打字都可能产生形近别字。实际上拼音输入法打字偶尔也会出现形近别字,这是因为许多字不但字音相近而且形体也相近,如“请”“晴”“情”“青”。但拼音输入法产生的形近别字与五笔字型输入法、手写输入法产生的形近别字是有差别的:五笔字型输入法产生的形近别字一般语音上没联系,只是形体上相似,如“体”“休”、“营”“管”、“秦”“奏”;手写输入法产生的形近别字多是笔画多且结构复杂的字(电脑识别复杂笔画和结构常常出现误差);而拼音输入法产生的形近别字不但形体相似而且语音也相似。因此要注意结合输入法的基本特性甄别形近别字,不能一刀切。
(三)注意区别对待方音别字
匿名信中的有些错别字实际上属于方音别字,这与输入法不一定存在联系。比如我们曾经检验过的一封发生在东北地区的匿名信,其中有这样几句话“找领导办事不好死”、“不只道还会不会烧”。句中的“不好死”应该是“不好使”,“不只道”应该是“不知道”,这与东北官话语音特征相符。许多匿名信都会出现这类方音别字,这是受言语人文化水平、方言背景等因素综合制约的结果。一般而言,根据前后文语义关系就能判断某个字是否属于方音现象。因此,在判定言语人使用何种输入法时,不宜将这类方音别字纳入考察的范畴。
(四)注意结合言语识别方法进行综合识别
对打印类匿名信进行检验,我们认为一个必不可少的内容就是从言语识别的角度对言语人进行人身分析,其具体内容包括分析言语人的性别、年龄、文化水平、职业、地区籍贯等,这也是检验匿名信的一般思路。[4]在根据语言文字特征推断匿名信制作者使用的输入法时,要注意同言语识别方法相结合,相互印证。例如低文化水平的人多使用手写输入法,反过来说,使用手写输入法的人多为文化水平相对较低的群体。如是,“文化水平低”与“使用手写输入法”可以起到相互印证结果的作用。
四、讨论
本文所探讨的判定匿名信汉字输入法的方法和依据,对判定某些涉案的QQ讯息和网络帖子也有参考作用,因为它们在很多情况下都需通过电脑录入,都会使用到汉字输入法。当然,也有一些涉案的QQ信息、短信、微信不一定是用电脑编辑文字,比如还可通过手机、平板等设备输入,但在判定的方法和依据上仍有很大的相通性。因为不论是手机还是平板电脑,都有拼音输入法、笔画输入法、手写输入法,在使用这些输入法编辑文字时,难免会产生错别字,这些错别字不外乎音近别字、形近别字两大类。因此,同样可以借鉴本文提到的方法和依据来辨别言语人采用的是何种输入法,从而为排查、锁定嫌疑对象提供线索。
【参考文献】
[1]李宁.汉字输入法对汉字输入技能水平的影响[J].心理研究,2010(5).
[2]欧阳国亮.论统计法在案件书面言语风格鉴定中的运用[J].政法学刊,2012(6).
[3]邓俊.基于计算机视觉的手写输入法研究[D].镇江:江苏科技大学,2010.
[4]岳俊发.言语识别与鉴定[M].北京:中国人民公安大学出版社,2007.
(责任编辑:王战军)
2015年7月第23卷 第3期 山西警官高等专科学校学报JournalofShanxiPoliceAcademy Jul.,2015 Vol.23 No.3
中图分类号:D918.92
文献标识码:A
文章编号:1671-685X(2015)03-0074-03
收稿日期:2015-04-07
作者简介:李永哲(1990-),男,山东淄博人,中国人民公安大学2013级硕士研究生,研究方向为侦查学。
Judgment of Chinese Character Input Method Used in Printed Anonymous Letter
OU YANG Guo-liang1, HE Lin2,
(1.DepartmentofDocumentInspectionTechnique,ChinaCriminalPoliceUniversity,Shenyang110035,China;
2.YongxingCountyPublicSecurityBureauChenzhouHunan,Chenzhou423300,China)
Abstract:The exploration on verbal mistake types resulted from different input method and the following of rule provide foundation for judging the input method used in printed anonymous letter Verbal mistake types caused by spelling input method, five-stroke input method and hand-writing input method were analyzed and had been made classification statistics. The verbal mistake types caused by different input method are different. The Chinese character input method used by typist could be judged according to the type and features of wrong characters, which could help to narrow investigation scope.
Key words:document inspection; anonymous letter; input method; feature
【刑事侦查与技术】