APP下载

探索用户自然输入标记及其在构建分词语料库中的作用

2018-04-16张大奎尹德春汤世平樊孝忠

中文信息学报 2018年2期
关键词:分词语料高质量

张大奎,尹德春,汤世平,毛 煜,樊孝忠

(1.北京理工大学 计算机学院,北京 100081;2.中国人民公安大学 信息技术与网络安全学院,北京 100038)

0 引言

众所周知,汉语文本中词与词之间没有显式分词符号,因此分词是汉语自然语言处理工作的基础。基于监督学习的分词方法是现今被业界广泛认可的方法,这些方法需要大规模的标注语料作为训练集。当前已经公开的通用训练语料主要来自新闻领域,相关研究[1-4]表明,有监督方法在新闻类语料的测试集上表现优异,但是当测试集由新闻领域变换到微博、网络论坛、互联网文学等其他领域时,其精度就会大幅下降。鉴于上述事实,有理由认为,当分词算法的优化达到极限水平时,分词器的性能更多地取决于分词训练语料的覆盖程度和完备性。而分词训练语料的构建一直是一个需要投入大量人力和时间的工作。因此,如何更方便快捷地构建分词语料便成为亟待解决的问题。不少研究者在如何拓展分词训练语料上做了积极尝试,孙茂松等[5]利用中文的标点符号在命名实体识别上取得了较好的成果;刘群等[3,6]使用互联网上的一些半结构化的网页文本(如维基百科)中的自然标记提高分词器在非通用领域上的精度。但是以往的研究中,研究者极少认真关注用户在输入汉语文本的过程中留下的分词信息。

本研究关注用户输入行为,并提出了自然输入标记的概念。自然输入标记指用户在使用电脑、手机等设备输入汉语文本时产生的自然标注信息,其提供了丰富而珍贵的分词信息,且使获得实时产生的分词训练语料成为一种可能,进而为克服基于标准通用语料训练的分词器的缺陷提供了新的解决思路,比如解决在非通用、特定或变化极快领域的精度损失等问题[7]。本文将对自然输入标记的内涵和应用方式进行了深入详尽的探讨。

在将汉字输入电脑等设备时,由于汉字的象形结构,用户必须借助输入法完成汉字的生成[8]。输入过程中,会伴随产生一些潜在的中文分词信息,而这些信息一直未得到重视,更没有被记录和保存,造成了极大的浪费。

典型的汉字、词输入包含一系列步骤[8],此处以目前市场占有份额最大的拼音输入法[9]为例说明这一过程。如果用户需输入一个汉语词“今天”,首先,会在键盘上输入拼音序列“jintian”。(拼音在这里其实是一种将汉字转化为拉丁字母的编码系统,不同的汉语输入法有不同的编码系统。)然后,拼音输入法给出一个同音异形的汉语字、词的候选列表,如图 1所示。

图1 典型的中文拼音输入法示意图

最后,用户从这个候选列表中查找到自己需要的目标字、词,并且使用数字键,如1-9(),或空格键(,一般为数字键“1”的快捷方式)等来最终选定自己想要的结果[10]。五笔等其他汉语输入法,也都遵循这三个步骤。本文将用来选择目标字、词的数字键和空格键统称为选择键,并且在用户的输入过程中将用户输入的内容和对应的选择键都保存下来。例如,用户在输入句子“今天天气不错。”时,可能的序列是“今天天气不错。”或者“今天天气不错。”很明显,用户在输入过程中使用的选择键,最真实、直接地反映了用户的输入意图和句意间隔,是最自然的分词信息。用户在输入过程中使用的这些选择键,就是本文所介绍的自然输入标记。

借助日常生活中垃圾分类处理的过程,可以更好地理解自然输入标记的作用和意义。日常垃圾处理过程中最大的问题是,人们习惯性地将各类垃圾混合堆放在一起,然后到垃圾处理厂后再费时费力地分拣。而合理的解决方法是人们应该意识到垃圾在产生时都有明显类别的,如果在投放时不是一下子都混合在一起,而是对垃圾做一些简单的分类,那么后续的处理工作将会大大简化。从汉语输入到分词的整个过程也存在类似垃圾处理的问题。尽管用户在输入文本的选词过程中已经产生了自然的分词标记,但是长久以来都没有被记录,更没有被利用,而后还需要花费大量的时间和人力去专门构建分词语料。这如同本来已经类别清晰的垃圾,却又被混合在了一起,最后再想办法对这些垃圾进行分类和拣选,造成了极大的浪费。

为了避免上面的问题,作者提出了结合自然输入标记的文本处理方案,希望将自然输入标记和文本同时记录和存储。这样做既便于后续做进一步的文本分析处理,又可以自动获得分词训练语料。作者希望通过本文抛砖引玉,让更多人关注这些我们习以为常却又忽略的隐含分词信息。

刘知远等人[10]的文章显示,输入法公司虽然已经保留了大量类似的用户输入数据,但由于用户隐私等问题,他们谢绝对外提供这些数据。即使是内部研究,也需要经过防隐私泄露处理。本文提出的采用自然输入标记的处理方案,所有可获取的用户数据,都是用户自愿公开发表的,不存在侵犯用户隐私数据的情况。

本文后续主要阐明自然输入标记的定义和特性,并论证不同用户在输入过程中产生的带有自然输入标记的文本,是否可以用来高效地构建分词训练语料。首先,给出自然输入标记的形式化定义,并开发出一个专用记录软件,用于记录用户在输入过程中产生的带有自然输入标记的文本。然后,根据统计学中的抽样原理收集了384个用户输入的带有选择键的文本,按照文本和标准分词结果是否接近,把所有文本分为两类。接下来,使用支持向量机(support vector machine,SVM)模型来完成自动分类工作。用户产生的接近标准分词结果的文本就形成了可接纳的自然输入标记文本集合。最后,引入投票机制,在所有可接纳文本集合中进一步挑选出更接近标准分词结果的高质量自然输入标记文本合集。实验结果显示,支持向量机与投票机制相互配合,可以有效地选择出高质量自然输入标记文本。高质量文本可以直接或经过简单人工处理后当作分词训练语料。另外,实验中还有一些证据显示,用户产生的自然输入标记文本对处理未登录词十分有用,如命名实体识别、新词发现。

1 分词标准与基准通用分词器

在讨论分词时,分词结果采用何种标准是需要首先明确的问题。目前,分词的标准并不统一,而且不同的应用场景也会采用不同的分词标准。以业界公认的Sighan Bakeoff为例,其中的四个标准由四家机构制定,分别是:北京大学(Peking University,PKU)、香港城市大学(City University of Hong Kong,CU)、台湾“中央研究院”(Academia Sinica,AS)、微软研究院(Microsoft Research,MSR)。这四种分词标准虽然大体相同,但细节上有一些差异。北京大学(PKU)和微软研究院(MSR)的简体中文分词标准中,MSR的标准更加接近人们的日常输入习惯,并且提供的语料数量也最多,因此本文采用MSR的分词标准。全文提及的“标准分词结果”均指符合MSR分词标准的分词结果。根据已有的研究工作[5,7],本文使用Sighan Bakeoff-2中的MSR语料训练了一个条件随机场(conditional random fields,CRF)模型作为基准通用分词器(简称CRF+MSR)。

2 自然输入标记

2.1 形式化定义

引言中,本文介绍了用户输入汉语的步骤,其中最后一步,用户使用的选择键(主要是数字键和空格键等)起到了潜在分词符的作用。这些被记录下来的选择键是在用户输入过程中自然标注产生的,因此被统一命名为自然输入标记(natural typing annotations,NTAs),下文以符号“|”表示。

若给定中文句子S=c1c2…cN(ci代表一个汉字;N代表句子S的长度,即S包含了多少个汉字),则π(S)=|c1…ci1-1|ci1…ci2-1|…|cn1…cN|为用户在输入句子S时产生的带有自然输入标记的序列。两个临近“|”之间的部分被称为一个片段(segment),π(S)=|segment1|segment2|…|segmentM|(M≤N;M代表句子S中被标记出的段数)被称为自然输入标记文本(NTAs text)或自然输入标记语料(NTAs corpus)。

2.2 自然输入标记文本的收集

由于目前没有类似的公开语料可供使用,所以本研究需要自行收集和构建不同用户的自然输入标记文本。参与此项输入实验的人员均是在网上报名的志愿者。为了对比方便,这些志愿者被指定都输入同一实验文本,同时使用我们开发的专用软件记录下输入过程中产生的自然输入标记文本。图2是本文使用的记录软件,它可以在不影响用户输入体验的情况下记录用户在输入过程中留下的自然输入标记。

图2 自然输入标记记录软件

关于实验,有两点需要说明。

第一,为了既减轻志愿者的输入负担,同时又保持实验的客观性和可对比性,本文设定用户输入的实验文本只有365个汉字,但其中包含了歧义句、命名实体、输入时易混淆的字词等语言现象。所以即使目前性能非常好的通用分词器在处理本文的实验文本时精度也会大大降低。图3给出了实验文本的三个例句。

图3 实验文本中的例句

第二,样本量的选择是根据统计学中的抽样原理得出的。抽样公式为:

(1)

本实验抽样时需要置信水平为95%且误差小于5%。其中,置信水平为95%时Zα/2=1.96;误差Δ=5%;当P取值0.5时P×(1-P)最大,故由抽样公式得出实验样本数应不小于384。因此,在实验中共收集了来自384位志愿者的自然输入标记文本。

2.3 收集文本的分析

通过收集来自不同用户的自然输入标记文本,可以对用户的输入习惯有一个整体了解。本文首先关注自然输入标记文本的基本单位——片段。从所有收集的文本中,一共提取到了66 232个片段,其中有883个片段是不重复的。如果用Length(seg)代表一个片段的长度(即一个片段中包含了多少个汉字),那么可以得到不同Length(seg)出现的频数分布。为了对比,将手工标注的标准分词结果和由CRF+MSR产生的分词结果都做相同的统计。图4给出了三个统计结果中不同长度的片段的相对出现频率。结果显示,384名用户的自然输入标记文本中,Length(seg)的数值分布范围比较大,从1到18都有取值。但是出现频率最多的Length(seg)都集中在1~4,这与标准分词结果和CRF+MSR分词器产生的分词结果的总体趋势是吻合的。

图4 实验文本的三种不同分词结果的片段长度相对频数分布

实验结果说明,大多数用户在输入汉语时,是不会一次输入很长一个片段的。从理论上来分析,输入短片段更符合行为经济学和认知语言学原理。

从行为经济学角度来看,如果一次性输入的片段越长,输入者在输入过程中出错的概率就越大,而且修改错误的操作也可能越烦琐。这增加了用户输入的时间成本,同时也打断了用户的思维连贯性。因此,大多数用户会采取短片段输入的方式。更有意思的发现是,习惯长片段输入的用户,几乎都是不会盲打或对键盘布局不熟悉的人。因为他们输入的时候,都是先全神贯注地用眼睛盯着键盘,把需要的拼音一次性都打完,然后再将眼睛移向屏幕去确认自己需要的那一长串汉字。相反,越是熟悉键盘输入、会盲打的人,眼睛越不会轻易离开屏幕,且他们的输入皆以短片段为主,这样便于及时地确认输入内容和修改输入错误。

从认知语言学原理来看,人们输入过程中产生的片段很少包含那些没有语言逻辑的汉字序列。以实验文本中的句子“主人公严守一把手机给扔了。”为例,当用户输入“给扔了”这三个字时,他们产生的序列分别有“|给|扔|了|”、“|给|扔了|”或“|给扔了|”,没有一个用户的输入结果是“|给扔|了|”。这是因为“给扔”在汉语中是一个没有语言逻辑意义的组合。由此可见,语言片段的组成反映了人们语言逻辑和认知。

以上通过对收集文本的宏观分析,可以确认大部分用户在输入过程中产生的自然输入标记提供了丰富的分词信息,由此得到的分词结果中,有相当一部分是很接近标准分词结果的,甚至有些就是正确分词结果。因此,下面重点研究如何筛选出质量最好的自然输入标记文本。

3 高质量自然输入标记文本的识别

3.1 用户输入模式

本节从句子层面研究自然输入标记文本。通过观察文本后获得的最直观印象是,不同用户拥有不同的输入模式。以下用实验文本中的例句S1=“不过评价在三星级以上的这几款电脑”来说明各种不同的情况。如图5所示,πgold(S1)是S1的标准分词结果,其他分别为不同用户的具有代表性的输入序列。

图5 用户输入的自然输入标记文本的不同模式

我们从中发现了三种用户输入模式:第一种是离散模式(discrete pattern),即在标准分词结果中本属于一个片段的汉字序列被分成了几个片段,如π5(S1);第二种是黏合模式(adhesive pattern),指那些在标准分词中本应为不同片段的汉字序列黏合在一起形成了一个片段,如π3(S1)和π4(S1);第三种是可接纳模式(acceptable pattern),是指用户输入产生的切分结果和标准分词的切分结果十分接近或完全相同,如π1(S1)和π2(S1)。本文把符合可接纳模式的文本称为可接纳自然输入标记文本,符合其他两种模式的文本称为不可接纳自然输入标记文本。并且,在可接纳自然输入标记文本中,还存在一些更接近标准分词的高质量自然输入标记文本。为了最终选出实验中的高质量自然输入标记文本,下文将介绍具体方法:(1)使用机器学习中的分类算法找到一个可接纳自然输入标记文本的集合; (2)使用投票机制在第一步已经确立的集合中找出高质量自然输入标记文本。

3.2 分类方法

选出可接纳自然输入标记文本是一个典型的二分类问题。训练分类器时使用了五个特征。

其中,Len表示句子的长度;SegNum(SN)表示句子中片段的个数。这两个特征用于判断用户输入的句子中字数和片段数是不是在一个合理的水平。SingleSegNum(SSN)表示句子中长度为1的片段个数;MaxConSingleSegNum(MCSSN)表示句子中最多有几个长度为1的片段连续出现在一起;MaxSegLen(MSL)表示句子中最长片段的长度。这三个特征用于判断用户输入的句子中是否有大量的离散和粘合现象。

3.3 投票机制

使用3.2节的分类方法,识别出接近标准分词结果的可接纳自然输入标记文本之后,还需要引入投票机制,以便在可接纳自然输入标记文本中挑选出更接近标准分词结果的高质量文本。给定一个句子Si,不同的用户输入会产生不同的分割形式π1(Si),π2(Si),… ,πk(Si)(k是用户产生的分割形式的总数)。如果πj(Si)出现在不同用户的文本中,那么这些文本(或说输入用户)其实是向πj(Si)投了一个支持票,所以,不同的用户文本是在向各个句子的不同分割形式投票。这样每个实验文本中出现的句子就都得到了一个分数,如式(2)所示。

SCOREπj(Si)=log2count(πj(Si))

(2)

其中,count(πj(Si))是统计多少用户在输入句子Si时形成了πj(Si)的分割形式。每个实验文本是由不同的句子组成的,其得分如式(3) 所示。

(3)

其中,numπj(Si)∈text是这个文本中包含的字句总数。

通过计算每个文本的得分,很容易在可接纳自然输入标记文本集合中挑选出高质量自然输入标记文本。以下实验将验证高质量自然输入标记文本与标准分词结果的吻合程度,以及高质量文本作为分词训练语料的效果。

4 实验结果与分析

4.1 确定高质量自然输入标记文本

4.1.1分类器

为了寻找384个文本中的可接纳自然输入标记文本,本文训练了一个支持向量机(SVM)来完成文本的分类工作。首先,我们从全部用户中挑选32个有代表性的典型用户。这些典型用户有着不同的输入习惯,他们输入的文本共包含1 089个句子。然后,我们对这些句子做了手工标注,作为训练集。以图5中S1的各种情况为例,手工标注的训练数据结果如表1所示。其中标签(label)1和0分别代表可接纳自然输入标记句子和不可接纳自然输入标记句子。

表1 用于训练分类器的手工标注训练数据样例

本实验采用libSVM工具包[11],具体参数设置是:径向基函数(radial basis function)为核函数(kernel function);gamma值为1/特征个数;惩罚因子(cost value)设为1。

为了检验模型的有效性,采用10次交叉验证将1 089个句子随机平分成了10份,每次选出其中一份作为测试集,其他九份为训练集。如此循环进行,让每一份都做一次测试集。最终得到的分类精度如表2所示。

表2 分类器的10交叉检验结果

续表

从表2中可以看出,选择的五个特征在分类实验中的区分性是很显著的。在本实验中,我们设定如果一个文本中85%的句子是可接纳类型的,那么这个文本就被认为是可接纳自然输入标记文本。85%是一个判断阈值,它是多次实验后得到的一个相对合理的经验值,可以根据具体需求调整。利用该分类模型和判断阈值,我们从384个文本中找出253个可接纳自然输入标记文本。

4.1.2基于投票机制的分词结果

根据3.3节中的投票机制,计算出253个可接纳自然输入标记文本各自的分数,并按分数的高低排序。表3给出了排名在前三位的高质量文本的分词情况,并与基准分词器CRF+MSR在实验文本上的分词结果进行了对比。因为CRF+MSR是一个通用分词器,而实验文本包含了歧义句、命名实体、输入时易混淆的字词等语言现象,所以CRF+MSR分词器在本实验文本上各个指标值都相对较低。

表3 通用分词器和投票后排名前三的实验文本的分词结果对比

表3说明,高质量自然输入标记文本比较接近标准分词结果,特别是对于实验文本中包含的命名实体、新词等未登录词,这三位输入者都毫无例外地将它们分别放在了正确的片段中,因此他们的输入结果对未登录词的召回率rOOV都是100%。例如,实验文本的句子“主人公严守一把手机给扔了。”中,“严守一”是一个命名实体,且“严守”和“一把(手)”、“(一)把手”和“手机”都构成交叠歧义。CRF+MSR对这个例句的分词结果是“主人公|严守|一把手|机|给|扔|了|。”而用户输入的结果都是“|严守一|”片段形式。这说明用户输入的高质量自然输入标记文本在标识未登录词方面具有优异的表现。

此外,我们将这些高质量文本和标准分词结果做了详细对比,找到了高质量文本中出错片段的共性。这些错误主要是由于一些简单词之间存在粘合现象而导致。例如标准分词结果“|这|几|款|”在高质量文本中都被写成了“|这几款|”。这样的结果在分词竞赛评测中当然是明显的错误,但是在某些特定应用场景下,却又会是比较合适的结果。比如在统计机器翻译中,从译文的连贯性上看,“|这几款|”就比“|这|几|款|”的处理效果好一些。因此,这些由用户产生的高质量文本为我们提出了值得思考的语言学问题,所谓的“词”到底该怎么界定?由用户使用习惯出发对词进行界定是否合理?

4.2 高质量自然输入标记文本作为分词训练语料的效果

相关研究表明,用户的行为模式在很长一段时间内是保持一致的[12]。因此,那些产生高质量自然输入标记文本的用户也将源源不断地提供更多类似的高质量自然输入标记文本,且这些文本可方便地用于构建分词训练语料。

为了验证高质量自然输入标记文本在构建分词训练语料上的作用,本节的实验将邀请产生表3中Text#top1、Text#top2、Text#top3的用户参与,他们分别被编号为:用户1、用户2、用户3。我们请以上三位用户输入从微博(weibo.com)上随机抓取的40KB语料,以此模拟这些用户平时输入微博内容的场景。这些语料被平均分成了A、B、C、T四份。请用户1重新输入一遍A语料以产生带自然输入标记的A语料。同样,用户2、用户3分别产生了带自然输入标记的B、C语料。本文将用户输入产生的带自然输入标记的A、B、C语料作为一个训练数据集,得到了一个CRF分词器,简称CRF+NTAs。然后又将由用户输入产生的带自然输入标记的A、B、C语料和来自Bakeoff-2的MSR的训练语料共同作为一个训练数据集,得到了第二个CRF分词器,简称CRF+MSR+NTAs。最后从T语料中随机选择了1 000个句子进行人工标注,将其作为测试语料。表4给出了不同分词器在测试语料上的分词结果。

从表4的结果可以看出,直接使用由用户输入产生的高质量自然输入标记文本训练得到的分词器(CRF+NTAs),在分词效果上要略好于通用分词器(CRF+MSR),但是却逊色于混合了高质量自然输入标记文本和MSR分词训练语料得到的分词器(CRF+MSR+NTAs)。CRF+MSR在实验中的分词精度低,主要是由于MSR训练语料来自时间较早的新闻领域,对基础词汇和标准的语法现象的涵盖虽然比较好,但是对最新的微博领域的新词和非正式的语法现象的涵盖却严重不足。因此,在MSR训练语料的基础上加入了最新的高质量自然输入标记文本,可以明显提高分词器在微博领域的分词精度。

表4 不同分词器在测试语料上的分词效果

本节实验选择了有别于传统新闻语料的微博语料,通过具体数据验证了以下事实:有一批优秀用户的输入习惯特别好,并且是一以贯之的,无论这些用户在输入什么,他们日常产生的可公开的自然输入标记文本几乎都可以直接做为分词训练语料。这为分词训练语料的自动收集和构建提供了一个有价值的新方法。

5 进一步讨论

关于自然输入标记,作者分别从实践和理论上做进一步探讨。

在实验中,作者针对收集到的高质量输入标记文本,观察、研究了它们和标准分词结果的差别,发现了高质量输入标记文本最主要的两个特征:第一,代词经常和其前后的一个字、词黏合形成一个片段,如“大家好”“我叫”“这就是”“让自己”常被作为一个片段;第二,助词经常和其前后的一个字、词粘合形成一个片段,如“扔了” “写了”“大的”“小的”等。正如前文提到的,这些是所谓的“错误”,只是用户在以他们认可的逻辑块来进行输入和确认,且这些特征都很容易处理。经过简单处理后的高质量输入标记文本和标准分词结果的差异程度会减少很多,可以直接作为分词器的训练语料使用。

随着机器学习技术越来越成熟,训练数据的丰富性和完备性直接决定了机器学习的效果。在中文信息处理领域,科技人员和业内工作者应该尽可能多地发掘并引入人类集体智慧产生的信息,使机器学习方法的功效最大化,以去除语言处理过程中的不确定性,达到分析、理解语言的目的。本文讨论的自然输入标记文本,正是这样一种人类集体智慧的具体体现,对解决汉语分词问题是一个新颖而有益的探索与尝试。

6 结束语

现行中文输入过程继承于手书汉字的形式,只是记录汉字,并不记录任何其他信息,无形中浪费很多在电子设备上输入汉语时所产生的多有用的信息。自然输入标记就是这样一种在电子设备上输入汉语时所产生的有用信息,我们完全可以在不干扰用户阅读和输入的情况下,隐式地将用户输入过程中产生的自然输入标记记录下来。

本文主要介绍并研究了用户在输入过程中产生的自然输入标记文本,同时验证了高质量自然输入标记文本在构建分词训练语料方面的有效性。根据最新的调查显示,2016年年底中国的互联网用户数已经达到7.31亿,即使只有较小比例的用户提供高质量自然输入标记文本,他们也将在日常工作、学习、生活中源源不断地产生实时的分词训练语料。将这些语料用来增量训练分词器,将使分词器具有实时进化的能力。

如果越来越多自然标记文本被记录下来,相信会对分词等其他中文信息处理问题带来全新的解决思路。本文对自然输入标记进行了验证性的探索,后续还会做更多的研究与应用。

[1]Xue Nianwen,Shen Libin.Chinese word segmentation as LMR tagging[C]// Proceedings of Sighan Workshop on Chinese Language Processing in ACL 2003.Sapporo,Japan,2003:176-179.

[2]Zhang Yue,Clark Stephen.Chinese segmentation with a word-based perceptron algorithm.[C]// Proceedings of the ACL 2007.Prague,Czech Republic,2007:840-847.

[3]Jiang Wenbin,Huang Liang,Liu Qun.Automatic adaptation of annotation standards:Chinese word Segmentation and POS tagging:A case study.[C]// Proceedings of the ACL-AFNLP 2009.Suntec,Singapore,2009:522-530.

[4]Zhao Hai,Huang Changning,Li Mu,et al.A unified character-based tagging framework for Chinese word segmentation[J].Acm Transactions on Asian Language Information Processing,2010,9(2):1-32.

[5]Li Zhongguo,Sun Maosong.Punctuation as implicit annotations for Chinese word segmentation[J].Computational Linguistics,2009,35(4):505-512.

[6]Sun Weiwei,Xu Jia.Enhancing Chinese word segmentation using unlabeled data[C]// Proceedings of the EMNLP 2011.Edinburgh,UK,2011:970-979.

[7]Zhang Dakui,Mao Yu,Liu Yang,et al.The discovery of natural typing annotations:User-produced potential Chinese word delimiters[C]// Proceedings of the ACL-IJCNLP 2015.Beijing,China,2015:662-667.

[8]陈原.汉语语言文字信息处理[M].上海:上海教育出版社,1997.

[9]iResearch 2009.2009 China Desktop Software Development Research Report[OL].[2010.2.20].http://report.iresearch.cn/1290.html.

[10]Zheng Yabin,Xie Lixing,Liu Zhiyuan,et al.Why press backspace? understanding user input behaviors in Chinese Pinyin input method[C]// Proceedings of the ACL 2011.Portland,Oregon,USA,2011:485-490.

[11]Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machines[J].Acm Transactions on Intelligent Systems & Technology,2011,2(3):389-396.

[12]Stephane Lucas.User behavior patterns:Gathering,analysis,simulation and prediction[C]// Proceedings of the HCD 2009.San Diego,CA,USA,2009:1650-1656.

张大奎(1981—),博士研究生,主要研究领域为自然语言处理、数据挖掘、机器学习。E-mail:dakuiz@163.com

尹德春(1979—),博士,讲师,主要研究领域为自然语言处理、情报分析、网络安全。E-mail:yindechun163@163.com

汤世平(1975—),通信作者,博士,讲师,主要研究领域为自然语言处理、数据挖掘。E-mail:tangshiping@gmail.com

猜你喜欢

分词语料高质量
坚持以高质量发展统揽全局
基于归一化点向互信息的低资源平行语料过滤方法*
分词在英语教学中的妙用
高质量项目 高质量发展
牢牢把握高质量发展这个根本要求
结巴分词在词云中的应用
结巴分词在词云中的应用
“三部曲”促数学复习课高质量互动
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法