APP下载

面向中文专利文献的有标记并列结构的统计分析

2013-10-15周俏丽张桂平

中文信息学报 2013年5期
关键词:例句语料边界

石 翠,周俏丽,张桂平

(1.沈阳航空航天大学 知识工程研究中心,辽宁 沈阳110136;2.辽宁行政学院 信息技术系,辽宁 沈阳110161)

1 引言

专利文献是一种非常重要的技术资料,它有较为固定的书写格式和表达方式[1]。与普通文献相比,专利文献的文本格式比较固定,用语较为规范,除含有一些高频词和未登录词之外,还存在着大量的并列结构。

并列结构[2](coordinate structure),也称联合结构,它由两个或更多的并列成分组成,并列结构有时也称为联合短语。并列结构里的直接成分通常称为并列语(conjunct),并列语通常用连词、顿号或空的连接形式连接。

在中文专利文献里并列结构有下列的语言结构。

A.该通信接口1215BL【发送和接收】BL【电、电磁、或光】信号。

B.加压包装可包括合适的推进剂如BL【二氯二氟甲烷、三氯氟甲烷、二氯四氟乙烷、二氧化碳或其他合适的气体】。

C.任务Z100接收BL【表征所述高频带部分的频谱包络的一组滤波器参数和表征所述高频带部分的时间包络的一组增益因数】。

D.进给装置可以包括BL【用于控制材料从第二部分6释放的缓冲系统或任何其他适合的系统】。

E.计算机802通过BL【BL【有线和/或无线】通信网络接口或适配器856】连接至局域网852。

A为连续的两个并列结构;B为包含多个并列语且并列语由多个并列标记连接的并列结构;C和D为跨度较大的并列结构,但C中并列结构是规则的,而D中并列结构是不规则的;E为嵌套的并列结构。

有标记并列结构是指并列语由连词或标点连接的并列结构,如A、B、C、D、E所列并列结构;无标记并列结构是指并列语由空(例如,多输入单输出)连接的并列结构。本文主要研究有标记的并列结构,而不分析无标记的并列结构。

针对有标记并列结构,有关学者进行了多方面的考察与研究。吴云芳[3]利用现有的语言资源,从句法、语义两个层面详尽地考察了并列成分之间的约束关系,并对这些约束关系进行了形式化的描述,而后基于知识描述进行了并列结构的自动识别,基于并列词语进行了相似词语的自动聚类。王东波[4-5]在对并列结构进行自动识别前,详细统计和分析了有标记联合结构的内部语言学和外部语言学特征。苗艳军[6]分析了宾州中文树库中并列结构的内部和外部的语言学特征。马清华[7]立足于语言系统的自组织性这一理论基础,对并列结构的句法语义进行较为系统的动态研究。Kazuo Hara et al[8]分析了英文中并列结构的句法特征。本文基于中文专利语料,考察了中文专利文献中有标记并列结构的并列标记和词性分布等内部语言学特征,并分析了有标记并列结构在中文专利文献中出现的外部环境,统计了可能的边界特征词等外部特征。这些关于中文专利文献的有标记并列结构的考察与分析,一方面为并列结构语料库构建提供了理论基础,另一方面为中文专利文献中的并列结构的自动识别提供了语言学知识。

本实验所使用的语料是由本实验室自己标注的,经自动分词、词性标注并人工校对的语料,且用BL【】标记标注了语料中所有有标记的并列结构,语料的具体情况如下面表1和表2所示。

表1 语料库的基本统计数据对比表

王东波,谢靖[4]在《基于清华汉语树库的有标记联合结构统计分析》一文中关于清华汉语树库的基本统计数据显示清华汉语树库语料的平均句长为23.13,且其统计的语料中学术类的句子较复杂平均句长为28.4,而本文所统计的中文专利文献的平均句长为31.10,显然与非专利文献相比,专利文献的句子要复杂(表1给出了专利文献与非专利文献的对比数据)。本文对中文专利文献中的句子进行了划分,20词以下(含20)的句子为简单句子,20词以上的句子为复杂句子,则复杂句子占整个语料的78.84%。

表2 语料库的句子长度分布数据

2 中文专利文献中并列结构基本情况统计

我们对标注的6133句中文专利语料进行了更细致的分类,从统计的结果更能看出并列结构在中文专利文献中是不容忽视的问题,具体分析情况如表3、表4所示。

表3 嵌套并列分布情况数据

表4 并列结构规律数据表

在中文专利文献中,不规则的并列结构占据很大的比重,而且不规则的并列结构有可能嵌套在规则的并列结构中,对于内层不规则并列结构的识别效果影响外层规则的并列结构的识别效果,所以只采用基于规则的方法识别中文专利文献中的并列结构是不够的,要借助于统计的方法进行识别。

在中文专利文献中,并列跨度大,即在整个句子中并列结构占较大比例的句子较多,这在非专利文献中也并不常见。例如,任务/n Z100/ws接收/v BL【表征/v所/u述/v高/a频带/n部分/n的/u频谱/n包络/n的/u一组/m 滤波器/n参数/n和/c表征/v所/u述/v高/a频带/n部分/n的/u时间/n包络/n的/u一组/m增益/n因数/n】。/wp

我们对中文专利文献中的并列结构进行了跨度统计,按并列结构内部包含的词语个数,将语料中的并列结构进行了划分,具体情况如表5所示,L表示并列结构中包含的词语个数。

表5 并列结构跨度统计表

由表5可以看出,中文专利文献中的跨度大的并列结构占较大比重,这将对并列结构的识别效果产生一定的影响。

专利文献中的并列结构与非专利文献中的并列结构主要有下面几点差异:(1)包含嵌套并列结构多。(2)不规则并列结构分布广泛。(3)并列结构跨度大,甚至占据整个句子。

3 中文专利文献并列结构内部特征

对于中文专利文献中并列结构的内部特征,我们主要从并列标记、内部并列分析和词性分布三方面考察。

3.1 并列标记

中文专利文献中并列标记主要有下面三种形式:(1)并列连词:连接并列结构的连词。例如,和、或、与、或者、及、及其、并、并且等。(2)标点符号:连接并列结构的标点符号。主要有:顿号(、)、斜杠(/)、分号(;),有时逗号(,)也起并列连词的作用。(3)复合标记:主要是并列连词与标点符号的复合。例如,[,或者]、[;或者]、[;以及]、[和/或]等。

下面我们对中文专利文献中比较有特点的并列标记以及规律加以叙述。

3.1.1 并列标记斜杠“/”

在专利语料里,由“/”连接的并列结构都是包含两个并列成分的并列结构,并且这两个并列成分都是最理想、最严格的并列,即由词性相同、结构相同、语义类相同、音节相同的并列项组成。如例句1所示:

例句 1 扩 展/v 注 入 区/n 126S/ws 、/wp 126D/ws 、/wp 226S/ws 、/wp 226D/ws 与/c n-FET/ws和/c p-FET/ws的/u主/b源极/n//wp漏极/n层/n(/wp将/p在/p随后/d形成/v)/wp是/v相同/a导电/n类型/n的/u杂质层/n。/wp

由“/”连接的并列结构里有一种情况,使我们不得不重新考虑到底该如何分词。如例句2所示:

例句2 形成/v在/p栅极/n叠层/n周围/s的/u受/v压力/n的/u衬垫/n、/wp加高/v的/u BL【源/n//wp漏区/n】、/wp掩埋/v的/u阱区/n和/c//wp或/c掩埋/v且/c受/v应力/n的/u包含/v Si:C/ws和/c//wp 或/c SiGe/ws的/u BL【源/n//wp漏区/n】都/d可以/v与/p本/r发明/n一起/d使用/v。/wp

这里,显然要说的是源区和漏区,也就是说,应该是“源”和“漏”并列,那么分词为:[源/漏 区]似乎更合理,但由于标注的专利语料里源区、漏区作为名词性的术语大量存在,且由“/”连接的并列结构较规则,我们可以将其作为一个整体即作为:源/漏区/n,我们将其切分为源/n//wp漏区/n,便于根据并列标记斜杠“/”的特征将其进行整合。

3.1.2 并列连词 “与”

“与”有两个词性,连词(c)和介词(p),只有其作为连词时,才可作为并列标记。

“与”是双目的并列标记,即“与”只连接包含两个并列语的并列结构,而不连接包含多个并列语的并列结构。例如,

错误标注:注意/v到/vb处于/v简化/v目的/n,/wp 未/d 具体/v 示出/v BL【UE/ws与/c控制/n功能性/n(/wp例如/c S-CSCF/ws)/wp 以及/c控制/v功能性/n与/c HSS/HLR/ws】之间/nd的/u所有/b消息/n。/wp

正确标注:注意/v到/vb处于/v简化/v目的/n,/wp未/d具体/v示出/v BL【BL【UE/ws与/c控制/n功能性/n】(/wp例如/c S-CSCF/ws)/wp以及/c BL【控 制/v 功 能 性/n 与/c HSS/HLR/ws】】之间/nd的/u所有/b消息/n。/wp

3.1.3 复合并列标记“和/或”

在专利语料里,由“/”连接的还有“和”与“或”,如例句3所示。

例句3 在/p一些/m实现/v方案/n中/nd,/wp BL【监测/v系统/n 130/m 和/c//wp或/c管理/v系统/n 160/m】可以/v是/v在/p计算机/n 165/m 上/nd运行/v的/u虚拟/a计算/v系统/n。/wp

此处,[和/c//wp或/c]起并列连词的作用,所以我们把它作为复合标记使用,而不把它看作“和”与“或”的并列。

3.2 并列结构内部分析

3.2.1 包含多个并列语的并列结构的并列标记分析

包含多个并列语的并列结构,并列语通常由一种或两种并列标记连接,很少由三种及以上并列标记连接。如果包含多个并列语的并列结构是由两种并列标记连接的,那么只有最后一个并列标记不同于前面的并列标记。例如,

错误标注:优选/v地/u在/p用于/v BL【喷墨/v装置/n、/wp直写/v工具/n或/c其他/r类似/v装置/n或/c工具/n】的/u喷墨/v墨水/n中/nd或/c数字/n墨水/ng中/nd。/wp

正确标注:优选/v地/u在/p用于/v BL【喷墨/v装置/n、/wp直写/v工具/n或/c其他/r类似/v BL【装置/n或/c工具/n】】的/u喷墨/v墨水/n中/nd或/c数字/n墨水/ng中/nd。/wp

这里还需要说明的是在由两种并列标记连接的包含多个并列语的并列结构中,“、”(顿号)不作为最后一个并列标记。例如,

错误标注:它们/n或者/c是/v BL【硬件/n、/wp硬件/n和/c软件/n的/u组合/n、/wp软件/n】。/wp

正确标注:它们/n或者/c是/v BL【硬件/n、/wp BL【硬件/n和/c软件/n】的/u组合/n、/wp软件/n】。/wp

在由两种并列标记连接的包含多个并列语的并列结构中,前一个并列标记大多情况下为“、”(顿号),有时也用“或”、“或者”连接,很少用其他并列标记连接,也就是说其他并列标记在包含多个并列语的并列结构中出现时,通常都是作为最后一个并列标记,其后面连接该并列结构的最后一个并列语。

3.2.2 相差一个前缀的并列结构分析

在我们考察的中文专利文献中,有81个(占并列总数的1.3%)并列结构,并列语之间只差一个前缀词,如例句4所示。

例句4 声道/n缩减/v混音/v信号/n 103/m可/v被/p分类/v成/v BL【包括/v头部/n的/u情形/n 和/c 不/d 包 括/v 头 部/n 的/u 情 形/n】。/wp

我们对81个并列结构的前缀词进行了统计(括号中的数字表示个数):不/d(15)、非/d(4)、非/h(6)、未/d(13)、从/h(1)、毫微级/b(37)、半/m(2)、非常/d(1)、被/p(2),当“非”修饰动词时其词性为副词(d),当“非”修饰名词时其词性为前缀(h)。在这81个并列结构中,除了一个并列结构(如:例句5所示)包含3个并列语外,其余并列结构都是包含两个并列语的并列结构。

例句5 但是/c,/wp近年/nt来/v,/wp已经/d开发/v出/v了/u BL【透射/v-/ws、/wp反射/v-/ws和/c半/m 透射/v-/ws】液晶/n显示器/n,/wp其中/r倾角/n不/d总是/d 45/m°/ws,/wp因此/c,/wp优选/v任意/d地/u调节/v拉伸/v方向/n至/p每/r种/q LCD/ws的/u设计/n。/wp

在例句5中,并列结构的第一个和最后一个并列语相差一个前缀词,所以我们也把该并列结构列为相差一个前缀的并列结构。

3.3 有标记并列结构的词性分布

为了能分析中文专利文献中并列结构的内部特征,我们对标注的6262个并列结构按照并列短语核心词的词性进行了细分类。中文专利文献的内部词性分布如表6所示。

表6 有标记并列结构内部词性分布表

根据中文专利文献自身的语言特点,下面几种词性的并列结构有其独特的特点和规律。

3.3.1 英文字符 ws

在中文专利文献中,有些词不属于纯正意义的外文词语,而是由英文字母和数字组成的,其没有真正的含义,经常表示一些设备号等,例如,转移弧/n 102A/ws和/c 102B/ws,这里我们也将它们的词性标注为ws。由表6中的数据可以看出,由ws组成的并列在有标记的并列结构中占有5.92%的比重,且这些并列结构是完全对称的并列结构。例如,四/m 个/q探测器/n BL【a/ws、/wp b/ws、/wp c/ws和/c d/ws】可以/v 位于/v 透明/a 屏幕/n 10/m的/u各个/r角/n上/nd。/wp

ws词性的词,除了与ws词性的词形成并列以外,只与名词性的或数词性的词语形成并列。如下面的例句6、7所示。

例句6 例如/c,/wp BL【URLC8/ws和/c底物/n】,/wp例如/c含有/v D-/ws环/n的/u ntRNA/ws可/v在/p适合/v于/p nt-RNA/ws二氢尿苷/n合成/v的/u测定/v条件/n下/nd与/p给氢体/n孵育/v。/wp

例句7 将/p该/r替换/v实施/v方式/n的/u BL【一个/m或/c多/m个/q】特征/n与/p附图/n BL【2A/ws和/c 2/m】中/nd表示/v的/u代表性/n薄膜/n组合/v。/wp

上面例句7中与ws词性的词“2A”并列的数词“2”起的也是标号的作用。事实上,在中文专利文献中,ws词性的词与数词的并列,一种情况是数词起标号的作用,一种情况是ws词性的词充当数词的作用。

3.3.2 数量词

在中文专利文献中,数量词并列,除了上面例句7中数量词之间的并列和数词与英文字符之间的并列之外还有下面几种情况:例句8所示的数量词之间的并列,例句9所示的基数词之间的并列,例句10所示的数词与数词短语之间的并列,和例句11所示数词与形容词之间的并列等几种形式。

例句8 在/p本/r实施/v方式/n中/nd,/wp磁场/n nd37/ws对准/v出口/n装置/n 的/u BL【12/m 点钟/q和/c 6/m 点钟/q】位置/n之间/nd。/wp

例句9 烤炉/n在/p BL【第一/m 和/c第二/m】位置/n之间/nd的/u旋转/v运动/v根据/p需要/v通过/p过程/n控制/v重复/v多/m次/q。/wp

例句10 语音/n模式/n参数/n具有/v BL【一个/m 或/c一个/m 以上/nd】其他/r状态/n以/p指示/v例如/c无声/n 或/c背景/n噪声/n或/c无声/n与/c浊/a语音/n之间/nd的/u转变/v的/u模式/n。/wp

例句11 纤维材料/n片段/n的/u激光/n切割/v边缘/n包括/v BL【两/m 个/q或/c更/d多/a】纤维/n 熔合/v 在/p 一起/d 的/u 多/m 个/q组/n G/ws。/wp

3.3.3 “的”字并列

在中文专利文献中,“的”字并列是指并列语的最后一个字是“的”的并列,例如,在/p使用/v中/nd,/wp移动台/n 1401/m 的/u用户/n对/p麦克风/n 1411/m 讲话/v,/wp并且/c BL【他/r的/u或/c她/r的/u】话音/n随同/v任何/r检测/v到/v的/u背景/n噪声/n被/p转换/v为/v模拟/v电压/n。/wp

上面表6所列的68个“的”字并列中,有31个是对称的并列结构,27个并列结构中并列语包含相同个数的“的”字,10处并列结构中并列语包含不同个数的“的”字,但这10处并列结构中有5个并列结构的并列语的倒数第二个词是相同的词,如例句12所示,1个并列结构的并列语的第一个词相同。

例句12 动作/n模式/n 202/m 在/p所/u测量/v的/u信号/n 200/m 上/nd沿着/p时间轴/n滑动/v,/wp并且/c在/p点/m 202/m 处/n,/wp观察/v到/v存储/v在/p BL【动作/v模式/n 202/m 中/nd的/u 和/c所/u 测量/v的/u信号/n 峰值/n 200B/ws中/nd的/u】数据/n足够/a一致/a,/wp以/p在/p所/u述/v设备/n中/nd将/p所/u测量/v的/u信号/n 200/d解释/v为/p表示/v人/n的/u行走/n。/wp

除此之外,在我们所考察的专利文献中,还有5个并列结构是“的”字并列与名词性、动词性和形容词性并列语之间的并列。

4 中文专利文献并列结构外部特征

吴云芳[9]对并列结构的外部句法特征进行了详尽的分析,下面我们将对中文专利文献中并列结构的外部句法特征进行分析,寻找有助于专利文献中有标记并列结构识别的语言学特征。

4.1 中文专利文献并列结构的左、右边界词分析

4.1.1 左边界词分析

并列结构的边界词属于并列结构的外部语言学特征,这里讲的边界词是指大多出现在并列结构外部,而不出现在并列结构内部的词语。我们把经常出现在并列结构左边界外部的词称为左边界词。根据这一语言学特征,我们把考察范围限定在一个句子的范围内,且专利文献的句子较长 ,我们进一步把考察的范围限定在子句的范围内,即由逗号分隔的句子。设w是句子内的任一个词,left设定为并列结构的左边及并列结构内部的范围,f(w_left)表示词w在left范围内出现的频次,left_out设定为并列结构左边的范围,f(w_left_out)表示词w在left_out范围内出现的频次,则词w作为并列结构左边界词的计算公式如式(1)所示。[4]

通过下面两个例子对我们考察的并列结构的left和left_out范围加以解释,如例句13中,第一个并列结构的left范围是:解映射/v指令/n的/u执行/n包括/v把/p复数/n操作数/n和/p另外/b的/u复数/n操作数/n;left_out范围是:解映射/v指令/n的/u执行/n包括/v把/p。如果在子句范围内包含两个同级的并列结构,我们把彼此的边界作为考察的边界,如下面例句14中,第二个并列结构的left范围是:网层/n 320/m和/c 340/m;left_out范围是:网层/n。

例句13 在/p一个/m 实施例/n中/nd,/wp解映射/v指令/n的/u执行/n包括/v把/p BL【复数/n操作数/n和/p另外/b的/u复数/n操作数/n】相乘/v ,/wp 然后/c,/wp 将/v 该/r结果/n的/u BL【实分量/n和/c//wp或/c虚分量/n】跟/p一个/m边界值/n进行/v比较/v。/wp

例句14 薄膜/n 300/m 还/d包括/v将/p BL【第一/m 和/c第二/m】网层/n BL【320/m 和/c 340/m】连接/v在/p一起/d的/u纵向/n密封件段/n 352/m 。/wp

由式(1)我们可以得到,当p值越大,w作为并列结构左边界词的可能性就越大,这里我们将p的阈值设为0.7,也就是说当p大于0.7时,我们将w作为并列结构的左边界词。在中文专利文献中,可以作为有标记并列结构左边界词的词如表7所示。

表7 有标记并列结构左边界词表

在专利文献中,我们将p的阈值设计为0.7,主要是因为边界词出现在内部的几率很大,但是通过我们的分析发现,当边界词出现在并列结构中时,并列结构的并列语都包含该边界词且在并列语中的位置相同,即边界词与其自身形成并列。由于上述原因,在非专利文献中可以作为左边界词的词,如:在(0.63),例如(0.57),通过(0.69)等等,并未出现在左边界词的词表中,如例句15所示。

例句15 就/d BL【在/p详细/a描述/n中/nd或者/c在/p权利要求书/n中/nd】使用/v的/u术语/n“/wp包括/v”/wp而言/u

4.1.2 右边界词分析

与左边界词相同,我们把经常出现在并列结构右边界外部的词称为右边界词。设w是句子内的任一个词,right设定为并列结构的右边及并列结构内部的范围,f(w_right)表示词w在right范围内出现的频次,right_out设定为并列结构右边的范围,f(w_right_out)表示词w 在right_out范围内出现的频次,则词w作为并列结构右边界词的计算公式如式(2)所示。[4]

由式(2)我们可以得到,当p值越大,w作为并列结构右边界词的可能性就越大,这里我们将p的阈值设为0.7,也就是说当p大于0.7时,我们将w作为并列结构的右边界词。在中文专利文献中,可以作为有标记并列结构右边界词的词如表8所示。与左边界词相同,在非专利文献中可以作为边界词的也(0.51)、中(0.51)等也未出现在右边界词的词表中。

表8 有标记并列结构右边界词表

4.2 专利文献中有标记并列结构的依存关系分布

我们在依存树库的基础上,统计分析了中文专利文献中有标记并列结构的依存关系分布。从统计分析结果可以看出,专利文献中有标记并列结构主要出现在以下几种依存关系中:动宾关系(VOB)、定中关系(ATT)、介宾关系(POB)、“的”字结构(DE)、主谓关系(SBV),它们占据了整个并列结构的66.47%。具体分析如下。

图1 并列结构做动宾关系

(1)动宾关系(VOB)

做宾语的成分,与核心词之间的关系标注为动宾关系,一般位于核心词的后面。并列结构做动宾关系的句子如图1所示(其中,由方框框起来的是并列结构;椭圆中的是它们的依存关系)。

(2)定中关系(ATT)

定语和中心语之间的关系标注为定中关系。并列结构做定中关系的句子如图2所示。

(3)介宾关系(POB)

依存到介词的词语,则该词与依存词之间的关系标注为介宾关系。并列结构做介宾关系的句子如图3所示。

图2 并列结构做定中关系

图3 并列结构做介宾关系

(4)“的”字结构(DE)

依存到“的”的词,该词与“的”之间的关系为“的”字结构。“的”字结构应该属于定语的一部分。并列结构做“的”字结构的句子如图4所示。

图4 并列结构做“的”字结构

(5)主谓关系(SBV)

做主语的成分,与核心词之间的关系标注为主谓关系,一般位于核心词的前面。并列结构做主谓关系的句子如图5所示。

图5 并列结构做主谓关系

4.3 专利文献中并列结构的其他外部规律

专利语料里,并列结构的左边界为介词“在”,右边界为方位名词的情况也较普遍,例如,“在/p......之 间/nd”、“在/p......中/nd”及 “在/p......之外/nd”等。如例句16所示。

例句16 在/p BL【所/u附/v权利要求书/n及/c 其/r 等 效 物/n】 之 外/nd 受 到/v 限 制/n。/wp

在专利语料里,并列结构的左边界为介词,右边界为动词的情况也普遍存在,例如“由/p……覆盖/v”、“从/p……去除/v”、“与/p……相关/v”等。如下面例句17所示:

例句17 BL【通过/p研磨/v或/c通过/p化学/n机械/n抛光/v】从/p BL【迹线/n和/c//ws或/c通路/n位置/n】去除/v多余/r导电/v材料/n的/u需要/n。/wp

4 结束语

本文通过对中文专利文献的考察,统计分析了有标记并列结构在专利文献中的内、外部语言学特征,省略了专利文献与非专利文献共有的一些语言学特征,这将为中文专利文献中有标记并列结构的自动识别提供语言学规则。但是,由于语料有限,仅依据这些规则进行有标记并列结构的识别显然是不够的。我们将扩大语料的考察范围,对中文专利文献中的有标记并列结构进行更全面的考察与分析。

[1]任楚威.英文专利文献的汉译[J].湖南师范大学自然科学学报,2008,(9):122-125.

[2]冯文贺,姬东鸿.并列结构的依存分析与连词的控制语地位[J].语言科学,2011,10(2):168-181.

[3]吴云芳.面向语言信息处理的现代汉语并列结构研究[D].北京:北京大学,2009.

[4]王东波.基于清华汉语树库的有标记联合结构统计分析[J].现代图书情报技术,2010,(4):12-17.

[5]王东波.有标记联合结构的自动识别[D].南京:南京师范大学,2008.

[6]苗艳军.汉语并列结构的自动识别[D].苏州:苏州大学,2009.

[7]马清华.并列结构的自组织研究[D].上海:华东师范大学,2004

[8]Kazuo Hara,Masashi Shimbo,Hideharu Okuma,Yuji Matsumoto.Coordinate Structure Analysis with Global Structural Constraints and Alignment-Based Local Features[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.Suntec,Singapore,2009:967-975.

[9]吴云芳,并列结构的外部句法特征[C]//机器翻译研究进展—2002年全国机器翻译研讨会论文集,2002:110-116.

猜你喜欢

例句语料边界
守住你的边界
基于归一化点向互信息的低资源平行语料过滤方法*
拓展阅读的边界
探索太阳系的边界
意大利边界穿越之家
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
好词好句
好词好句
好词好句
好词好句