中国英语学习者花园幽径句错位效应强度研究：计算语言学视角

2016-06-01杜家利于屏方

中文信息学报 2016年6期

关键词：幽径频数错位

杜家利,于屏方

(1．广东外语外贸大学词典中心，广东广州 510420；2. 南京大学外国语学院，江苏南京 210093；3. 广东外语外贸大学中国语言文化学院，广东广州 510420)

中国英语学习者花园幽径句错位效应强度研究：计算语言学视角

杜家利1,2,于屏方3

(1．广东外语外贸大学词典中心，广东广州 510420；2. 南京大学外国语学院，江苏南京 210093；3. 广东外语外贸大学中国语言文化学院，广东广州 510420)

该文借助126名英语专业大二学生对100个花园幽径句和对照句的限时理解实验，讨论了中国英语学习者在解读花园幽径句过程中产生的错位效应，测算了效应强度，并与stanford parser的自动翻译进行了人机对比研究。花园幽径现象是一种有意识的受控行为。其编码和解码具有行进错位和认知过载现象，并能反映人类复杂的心理认知活动。实验证明：在划分的引导词类错位、宾语辖域错位、嵌套错位和兼类错位四类中，错位效应呈现非对称性，其中兼类错位频数最高，错位效应强度也最大。在人机对照中，机器的程序解码错位和学习者认知解码错位不具有完全联动性和绝对共时性。

计算语言学；花园幽径句；行进错位；认知过载；斯坦福解析器

1 引言

语言的潜在歧义存在于语言生活的方方面面。有的歧义在语言交流中可以得到完全消解，有的仅可得到部分消解。[1]前者是无意识的自动感知，后者则是有意识的受控认知。后者所诱发的行进错位效应常被称为“花园幽径现象(效应)”，具有的句式被称为“花园幽径句”或“花园幽径模式”。[2-5]

花园幽径句的编码和解码反映了人类复杂的心理认知活动。[6-9]其信息流的输入与输出有时会受到外在因素的影响。[10-13]具有离散性的信息流可以将密封在认知系统中的语音[14-15]、语义[16-19]和句法结构[20-23]等相关信息顺次提取，自动或受动完成解码或编码[24-27]。如果这种连续的编解码被打破，则可能引发认知错位效应。[28-29]

花园幽径句理解研究一直以来被语言学家认为是探寻认知系统解码模式的有效途径。[30-33]其行进错位的研究主要集中在句法层面。[34-36]通过对被试在错位效应发生时的反应时变化以及固定反应时情况下被试理解的正确率的多少，研究者可以得到不同花园幽径句的难度系数。[37-38]这方便对不同的花园幽径模式进行归类分析，找寻到对不同句式系统自动解码的有效途径。[39-41]

本文主要讨论中国英语学习者在理解英语花园幽径句过程中的错位效应强度，以期为学习者提供英语复杂句模式的有效理解路径。

2 花园幽径句测试研究

花园幽径句在解码过程中，密封在认知系统中的句法信息、语义信息等会在前期较短时间内得到剖析和整合。这个过程是一种无意识的瞬间完成的过程，直到关键性启发信息的出现，这种无意识的解码行为才会停止。随着某一个启发点的出现，认知系统由无意识转为有意识，由自动转为受控。这种看起来简单的即时反应涉及到复杂的心理过程。被试阅读中，错位效应后的句法结构如何形成回溯并最终终止解码或实现跨越解码，将是我们通过实验需要进行验证的。

花园幽径句的测试主要包括四部分因素：被试、材料、程序与结果分析。

2.1 被试

(1) 普通高等学校大二学生，身体健康，裸眼视力或矫正视力正常。

(2) 学生具有良好的英语阅读能力，均具有英语专业四级水平。

(3) 实验近期均无急性感染或服用过任何药物，对英语语料等实验数据具有良好认知。

(4) 听从主试安排，并愿意参加语言测试实验，能保证实验的准确性和严肃性。

被试的选取：为保证实验的有效性，我们选取某普通高校外国语学院的126名大二的在校大学生，他们均具有至少7年左右英语教育经历，并已经通过英语专业的第一年学习，具备英语专业四级水平。

2.2 材料

所有测试的语言材料为具有行进错位的花园幽径句或对照句，句长和词汇难度系数控制在英语专业四级范围内。从多角度出发，我们将实验材料分为如下四类(引导词类错位、宾语辖域错位、嵌套错位、兼类错位)，具体如下：

(1) 引导词缺失导致的行进错位现象(引导词类错位)，如：

正确句： The cotton which clothing is usually made of grows in Mississippi.

花园幽径句： The cotton clothing is usually made of grows in Mississippi.

(2) 宾语辖域变化导致的行进错位现象(宾语辖域错位)，如：

正确句： Mary gave the child that the dog bit a cake.

花园幽径句： Mary gave the child the dog bit a cake.

(3) 主结构与嵌套结构变化导致的行进错位现象(嵌套错位)，如：

正确句： The boat floated down the river and sank.

花园幽径句： The boat floated down the river sank.

(4) 词的兼类结构导致的行进错位现象(兼类错位)，如：

正确句： The building blocks the sun shining on the house.

花园幽径句： The building blocks the sun shining on the house faded are red.

2.3 程序

实验过程中，被试需坐在距离电脑屏幕前的合适位置。由于实验采用的方法是限定反应时的测试方法(即要求被试在固定的反应时间内回答问题，超过反应时，问题将会从屏幕消失)，测试中，被试需要具有不间断连续回答100道英语测试题的能力和体力。整个实验过程通过Microsoft Power Point 设定的自动播放功能进行，刺激的呈现形式为深色背景上的浅色字体的英语句子。自动播放设定为间隔10秒的频率。每10个测试句为一个测试组。为减轻被试的视觉疲劳，每组间隔插入10秒的色彩变幻页作为缓解，并同时提醒被试10秒后开始新的测试组，直至最后测试结束。具体的测试程序如下：

让被试了解测试的过程，使其熟悉实验任务和程序。指导语为： “下面测试中有100个英语句子，每个句子都将在屏幕上保留10秒时间，请根据自己的理解选择： -1,0,+1，并将结果(限一项)勾画在方框内。10秒过后，页面将会翻转至下一句子，没有作答的题目将作为错误处理。每10个句子为一组，每组限时100秒，共计10组。”

示例如下：

例子1：当屏幕出现句子“The horse raced past the barn.”时，请根据自己的理解选择3个选项中的一个(此处是+1)，并在选中的选项前打勾

S A： Result： □-1;□0;√□+1.

例子2：当屏幕出现句子“The horse past the barn.”时，请根据自己的理解选择3个选项中的一个(此处是-1)，并在选中的选项前打勾。

S B： Result： √□-1;□0;□+1.

这两个句子使用了标度上的最高值和最低值, 请在适当的时候使用中间的值。“0”表示你无法确定句子是否可以接受。

完成所有句子的限时判断大约需要15-25分钟。

2.4 结果与讨论

花园幽径句分为宽式和严式两种*为了区分实验中出现的错位效应强度，我们把幽径句分为宽式和严式两种模式。：宽式花园幽径句在基于概率的系统中可以得到正确剖析，如“While the boy scratched the dog yawned loudly”；严式花园幽径句在系统中不能被成功剖析，如“While the boy scratched the big and hairy dog yawned loudly”。两者的区分便于我们深入分析自然语言理解过程中被试的认知反应。请见两种类型在Stanford Parser中的具体剖析：

Your query: While the boy scratched the dog yawned loudly.

Tagging: While/IN; the/DT; boy/NN; scratched/VBZ; the/DT; dog/NN; yawned/VBD; loudly/NNS; ./.

Parse

(ROOT

(SBAR (IN While)

(NP (DT the) (NN boy))

(VP (VBZ scratched))))

(NP (DT the) (NN dog))

(VP (VBD yawned)

(NP (NNS loudly)))

(. .)))

Universal dependencies:

mark(scratched-4, While-1); det(boy-3, the-2); nsubj(scratched-4, boy-3); advcl(yawned-7, scratched-4); det(dog-6, the-5); nsubj(yawned-7, dog-6); root(ROOT-0, yawned-7); dobj(yawned-7, loudly-8)

本例是宽式花园幽径句的代表。虽然字符串“scratched the dog”在剖析中由于缺少标点符号，具有被错位理解的可能，但是系统却能基本解码成功，尽管存在一些可以接受的不影响主体结构理解的剖析错误(scratched被错误标注为动词三单现在时VBZ，loudly被错误标注为复数名词NNS，yawned-7和loudly-8被错位的理解为直接宾语dobj的依存关系)。句法结构和依存关系基本符合规则。如果“big and hairy”作为“dog”修饰成分出现，该宽式花园幽径句将转变成严式，系统主体结构将无法正确解码。

Your query: While the boy scratched the big and hairy dog yawned loudly.

Tagging: While/IN; the/DT; boy/NN; scratched/VBZ; the/DT; big/JJ; and/CC; hairy/JJ; dog/NN; yawned/VBN;

loudly/VBZ; ./.

Parse

(ROOT

(SBAR (IN While)

(NP (DT the) (NN boy))

(VP (VBZ scratched)

(NP

(NP (DT the) (JJ big)

(CC and)

(JJ hairy) (NN dog))

(VP (VBN yawned))))))

(VP (VBZ loudly))

(. .)))

Universal dependencies:

mark(scratched-4, While-1); det(boy-3, the-2); nsubj(scratched-4, boy-3); csubj(loudly-11, scratched-4);

det(dog-9, the-5); amod(dog-9, big-6); cc(big-6, and-7); conj(big-6, hairy-8); dobj(scratched-4, dog-9)

acl(dog-9, yawned-10); root(ROOT-0, loudly-11)

本例是严式花园幽径句的代表。该句的句法和依存关系都出现了无法接受的剖析错误现象。首先，在词类标注中延续了先前的错误： scratched仍被错误标注为动词三单现在时VBZ，而loudly由原来的复数名词NNS错误转变为更无法接受的动词三单现在时VBZ标注。另外，yawned由原来正确的结构核心表示过去式的VBD错误地转变为表示动词修饰成分的过去分词标注VBN。依存关系更是混乱，如系统错误地认为核心关系是root(ROOT-0, loudly-11)。这些都证明系统对严式花园幽径句的主体分析是失败的。通过对花园幽径句的宽严式类型的区分可以使我们后续的语料测试分析更精准化。

通过126名学生对100个花园幽径句和对照句的理解，我们得到了被试在限定反应时状态下的理解测试结果。为了分析系统自动剖析状态下和二语习得者限时理解状态下的行进错位效应的理解偏误，我们选取系统不能成功剖析的严格意义的花园幽径句为分析域，讨论被试是否会出现与系统一样的行进错位反应，分析其产生错位的原因，以及根据统计学知识解读被试理解与错位类型之间的关系。

系统剖析器采用美国斯坦福大学的Stanford Parser。通过对1-100个测试样例逐一进行系统剖析，我们可以得到系统无法正确解读的严式花园幽径句。为了区分前面样例，我们把这些测试的具有行进错位的系统剖析例子以S(Sentence)开头并以1-100个测试样例的编号为代码。例如，在百句测试中，编号3的花园幽径句在系统剖析时具有行进错位效应，我们把这个英语句标记为S3。除了系统的错位剖析，每个句子的单样本卡方检验值也得到了计算。根据卡方值公式可知，卡方值本身是没有正负之分的，但是，为了便于我们清楚地表示句子在理解过程中的偏误倾向，我们把偏向测试句为错句的卡方值标注为负值，偏向正确句的卡方值为正值。例如，如果观察频数中认为样例不可接受的占主，则标注为负；认为样例可接受的居多，则标注为正；如果卡方值处在不显著的赋值区间，则同时标注为正和负两种状态。这样，我们就可以清楚地看出样句在测试中的偏向，即接受/不可接受/无法判定。具体句子编号和卡方值请见下表：

表1 严式花园幽径句错位效应卡方值表

续表

句子编号卡方值句子编号卡方值S37-ThecottonclothingisusuallymadeofgrowsinMississippi.+24.14S41-ThedogthatIhadreallylovedbones.+144.43S47-Thegirltoldthestorycried.-54.33S50-Thegovernmentplanstoraisetaxesweredefeated.-37.76S55-ItoldthegirlthecatscratchedBillwouldhelpher.+23.05S58-Themanwhistlingtunespianos.-15.57S68-Theolddogthefootstepsoftheyoung.-133.00S69-Theprimenumberfew.-112.05S71-Theprimepeoplenumberfew.-105.57S72-Theraftfloateddowntheriversank.+41.33S82-Thestatuestandsintheparkarerusty.+68.90S84-Thestonerocksduringtheearthquake.+61.71S87-Thetablerocksduringtheearthquake.+98.14S88-Theteachertoldthechildrentheghoststoryhadfrightenedthatitwasn’ttrue.+19S91-Thetomcatcurleduponthecushionseemedfriendly.+92.05S94-Thetoyrocksnearthechildquietly.+35.19S95-ThetycoonsoldtheoffshoreoiltractsforalotofmoneywantedtokillJR.+/-2.90S100-WhenFredeatsfoodgetsthrown.-63.05

如表所示，通过对系统自动剖析的结果分析，我们从100个样句中共得到30个严式花园幽径句。这些句子在斯坦福剖析器中都无法得到正确的解读。为便于统计分析，我们把这些句子按照卡方值由小到大进行排序，请见下表。

表2 严式花园幽径句卡方值排序表

表中可见，在p<.05，df=2，卡方检验临界值=5.99的情况下，满足-5.99≤X2≤+5.99条件的样例只有S95-The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR。这表明该严式花园幽径句在系统自动剖析中无法正确解读，而在126个被试的人工解码中，该句正确与否的测试不具有显著差异，认为该句错误(40.48%)/无法测定(29.37%)/正确(30.15%)的被试频数大体相当，未达到差异性卡方临界值。

在严式花园幽径句的卡方值列表中，共有9个标识为不可接受的句子，偏离度(绝对值)由大到小分别是S68，S69，S71，S100，S47，S50，S14，S58，S27。这说明，9个花园幽径句的人工理解与系统是一致的，均认为是不可接受。偏离度最大的S68-The old dog the footsteps of the young表明该句最让被试困惑，标识为不可接受的频数是最大的。被试测试中对该句的标识比为：错误(81.75%)/无法测定(7.94%)/正确(10.31%)。偏离度最小的S27-The building blocks the sun faded are red表明虽然具有显著差异的被试认为该句是不可接受的，但已经有相当数量的被试认为该句是可以接受。被试测试中对该句的标识比为：错误(41.27%)/无法测定(22.22%)/正确(36.51%)。

卡方值列表中除了9个不可接受的句子和1个不具有显著差异的句子外，还有20个严式花园幽径句被标识为可接受。这个人工解码结果与机器剖析产生了矛盾。换句话说，这20个句子在系统自动剖析中是错误的，但在126个被试中却得到了具有显著性差异的正确结论。这些花园幽径句在人工剖析中没有遇到解码困难，但系统却由于各种原因无法跨越解读。如果系统能够像被试一样跨越行进错位进行正确解读，系统的解码效率将极大提高。按照偏离度(绝对值)水平由小到大分别是S88，S9，S13，S55，S37，S8，S5，S26，S94，S36，S28，S72，S15，S11，S84，S82，S3，S91，S87，S41。

偏离度最小的S88-The teacher told the children the ghost story had frightened that it wasn’t true中，虽然多数被试在解码中认为该句可接受，但认为该句不可以接受或无法判定的被试频数增多，标识比为：错误(37.3%)/无法测定(15.87%)/正确(46.83%)。

偏离度最大的S41-The dog that I had really loved bones表明该句中被试认为可接受的频数是最大的，人工解码难度非常低而准确率却很高，尽管系统自动剖析中不能成功对S41解码。标识比为：错误(14.29%)/无法测定(2.38%)/正确(83.33%)。请见严式花园幽径句的卡方值对比图。

图1 严式花园幽径句卡方值对比图

上图显著性水平的卡方临界值是-5.99≤X2≤+5.99(p<.05，df=2)，可以得到三种人工与系统解码的对照结果： (1)居于此区间的S95系统解码为错误，但人工解码标识为无法判定。(2)居于临界值下方的9个句子在系统和人工解码方面结果一致，均认为无法解读。这说明9个花园幽径句无论在系统和人工解码中都经历了无法成功解读的行进错位。(3)居于临界值上方的20个花园幽径句出现了解码的不一致：系统无法解读但人工解码却能够跨越行进错位获得剖析成功。偏离度水平由最小S88到最大S41，认为可接受的被试频数不断增加，人工解码难度降低，与系统不可以解码的差异性增大。

在严式花园幽径句的剖析中，我们看到了三种不同的人机对照的解码结果，即系统解码失败的前提下，被试或解码成功，或解码失败，或无法判定。在宽式花园幽径句及对照句中，是否存在系统剖析与被试剖析的偏离？请见对70个宽式花园幽径句及对照句*对照句的选用遵循 “三降一低”原则(即降低认知困惑度；降低行进错位效应；降低解码时间；符合最低调整比率)。例如，我们可通过添加单个连词(标点，限定词等)的最简方法降低解码难度。的卡方值检验。

表3 宽式花园幽径句错位效应卡方值表

续表

句子编号卡方值句子编号卡方值S4-Fatthatpeopleeataccumulates.-15.57S54-Themanpushedthroughthedoorfell.-28.43S6-Iconvincedherthatchildrenarenoisy.94.33S56-Themanreturnedtohishousewashappy.-44.33S7-Iknowthatthewordstothatsongaboutthequeendon’trhyme.7.05S57-Themanwhowasreturnedtohishousewashappy.105.90S10-ItoldthegirlthecatscratchedthatBillwouldhelpher.51.57S59-Themanwhohuntsducksoutonweek-ends.-22.90S12-ItoldthegirlwhowasscratchedbythecatthatBillwouldhelpher.104.33S60-Themanwhoiswhistlingmelodiesplayspianos.142.05S16-Returnedtohishouse,themanwashap-py.68.90S61-Themanwhowhistlesallthetimetunespianosforaliving.94.33S17-Shetoldmealittlewhiteliewillcomebacktohauntme.7.00S62-Theman,whohuntsanimals,ducksoutonweekends.130.90S18-Shetoldmethatalittlewhiteliewillcomebacktohauntme.51.62S63-Themappinsarebrightred.107.76S19-Singleandmarriedsoldiersandtheirfami-liesarehousedinthecomplex.26.33S64-Themappinsontothewall.51.86S20-Thearmystandsonguard.148.62S65-Themenrunthroughthearchesandscreamed.112.00S21-Theauthorcomposedthenovelandwaslikelytobeabest-seller.89.14S66-Themenrunthroughthearchesscreamed.43.86S22-Theauthorwrotethatthenovelinques-tionwaslikelytobeabest-seller.39.62S67-Theolddogfollowsthefootstepsoftheyoung.120.57S23-Theauthorwrotethenovelwaslikelytobeabest-seller.41.48S70-Theprimenumberisforty.206.33S24-Thebiggestrockswerebytheseashore.34.43S73-Theraftthatwasfloateddowntheriversank.79.86S25-Theboatfloateddowntheriverquietly.170.14S74-Thesentrystandsaregreen.92.05S29-Thebuildingblocksthesunshiningonthehouse.32.57S75-Thesentrystandsonguard.160.33S30-Thebuildingblocksthesun.130.90S76-Theshotgunpinswererustyfromtherain.56.33S31-Thechestnutblocksarered.141.14S77-Thesignpinsontothewall.43.19S32-Thechestnutblocksthesink.33.48S78-Thesniperguardsthevictiminthewoods.39.19S33-Theclothing,whichismadeofcotton,growsinMississippi.79.86S79-Thesniperpinsthevictiminthewoods.43.76S34-Thecomplexhousesmarriedandsinglesoldiersandtheirfamilies.-24.57S80-Thesniperpinswererustyfromtherain.64.19S35-ThecottonclothingismadeinsunnyAla-bama.155.76S81-Thesourdrinkfromtheocean.-54.33S38-ThecottonthatclothingismadeofgrowsinMississippi.-21.33S83-Thestatuestandsinthepark.54.05

续表

句子编号卡方值句子编号卡方值S39-ThecottonthatclothingisusuallymadeofgrowsinMississippi.14.90S85-Thestonerockswerebytheseashore.+-24.14S40-ThedogthatIhadasapetreallylovedbones.113.71S86-Thestopperblocksthesink.67S42-Thedrinkthatwassourisfromtheocean.72.19S89-Theteachertoldthechildrentheghoststorythatsheknewwouldfrightenthem.72.33S43-ThefactthatJillisneverherehurtsme.63.00S90-Thetomcatcurleditselfuponthecushionandseemedfriendly.37.48S44-Thefatthatpeopleeataccumulates.-31.00S92-Thetomcatthatwascurleduponthecushionseemedfriendly.156.33S45-Thefatthatpeopleeataccumulatesintheirbodies.-22.62S93-Thetoyrocksnearthechildarepink.93.14S46-Thegirltoldthestoryandcried.120.33S96-Thetycoon,whowassoldtheoffshoreoiltractsforalotofmoney,wantedtokillJR.121.86S48-Thegirlwhowastoldthestorycried.118.71S97-Thewhistlingmantunespianos.110.05S49-Thegovernmentisplanningtoraisetaxes,whichwasdefeated.137.33S98-Untilthepolicearrestthedrugdealerscontrolthestreet.-52.76S51-Thegovernment’splanstoraisetaxesweredefeated.86.14S99-Untilthepolicemakethearrest,thedrugdealerscontrolthestreet.75.76

从上表可知，70个宽式花园幽径句的卡方值呈现不规则分布。卡方值本身没有正负，我们把认为可接受频数较多的样句卡方值标识为正，而将不可接受的频数较多的样句卡方值标识为负。为便于统计，我们将上表排序后形成下面的卡方值排序表：

表 4 宽式花园幽径句卡方值排序表

续表

NX2NX2NX2NX2S177S8354.05S57105.9S75160.33S77.05S7656.33S63107.76S25170.14S3914.9S4363S97110.05S52170.14S1926.33S8064.19S65112S70206.33S2932.57S8667S40113.71S3233.48S1668.9S48118.71

在上表的卡方值排序中，有11个句子被标识为不可接受，偏离度(绝对值)由大到小分别是S81，S98，S56，S44，S54，S34，S85，S59，S45，S38，S4。偏离度(绝对值)最大的S81-The sour drink from the ocean中，标识比为：错误(57.94%)/无法测定(4.76%)/正确(37.3%)。S81是我们用来进行认知解码对照的伪句，其核心结构是NP+PP。系统的自动剖析可以成功的将该结构剖析为NP+PP。从人工解码测试结果可以看出，具有显著性差异的大多数被试认为该结构是最不可以接受的。偏离度(绝对值)最小的S4-Fat that people eat accumulates中，标识比为：错误(46.83%)/无法测定(18.25%)/正确(34.92%)。这表明S4的解码中，认为该句无法测定/正确的被试频数增多，已经接近接受零假设的卡方值临界值。尽管如此，多数被试仍认为S4是不可接受的。行进错位效应在这11个句子中得到凸显。

卡方值排序中有1个句子(S1)处在卡方临界值5.99(p<.05，df=2)之下，接受零假设，即被试在判定S1是否可接受时表现出非显著性差异选择。标识比为：错误(30.95%)/无法测定(31.75%)/正确(37.3%)。

卡方值排序中有58个句子超过卡方临界值5.99。卡方值偏离度最小的是S17(卡方值为7)，最大的是S70(卡方值为206.33)。偏离度最小的S17-She told me a little white lie will come back to haunt me中，标识比为：错误(34.92%)/无法测定(23.02%)/正确(42.06%)。被试在S17人工解码中，卡方值接近临界值，即被试们对该句的理解出现较大分化，认为该句错误/无法测定/正确的频数趋于平衡。被试中标识该句为可以接受的频数居多，行进错位效应相对较小。偏离度最大的S70-The prime number is forty中，标识比为：错误(3.97%)/无法测定(2.38%)/正确(93.65%)。这说明人工解码中，该句是难度最小的，绝大多数被试认为该句符合认知，没有行进错位产生。

图2 宽式花园幽径句卡方值对比图

在宽式花园幽径句卡方值对比图中，低于卡方临界值5.99(p<.05，df=2)的句子是S1，接受被试对该句正确与否的解码零假设，即错误/无法测定/正确的分类中频数趋于平衡，解码不具有显著性差异。虽然人工解码接受了零假设，但系统自动剖析却能够成功解码。

其他69个句子的人工与系统解码对照结果如下： (1)居于临界值下方的11个句子在系统和人工解码方面结果不一致。系统能够对这些句子成功解码，但被试却显著性认为它们无法成功解读，行进错位效应形成。(2)居于临界值上方的58个句子的解读与系统一致，都认为这些句子符合语法且能够被系统或被试得到解读。行进错位效应未形成且不足以在解码中产生回溯。偏离度水平由最小S17到最大S70，被试可接受的频数相对集中，解码变得更加简单，与系统解读的一致性更加吻合。

从人机解码行进错位效应的交叉对照表中可以看出行进错位效应的层级性：应最为强烈的，属于I级错位强度，包括S68，S69，S71，S100，S47，S50，S14，S58，S27。系统和被试对这些花园幽径句的解码具有最高的困惑度，是典型的花园幽径效应。

(1) 人机解码均错误的9个句子是行进错位效

表5 人机解码行进错位效应的交叉对照表

(2) 系统解读错误但人工解码正确的20个句子，以及系统解读正确但人工解码错误的11个句子属于错位效应较为强烈的，属于II级错位错位强度。系统解读错误的标注为II-A，系统解读正确的标注为II-B。这些句子包括S88，S9，S13，S55，S37，S8，S5，S26，S94，S36，S28，S72，S15，S11，S84，S82，S3，S91，S87，S41(20个)和S81，S98，S56，S44，S54，S34，S85，S59，S45，S38，S4(11个)。系统和被试对这些句子的解码具有选择性困惑。

(3) 人工解码中无法测定的两例(S95和S1)属于接受零假设的非显著性差异的分类项。系统正确解读与否均未使被试在错误/无法测定/正确的选项中具有显著性的选择倾向。这些解码属于III级错位强度，解码困惑度较低。系统解读错误的标注为III-A，系统解读正确的标注为III-B。

(4) 人机解码均正确的58个句子不具有行进错位效应，或错位效应极低不足以产生解码困惑。属于IV级错位强度。这些句子通常被认为是与花园幽径句相对的普通句，解码符合语法规则和认知原型，随着偏离度由小变大，解码难度逐渐降低，标识为可接受的被试频数逐渐增加。

为更好地分析花园幽径句中行进错位效应的起因和解决方法，我们着重讨论前三个级别错位的句子，找寻它们之间存在的共性，推进对花园幽径行进错位效应的深入分析。

3 花园幽径句行进错位效应分析

从前面的分析可知，花园幽径句行进错位主要分四类：引导词类错位、宾语辖域错位、嵌套错位、兼类错位。请见与错位强度相关的缩略和分类标注表：

句子编号(Number)： N

卡方值(Chi-square)： C

错位强度(Breakdown Intensity)： BI

引导词类错位(Complementizer Breakdown)： CB

宾语辖域错位(Object Breakdown)： OB

嵌套错位(Embedded Breakdown)： EB

兼类错位(Multi-category Breakdown)： MB

表6 错位强度分类及频数分布表

表7 错位类别卡方值表

尽管42个严式花园幽径句的错位类别没有显著性差异，但I类强度，II-A类强度，II-B类强度以及III类强度的错位类别却有着各自不同的特点。对这些强度不同的错位类别的分析有助于揭示花园幽径的一些内在现象。

3.1 I类强度兼类错位效应分析

在强度最高的I类错位中，兼类错位频数为6，占66.67%。宾语辖域错位频数为2，占22.22%。嵌套错位频数为2，占11.11%。这说明无论是系统还是人工解码，兼类词的灵活使用往往会产生最强烈的错位效应。为了更好地理解兼类活用带来的解码错位，我们利用BNCweb语料库的语料分析产生兼类错位的这5个具有代表性的兼类词的错位效应。

S68-The olddogthe footsteps of the young

S69-The primenumberfew.

S71-The prime peoplenumberfew.

S50-The governmentplansto raise taxes were defeated.

S58-The man whistlingtunespianos.

S27-The buildingblocksthe sun faded are red.

表8 兼类词在BNCweb语料库中的频数对照表

表9 兼类词不同义项的卡方值表

续表

tuneCategoryObservedExpectedDeviation(O-E)2(O-E)2/Everb219768.50-549.50301950.25392.91noun1318768.50549.50301950.25392.91Total1537785.82blockCategoryObservedExpectedDeviation(O-E)2(O-E)2/Everb7572139.00-1382.001909924.00892.91noun35212139.001382.001909924.00892.91Total42781785.81

从上面两个表可以看出，兼类词的频数分布中卡方值均大于临界值，p<.05，因此拒绝零假设。

由此我们可以看出，在I类强度兼类错位效应分析中，超高频的名词义项使词类的划分呈现显著性差异。解码时，首先启动的是名词义项。行进错位效应发生后，回溯产生。如果超低频的动词义项能够替代名词义项进入解码程序，将获得成功。否则，解码失败。

3.2 II-A类强度嵌套错位效应分析

在II-A类强度错位效应的20个句子中，引导词类错位CB的频数是6，宾语辖域错位OB的频数是3，嵌套错位EB的频数是6，兼类错位MB的频数是5。下面我们讨论嵌套错位的效应分析：

II-A类强度错位是指系统解码困难但人工解码顺畅的句子。其中，具有嵌套错位的句子是6个，包括S9，S13，S26，S72，S15，S91。

S9-I told the girlthatthe cat that scratched Bill would help her.

S13-Mary gave the childthatthe dog bit a cake.

S26-The boatfloateddown the river sank.

S72-The raftfloateddown the river sank.

S15-Please have the studentswhofailed the exam take the supplementary.

S91-The tomcatcurledup on the cushion seemed friendly.

在句子S9中，系统的句法剖析产生了错位。由于结构tell+sb+CP结构的存在，系统认为该句形成的是tell+sb+(PP)+CP的结构，即认为that the cat作为PP结构存在，而动词scratched作为Bill的定语存在。这种分析方式完全割裂了句子本身内在的联系。系统这种剖析适用于“I told the girl on the bus that American Bill would help her”，而不适用于对S9的分析。系统的错误剖析结构如下：

(ROOT

(NP (PRP I))

(VP (VBD told)

(NP

(NP (DT the) (NN girl))

(PP (IN that)

(NP (DT the) (NN cat))))

(SBAR (IN that)

(NP (NNP scratched) (NNP Bill))

(VP (MD would)

(VP (VB help)

(NP (PRP her)))))))

(. .)))

上述错误剖析中，做出标记的部分是系统错位明显的部分。根据上面的分析，第一个that引导的是从句而不是作为PP结构出现，而且scratched作为嵌套结构中的动词出现而不是作为定语出现。如果把这两部分进行调整，可以得到正确的系统解码结构。具体如下：

(ROOT

(NP (PRP I))

(VP (VBD told)

(NP(DT the) (NN girl))

(SBAR (IN that)

(NP

(NP (DT the) (NN cat))

(SBAR

(WHNP(WDT that))

(VP (VBD scratched)

(NP (NNP Bill))))))

(VP (MD would)

(VP (VB help)

(NP (PRP her)))))))))

(. .)))

类似这种嵌套结构引发的句子还包括S13和S15。

在S13中，系统形成的是gave+the child+CP的错误结构。但正确的结构却是gave+the child+(CP)+a cake。这样，a cake由从句中的宾语位置提升为主句中的宾语，嵌套结构that the dog bit由标句词引导的主句宾语从句转变为修饰the child的定语从句。这种语法的转变对具有专业四级的被试来说可以接受，但系统在解码时却无法形成正确的句法生成式。

在S15中情况类似。系统生成的错误结构是have+the students+CP。系统默认the exam take the supplementary生成的是SBAR的从句结构。但是，在认知中正确的结构却是have+the students+(CP)+take the supplementary。从句who failed the exam应作为the students的定语存在。系统对嵌套结构的理解错位导致了剖析的失败。

上面三例的嵌套结构都与标句词引导的从句嵌套有关。下面三例则与过去式与过去分词的同形异义频数差异相关，最终导致非句成分的嵌套错位。

在S26和S72中的动词float，以及S91中的动词curl都具有过去式与过去分词同形的特点。请见基于BNCweb的频数测定：

表 10 floated与curled的同形频数分布

表 11 floated与curled的同形词卡方值表

从上表可见，同形词floated 和curled的分类卡方值分别是40.19和132.36。均大于临界值，所以拒绝零假设。这说明在语料库中动词过去式(VVD)和过去分词(VVN)的分类呈现显著性差异。频数较高的过去式具有解码的优先性。因此，在基于概率的剖析器中，系统默认的是首先启动动词的过去式而不是过去分词，这在系统解码中导致了行进错位效应的出现。请见系统错位状态下的错误剖析结果：

(ROOT

(NP (DT The) (NN boat))

(VP (VBD floated)

(PRT (RP down))

(SBAR

(NP (DT the) (NN river))

(VP (VBD sank)))))

(. .)))

(ROOT

(NP (DT The) (NN tomcat))

(VP (VBD curled)

(PRT (RP up))

(PP (IN on)

(NP

(NP (DT the) (NN cushion))

(VP (VBN seemed)

(ADJP (JJ friendly)))))))

(. .)))

从上面的剖析可以看出，系统均把高频的过去式选项作为句子的主要动词(标记部分)。实际上，这两个动词都是过去分词状态，充当的是非谓成分而不是谓语动词成分。调整后的正确句法结构如下：

(ROOT

(NP

(NP(DT The) (NN boat))

(VP (VBN floated)

(PRT (RP down))

(NP (DT the) (NN river))))

(VP (VBD sank))

(. .)))

(ROOT

(NP

(NP(DT The) (NN tomcat))

(VP (VBN curled)

(PRT (RP up))

(PP (IN on)

(NP (DT the) (NN cushion)))))

(VP (VBD seemed)

(ADJP (JJ friendly)))

(. .)))

3.3 II-B类强度宾语辖域错位效应分析

II-B类强度错位效应句共有11个。这些句子在人工解码中出现了错位现象，但在系统解读中没有困难。说明人机之间的解码程序具有一定的差异性。在错位分类频数中，引导词类错位CB是1个，宾语辖域错位OB是4个，嵌套错位EB是2个，兼类错位MB是4个。下面我们分析宾语辖域错位的S44，S59，S45，S4是如何产生错位效应的。

S44-The fat that peopleeataccumulates.

S59-The man whohuntsducks out on weekends.

S45-The fat that peopleeataccumulates in their bodies.

S4-Fat that peopleeataccumulates.

从上面的句子中我们可以看到，只要在people前添加标句词that，fat前有无限定词the以及accumulates后有无介词成分in their bodies均不会影响系统的正确解码。但这些却影响到了人工解码的变化。请见四个句子中人工解码的卡方值表：

表 12 S44人工解码的卡方检验

表 13 S59人工解码的卡方检验

表 14 S45人工解码的卡方检验

表 15 S4人工解码的卡方检验

从上面的卡方检验可见，持有反对意见，中立意见和赞成意见的被试频数呈现显著性差异。动词eat和hunt的及物动词和非及物动词的宾语辖域的更迭产生了错位效应。请见基于语料库的及物动词和非及物动词的频数对比(由于这两个动词不是出现在句尾，所以，语料库中“sorted on position +1 with tag-restriction any punctuation ”的频数不在统计之列)。

表 16 动词eat后续成分(+1)的及物与不及物频数统计表

如表所示，在BNCweb语料库中，我们采用sorted on position +1 with tag-restriction+verb/noun/adj/adv/article/conjunction/preposition/pronoun模式统计动词eat 在语料库中的及物与不及物频数。由此形成的卡方值表如下：

表 17 动词eat的及物与不及物分类的卡方值表

如表所示，动词eat的及物与不及物分类的卡方值为512.49，超过了临界值(p<.05，df=1)，拒绝零假设，及物与不及物分类具有显著性差异。这说明当eat后续有其他字符串出现的时候，高频结构eat-VT首先得到默认启动，直到系统无法成功解读时才会回溯并启动低频结构eat-VI。这种低频替代高频的模式更迭导致行进错位的产生。

与动词eat相似，动词hunt的及物与不及物的分类也呈现显著性差异。在BNCweb语料库中，我们得到Hunt的名词义项频数为2079，动词义项的频数为534。S59中hunt出现在引导词who的后面，根据语法可知，hunt的义项只能为动词。请见动词hunt的及物与不及物的具体频数分布(我们采用hunt+noun的模式进行统计)。

表 18 动词hunt的及物与不及物分类的卡方值表

由上表所示，X2=39.92(p<.05，df=1)，拒绝零假设。及物动词hunt频数具有显著性差异。如果原型特征的及物动词被非优选的非原型模式替代，行进错位效应便会产生。

在II-A和II-B两类错位效应分析中可见，前者人工解码没有困难但系统无法解读，后者则正好相反。虽然目前我们无法解释为什么有的低频结构在颠覆高频结构后可以被系统接受，而有的却只能被人工接受。但我们发现了两者均有的共同之处：行进错位效应的发生主要源自于低频非优选结构对高频优选结构的颠覆，但低频非优选结构对高频优选结构的颠覆却未必直接导致行进错位的发生，有时候错位发生在系统层面，有时候发生在人类认知方面。

3.4 结果再分析

本文讨论了花园幽径句的测试和结果分析。语言测试中被试选择的是普通高校外国语学院的126名大二的在校学生，他们具有英语专业四级水平。与之进行解码对照的是英国国家语料库，其语料均来自于母语是英语的话语者。程序采用限时反应方法，并将词汇限定在专业四级水平难度。

通过对100个英语花园幽径句和对照句的测试分析可知：在花园幽径句行进错位效应分析中，错位类别主要包括四类：引导词类错位、宾语辖域错位、嵌套错位、兼类错位。这些错位类型在42个花园幽径句中的分类卡方值为2.76，小于临界值7.82(p<.05，df=3)，接受零假设，错位类型在花园幽径句中呈现非显著性差异。

无论是系统解码还是人工解码，行进错位效应均具有层级性。总体说分成四个强度级别：

(1) I类强度是人机均出现的解码错位，强度最大。通过对I类强度中兼类词dog, number, plan, tune和block的分析可知，超高频的名词义项与低频的动词义项呈现显著性差异。解码初期，这种具有超高频的名词义项得到启动。行进错位效应发生后，认知被迫折返并启动低频的动词义项，产生了最强烈的认知过载现象。

(2) II-A和II-B是人机解码中出现的单向错位，前者是系统错位而人工解码顺畅，后者则是人工错位而系统解码顺畅。通过对S9，S13，S26，S72，S15，S91中的嵌套错位分析，我们发现II-A强度的错位与标句词引导的从句嵌套和同形异义频数差异导致的非句成分嵌套有关。II-B强度S44，S59，S45，S4中的宾语辖域错位源自于动词eat和hunt的及物动词和非及物动词的宾语辖域的更迭。这两类均出现了较强的错位效应。

(3) III类是在 “赞成/无法测定/反对”分类方面接受零假设的类型，意味着系统解读错误与否都无法影响被试对该类句子的解码，认为句子正确与否的被试频数呈现非显著性差异。

(4) IV类强度的样例是作为测试对照句出现的，系统和人工具有解码一致性和正确性，不出现错位或出现的错位未导致解码偏误。

4 结语

本文通过对中国学习者在英语花园幽径句理解过程中的错位效应强度分析，得出如下结论： (1)兼类错位频数最高，兼类活用带来解码错位并产生强烈的错位效应；(2)行进错位效应的产生与低频非优选结构和高频优选结构分布呈现非对称性；(3)错位效应必然源于低频对高频结构的更迭，但更迭却未必引发人机解码同时产生错位，人机不具有绝对共时性；(4)系统错位和人类认知错位不具有完全联动性。

[1] 冯志伟. 论歧义结构的潜在性[J]. 中文信息学报, 1995, 9 (04): 14-24.

[2] Bever T G. The cognitive basis for linguistic structures [A], In Hayes, J. R. (ed.). Cognition and the Development of Language. New York: John Wiley and Sons, 1970: 279-352.

[3] Lorsbach T C, Katz G A and Cupak A J. Developmental Differences in the Ability to Inhibit the Initial Misinterpretation of Garden Path Passages[J]. Journal of Experimental Child Psychology, 1998, 71(3): 275-296.

[4] Milne R. Predicting garden path sentences[J]. Cognitive Science, 1982(6): 349-373.

[5] Sturt P. Semantic re-interpretation and garden path recovery[J]. Cognition, 2007, 105: 477-488.

[6] Friederici A D, Steinhauer K, Mecklinger A et al. Working memory constraints on syntactic ambiguity resolution as revealed by electrical brain responses[J]. Biological psychology, 1998, 47(3): 193-221.

[7] Altmann G T, Garnham M A and Dennis Y. Avoiding the garden path: Eye movements in context[J]. Journal of Memory & Language, 1992, 31(92)： 685-712.

[8] Daneman M, Carpenter P A. Individual differences in working memory and reading[J]. Journal of Verbal Learning and Verbal Behavior, 1980, 19(4): 450-466.

[9] Karpicke J D et al. False memories are not surprising： The subjective experience of an associative memory illusion[J]. Journal of Memory and Language, 2008, 58(4)： 1065-1079.

[10] Crain S, Steedman M. On not being led up the garden path: the use of context by the psychological syntax processor[A]. in Dowty, D, et al (eds.). Natural Language Parsing: Psychological. Computational, and Theoretical Perspectives, Cambridge: Cambridge University Press, 1985: 320-358.

[11] Farmer T A, Anderson S E and Spivey M J. Gradiency and visual context in syntactic garden-paths[J]. Journal of Memory & Language, 2007, 57(4): 570-595.

[12] Foss D J, Jenkins C M. Some effects of context on the comprehension of ambiguous sentences[J]. Journal of Verbal Learning and Verbal Behavior, 1973, 12(5): 577-589.

[13] Malaia E, Wilbur R B, and Weber-Fox C. ERP evidence for telicity effects on syntactic processing in garden-path sentences[J]. Brain & Language, 2009, 108(3): 145-158.

[14] Bailey K G D, Ferreira F. Disfluencies affect the parsing of garden-path sentences[J]. Journal of Memory and Language, 2003, 49: 183-200.

[15] Maxfield N D, Lyon J M and Silliman E R. Disfluencies along the garden path: Brain electrophysiological evidence of disrupted sentence processing[J]. Brain and Language, 2009, 111: 86-100.

[16] Christianson K et al. Thematic roles assigned along the garden path linger[J]. Cognitive Psychology, 2001, 42: 368-407.

[17] Bornkessel I et al. Multi-dimensional contributions to garden path strength: dissociating phrase structure from case marking[J]. Journal of Memory and Language, 2004, 51: 495-522.

[18] Jin Y H. Semantic analysis of Chinese garden-path sentences[J]. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing (Sydney), 2006, 7: 33-39.

[19] Patson N D, Darowski E S, Moon N and Ferreira F. Lingering misinterpretations in garden-path sentences: Evidence from a paraphrasing task[J]. Journal of Experimental Psychology: Learning, Memory, and Cognition, Jan. 2009, 35: 280-285.

[20] Gibson E, Pearlmutter N J. Constraints on sentence comprehension[J]. Trends in cognitive sciences, 1998, 2(7): 262-268.

[21] Kaan E, Swaab T Y. Repair, revision, and complexity in syntactic analysis: An electrophysiological differentiation[J]. Journal of Cognitive Neuroscience, 2003, 15(1): 98-110.

[22] Kimball J. Seven principles of surface structure parsing in natural language[J]. Cognition, 1973, 2: 15-47.

[23] Lin C C, Bever T G. Garden path and the comprehension of head-final relative clauses[J]. Processing and producing head-final structures. Springer Netherlands, 2011: 277-297.

[24] Du J L, Yu P F. Machine learning from garden path sentences: Application of computational linguistics[J]. International Journal of Emerging Technologies in Learning, 2014, 9(6): 58-62.

[25] Kempen G. Computational models of syntactic processing in human language comprehension[A]. In: Dijkstra T & Smedt D K (Eds.), Computational Psycholinguistics: Symbolic and Subsymbolic Models of Language Processing. London: Taylor & Francis. 1996: 192-220.

[26] Patson N D, Ferreira F. Conceptual plural information is used to guide early parsing decisions: Evidence from garden-path sentences with reciprocal verbs[J]. Journal of Memory and Language, 2009, 60: 464-486.

[27] Roark B. Robust garden path parsing[J]. Natural Language Engineering, 2004, 10: 1-24.

[28] Lau E F, Ferreira F. Lingering effects of disfluent material on comprehension of garden path sentences[J]. Language and Cognitive Processes, 2005, 20: 633-666.

[29] Lee K S, Kageura K and Choi K S. Implicit ambiguity resolution using incremental clustering in cross-language information retrieval[J]. Information Processing and Management, 2004, 40: 145-159.

[30] Frazier L, Rayner K. Making and correcting errors during sentence comprehension: Eye movements in the analysis of structurally ambiguous sentences[J]. Cognitive Psychology, 1982, 14: 178-210.

[31] Choi Y, Trueswell J C. Children’s (in)ability to recover from garden paths in a verb-final language: Evidence for developing control in sentence processing[J]. Journal of Experimental Child Psychology, 2010, 106 (1): 41-61.

[32] Altmann G, Steedman M. Interaction with context during human sentence processing[J]. Cognition, 1988, 30: 191-238.

[33] Shooshtari Z G, Shahri S. Down the garden path: an effective kind of EFL grammar instruction[J]. Procedia-Social and Behavioral Sciences, 2014, (98)： 1777-1784.

[34] Gompel R P G et al. The activation of inappropriate analyses in garden-path sentences: Evidence from structural priming[J]. Journal of Memory and Language, 2006, 55: 335-362.

[35] Pritchett B L. Garden path phenomena and the grammatical basis of language processing[J]. Language, 1988, 64: 539-576.

[36] Slattery T J et al. Lingering misinterpretations of garden path sentences arise from competing syntactic representations[J]. Journal of Memory & Language, 2013, 69(2)： 104-120.

[37] 顾琦一, 程秀苹. 中国英语学习者的花园幽径句理解——与工作记忆容量和语言水平的相关研究[J]，现代外语, 2010, 3: 297-304.

[38] 杜家利, 于屏方. 花园幽径现象理解折返性的数据结构分析[J]，中文信息学报, 2015, 29(1): 28-37.

[39] 冯志伟. 花园幽径句的自动分析算法[J]，当代语言学, 2003, 04: 339-349.

[40] 蒋祖康. “花园路径现象”研究综述[J]，外语教学与研究, 2000, 04: 246-252.

[41] 张亚旭, 舒华, 张厚粲, 周晓林. 话语参照语境条件下汉语歧义短语的加工[J]，心理学报，2002, 34 (02): 126-134.

Towards Breakdown Effect Intensity of Garden Path Sentences Processing for Chinese English Learners: A Perspective of Computational Linguistics

DU Jiali1,2, YU Pingfang3

(1. Lexicographical Research Center, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510420；2. School of Foreign Studies, Nanjing University, Nanjing, Jiangsu 210093；3. Faculty of Chinese Language and Culture, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510420)

Based on a time-restricted experiment in which 126 English major sophomores are required to decode 100 garden path sentences and control sentences, this article investigates the breakdown effect produced by Chinese English learners in the garden path sentence processing, quantifying of the intensity of breakdown effect, and making a comparative study against an machine translation system with the Stanford parser. Garden path phenomenon is a conscious and controlled behavior. The encoding and decoding reflect the phenomena of both processing breakdown and cognitive overload, as well as the complex psychological cognitive activities of human beings. The experiment proves that breakdown effects appear asymmetrically, with a top frequency and intensity occurred in the multi-category breakdown in contrast to the complementizer breakdown, object breakdown, embedded breakdown and multi-category breakdown. In the human computer comparative study, the machine’s program decoding and the learners’ cognitive decoding are not proved completely resonant or absolutely co-occurent.

computational linguistics; garden path sentence; processing breakdown; cognitive overload; Stanford Parser