商标混淆的科学测度*——调查实验方法在司法中的运用<br/>

商标混淆的科学测度*——调查实验方法在司法中的运用

2013-01-22谢晓尧陈贤凯

中山大学学报(社会科学版) 2013年5期

谢晓尧，陈贤凯

商标的法律保护旨在维护商业标识的特定指向性，确保消费者就符号与特定商品之间的惟一联系。反混淆是传统商标法最为核心的任务，“混淆可能性”是商标侵权的构成要件①J. Thomas McCarthy. 4 McCarthy on Trademarks and Unfair Competition，§ 23：1 (4thed. 2012) ，available at： Westlaw Database.。然而，混淆与否，混淆的可能性有多大，是一种主观认知，深藏于每个消费者心中，因人而异，因时而变，难以用统一的事前标准进行衡量和检验。为了解决商标混淆的测度问题，自上世纪60 年代，消费者调查实验开始在司法中运用。它通过不同方式的问卷调查获取消费者心理认知的客观状况，日益成为一种重要的证明方式。维斯(Weiss)先生曾预测到，问卷调查证据将像洋快餐和恐怖片等美国产品一样，风行于世界的各个角落②Peter Weiss. The Use of Survey Evidence in Trademark Litigation： Science，Art or Confidence Game，80 Trademark Rep. 71 (1990) .。在我国，消费者调查开始引起学界关注③杜颖：《商标纠纷中的消费者问卷调查证据》，《环球法律评论》2008 年第1 期；金海军：《调查统计方法在商标诉讼案件中的应用》，《知识产权》2011 年第6 期。，司法中亦有初步实践，有法院将其作为断案的“辅助方法”①三星指甲钳厂与海金五金制品公司案( 广东省高级人民法院(2006) 粤高法民三终字第454 号) 。，重视其“接近事实真相”的功能②在大鹏公司诉京益康润公司案中，法院指出：“民意测验的结果虽然不能将现实生活中的情况全部再现，但在不可能做到完全重现时，民意测验至少能尽可能地接近事实的真相。”( 廊坊市中级人民法院(2008) 廊民三初字第3 号);有法院甚至对其做出初步指引③河南省高级人民法院《关于审理涉及驰名商标认定案件若干问题的指导意见》。。但整体上，调查证据在我国运用不足，根据我们对广东省人民法院知识产权庭审判人员的一项调查结果，大部分法官表示仅“偶尔使用”或根本“没有”使用此类证据④2013 年2 月，笔者对广东省高院、广州市中院、佛山市中院、东莞市中院、珠海市中院、越秀区法院、天河区法院、南海区法院、禅城区法院、顺德区法院、三水区法院等11 个法院知识产权庭的法官进行了问卷调查，共回收调查问卷68份。针对“在您所经历的商标案件审判业务中，当事人及其代理律师提交调查报告来支持其观点的做法是否普遍?”回答“普遍”的为0，“较为普遍”的为2 人，“偶尔使用”的28 人，“没有”的38 人。据学者统计，截至2010 年1 月，在 4237 份侵犯商标权的裁判文书中，仅有49 份涉及问卷调查证据( 张爱国：《商标消费者调查的正当性研究：从49 份商标侵权纠纷民事判决书谈起》，《知识产权》2011 年第2 期) 。。本文拟对消费者调查实验方法在测度商标混淆中的运行机理进行分析。

一、消费者调查实验方法的兴起

(一)主观认知的证明方式

判断消费者的混淆可能性，大致有三种方式:(1)对系争商标及其市场背景进行比较;(2)提供实际混淆的证据;(3)提供调查证据。调查证据在司法中的地位及其广泛运用，与前面两种手段的局限性相关。

第一种测度手段是传统的证明方式，法官借助“多因素认定法”(Multi-factor Test)，分析争议商标的显著性、商品的类似性、商标的近似程度、销售渠道、消费者的注意力、被告主观恶意等多种因素，推测市场上为数众多的消费者心理认知状态。其缺陷在于:系争商标在音、形、义上的相似性固然是导致消费者混淆的重要因素，但通过考察相似性来认定混淆，实际上是以法官的个人感受代替消费者的认知，甚至是法官对消费者心理的主观猜测，法官极容易将自己的感受不恰当地延伸到消费者的群体范围⑤Michael Rappeport. Litigation Surveys-Social“Science”As Evidence，92 Trademark Rep. 957 (2002) .。

第二种方式看似为最佳的证明程式，但是，高昂的成本足以阻遏其运用，因为它需要相关消费者出庭作证⑥在Life Savers Corporation v. Curtiss Candy Co.案中，原告从近80 个城市中找来一大群证人证明他们曾希望购买原告的薄荷糖因混淆而误购了被告的(87 F. Supp. 16. ( N. D. Ill.，Eastern Division 1949) ) 。。由此引发另一个问题:公正性分歧巨大。由于原告不可能选择那些对己不利的证人，被告极可能请来数量相等的消费者证明相反的主张。法官如要审查为数众多的消费者证言，过程繁琐，耗费大量司法资源和其他社会成本。

消费者调查是混淆测度的一种替代手段，被誉为“证明消费者心理联想的更为科学的方法”⑦J. T. McCarthy. 6 McCarthy on Trademarks and Unfair Competition，§ 32：158(4th ed. 2011) .。其具体做法是:由当事人委托调查专家，通过精心策划和实施调查，获得具有代表性的样本数据，具体推算出相关消费者对商标的认知情况，做出调查报告，论证其科学性与可靠性。与其他证明方式比较，调查证据被认为是更为直接的证明方式⑧Charles Jacquin et Cie，Inc. v. Destileria Serralles，Inc.，921 F. 2d 467，(3rd Cir. 1990) . Brunswick Corp. v.Spinit Reel Co.，832 F. 2d 513 (10th Cir. 1987) .，在客观性与代表性方面更具优势，效率更高，可操作性更强⑨S. S. Diamond.Reference Guide on Survey Research. in Federal Judicial Centre，Reference Manual on Scientific Evidence，2nd edition，2000，p. 229.。从20 世纪60 年代开始，调查证据成为证明消费者混淆的常规手段。在美国，有些法院甚至对没有提供调查证据的一方做出不利裁决——如果该方本来有能力、有条件提供调查证据的话①在 Mushroom Makers，Inc. v. R. G. Barry Corporation 案中，法官拒绝给予原告禁令救济，因为原告是实力雄厚的大公司，它本可以实施一项调查来证明混淆存在，却没有这么做(441 F. Supp. 1220 ( S.D.N.Y. 1977) .) 。。尽管不少法院谨慎地强调:不是所有案件都要求当事人提交调查证据，但越来越多的法官意见(opinions)倾向于依赖调查证据来支持他们的裁决②Jacobs 的实证研究指出，在提交调查证据的51 个案件中，法院接纳调查证据的案件高达35 个( Survey Evidence in Trademark and Unfair Competition Litigation. 6 ALI-ABA Course Materals 97(1982) ) 。。依据案件的不同性质，不同案件所倚重的证据形式是不同的，但可以肯定的是，消费者调查证据已成为论证混淆可能性的一种重要方式。在我国，也有法院认识到消费者调查的重要性，在颐中烟草公司诉联智公司一案中③青岛市中级人民法院(2004) 青民三初字第304 号。，法院指出:“……商标是否被相关公众广为知晓属于一种客观存在，仅依赖个别部门的主观评价难以达到客观公正的效果，人民法院应采取能相对客观的方法对相关公众心理认知程度进行判断……而委托社会调查机构进行随机抽样调查的方法能够相对客观地反映商标在相关公众中的知晓程度。”

(二)调查报告的证据地位

在我国，消费者调查被视为效力较弱的证据④在68 份问卷中，针对“与其他证据相比，消费者调查证据的证明力是否更大?”4 人选择“更大”，50 人选“较弱”，13 人选“相同”，1 人选“不能一概而论”。。这一观点在20 世纪60 年代以前的美国同样盛行。疑虑集中在两方面:在性质上是否构成传闻证据⑤我国法官对该问题倾向于采取实用主义态度。68 份问卷中，2 人认为“必须严格排除，不能作为定案依据”；7人认为“商标纠纷涉及消费者广泛，对消费者主观认知的测度较为困难，有必要采信这项传闻证据”；12 人认为“商标调查报告具有统计学上的科学依据，应当承认这项传闻证据的可靠性”；55 人认为“综合考虑本案其他证据后，可以采信商标调查报告”；1 人未作答。?调查技术是否可靠?一些法院就此拒绝商标调查证据的应用⑥这方面的文献非常多，可参看：Hanz Zeisel.The Uniqueness of Survey Evidence. 45 Cornell L.Q. (1960) ，p. 322.S. S. Diamond.Reference Guide on Survey Research. in Federal Judicial Centre，Reference Manual on Scientific Evidence，2nd edition，2000，p. 227.。“传闻”是指证人在庭审过程之外做出的证明案件事实的陈述，由于证人没有亲自到庭接受交叉询问，其真实性和可靠性存在疑问，程序法上应予以排除。在消费者调查过程中，调查人员以笔录的形式记录下消费者的陈述，这种“转录”是传闻证据;而调查专家以此“转录”为基础做出结论并出庭作证，专家证言实际上是“多重传闻”(multiple hearsay)。如果传闻证据不可信，那么多重传闻就更不可信。

1963 年的Zippo 诉Rogers 案“事实上终结了传闻证据规则对在商标案件中引入调查证据的反对”。该案中，费因伯格(Feinberg)法官提供了两条可选择的准入调查证据的理由:第一，消费者调查不是传闻证据，因为它们不是“为了证明所陈述的内容是事实”而做出的;第二，即使消费者调查是传闻证据，也应当列入《联邦证据规则》第803 条所规定的表达“当场的感觉和印象”的例外情形⑦Zippo Manufacturing Company v. Rogers Imports，Inc.。此后，法院基本上都援引这些理由来准入消费者调查证据。1975 年的《联邦证据规则》第703 条进一步以成文法形式排除了调查证据的传闻性质(hearsay nature)。该条规定，如果专家的意见或推论合理依赖于某些事实或数据，那么即使这些事实或数据本身是不可准入的(如传闻证据)，也不影响专家意见的可准入性。

技术可靠性是调查证据进入我国司法的主要障碍⑧68 份问卷中，针对“您对商标调查报告可靠性最大的顾虑是( 只选一项) ”，11 人选择“调查机构或专家缺乏足够的权威性和公正性”；17 人选“一个只有数千人甚至只有数百人的样本难以推算出适用于全国所有消费者的结论，对调查报告的科学性怀疑”；5 人选“调查实验的设计不科学，样本不具有代表性”；11 人选“调查人员是否遵循科学的调查规范难以核实”；4 人选“是否准确处理和运用调查数据难以核实”；9 人选“对同一问题的不同调查报告有可能结论截然相反”；5 人选“审查调查证据的实体内容，超出了法官的能力”；7 人弃选。可见法官的担忧是多方面的。，类似的困扰在美国同样存在:一个数千人甚至数百人的样本能够推算出适用于全国所有消费者的结论吗?调查统计证据走入司法，恰是其科学性决定的。富有戏剧性的是，对这一证据方式科学性的认同恰是从对其怀疑与不信任开始的。在Sears，Roebuck 诉Inglewood 市一案中，法院对抽样调查采取的怀疑态度迫使原告对所有调查总体进行普查，最终证明抽样推算的结果与普查结果高度接近①Inglewood 市某些营业税只向本镇居民征收。商场因错误计算了该镇的范围而使Sears 多交了该项营业税，Sears要求退还这部分税款。为支持其诉讼请求，Sears 在286 个销售日中抽取了一个样本量为33 的随机样本，计算得到多交的税款约为28250 美元，正负误差1150 美元。法官对抽样方法持怀疑态度，坚持原告审计全部95 万张销售小票。审计结果是26750.22 美元。该案成为抽样推算与普查结果进行比对的经典案例，它说服了心存疑虑的法官们接受科学抽样方法。Sears，Roebuck ＆ Co. v. City of Inglewood，described in R. Sprowls，The Admissibility of Sample Data into a Court of Law： A Case History，4 UCLA L. Rev. 222 (1956—1957) .。该案成为法院开始接受抽样调查证据的转捩点。20世纪50 年代以来，社会学、统计学等相关学科的发展为市场与公众调查提供了更为科学的方法，其结果日趋精确。调查在政治选举和企业市场决策中得到广泛应用。在这一背景下，法院逐渐对调查证据采取一种更为宽容的态度，认为调查证据在技术上的缺陷只影响其证明力大小，而不影响其可准入性②在 Prudential Ins. Co. v. Gibraltar Fin. Corp.案中，法院判决道：“技术上的不可靠性影响的是调查的证明力大小，而不是它的可准入性。”(694 F.2d 1150，1156 (9th Cir. 1982) .)。调查证据在商标案件中的准入问题基本得到解决。

当然，允许调查证据进入法庭并不意味着所有调查证据都具有相同的证明力。在商标司法实践中，法院关心的问题主要包括:调查对象的选择是否正确;调查实验的流程是否科学;调查结论是否具有说服力③美国联邦司法中心1981 年的《复杂诉讼手册》规定如下考察因素：(1) 检验了恰当的总体；(2) 从该总体中选取了有代表性的样本；(3) 询问被访者的问题模式是正确的；(4) 实施调查的人是公认的专家；(5) 准确报告收集到的数据；(6) 样本设计、问卷及调查过程符合公认的程序标准和统计学标准。。

二、混淆的认知主体:调查总体与抽样样本

开展问卷调查首先必须科学确定调查的对象，统计学上称之为调查总体(universe)④J. T. McCarthy. 6 McCarthy on Trademarks and Unfair Competition，§ 32：159 (4th ed. 2011) .。否则，不管调查问卷设计得多么精巧，由于被调查的人群实际上与需要解决的问题没有直接关系，所得的结论必然风牛马不相及。由于潜在的消费者难以计数，即使确定了调查总体，也不可能逐一调查。为此，还必须采用一定的抽样方法，从总体中抽取具有代表性的样本进行调查。在我国司法实践中，如何确定调查总体和样本通常是双方当事人争议的焦点话题⑤在安海斯—布希公司诉国家商标评审委员会一案中，安海斯—布希公司委托的调查机构在北京市、上海市、广州市三地对900 名被访问者进行了问卷调查，第三人布维斯布德伟公司认为，该调查“样本量小”，商标评审委员会也认为：“调查对象数量较少”，法院则以“其调查在问题的设置上亦仅体现了安海斯—布希公司的意志”，驳回了安海斯—布希公司的请求( 北京市高级人民法院(2006) 高行终字第367 号行政判决书) 。还可参见丰谷酒业公司与新丰酒业公司案( 四川省高级人民法院 (2009) 川民终字第371 号) 。。

(一)调查总体的范围

1.按照不同的混淆种类确定总体

在正向混淆(forward confusion)案件中，恰当的调查总体是侵权人的所有潜在消费者;在反向混淆(reverse confusion)案件中则应当是权利人的所有潜在消费者。原因在于:(1)在正向混淆中，权利人的商标知名度较高，侵权人使用系争商标的目的在于不当借用商标的良好声誉。因此，只有当侵权人的潜在消费者对商品来源发生混淆，才足以证明搭便车行为的存在，这一消费群体的心理状态与该案有直接关系。如果把总体界定为权利人的潜在消费者，由于这些消费者对权利人的商品及其商标更为熟悉，更可能认为系争商标是指向权利人的来源标记，这种不当的界定人为地提高了混淆率，导致结果的偏差。(2)在反向混淆中，权利人的商标知名度一般较低，而侵权人商标的知名度反而很高，人们常常误以为权利人是侵权人的附属机构或有赞助、关联关系，甚至误认为权利人侵犯了侵权人的商标权。此时，需要证明的实际上是权利人的潜在消费者是否对商品的来源发生混淆，因此，恰当的总体是权利人的所有潜在消费者。

2.根据商品的属性确定总体

在审查总体问题时，还必须考虑以下因素:(1)地域范围。某些商品具有一定的地域性，应当选取权利人、侵权人均有营业活动的地域内的消费者作为调查总体。如果调查在仅一方有营业活动的地域进行，那么该方的商标知名度将被人为提高，混淆率受到扭曲①在 Amstar Corp. v. Domino’s Pizza，Inc.案中，法院批评原告“调查的10 个城市中，8 个没有‘Domino’s Pizza’商店，余下两个城市中的商店才开了不到3 个月”，这种情况下，当被访者看到印有“Domino’s Pizza”的盒子时，当然更可能想到已经在这些城市中长期存在的Domino 糖类产品，混淆率被人为地提高了(615 F.2d 252 (5th Cir.，1980) ) 。。(2)年龄。某些商品的目标市场是特定年龄层的顾客，确定将哪个年龄段的消费者纳入调查总体将影响混淆比率的高低。如果调查没有选择恰当的年龄群体作为总体，那么在证明混淆的问题上，该调查是毫无价值的②Juicy Couture，Inc. v. L’Oreal USA，Inc.(2006 U.S. Dist. LEXIS 20787 ( S.D.N.Y.，2006) )。不过，当商品的目标顾客是儿童时，法院一般认为，恰当的调查总体应是这些目标顾客的父母，而非作为目标顾客的儿童。显然，父母才是真正做出购买决定的消费者③Tyco Industries，Inc v. Lego Systems，Inc.(5 U.S.P.Q.2D ( BNA) 1023 ( D.N.J.1987) )。(3)性别。如果商品的潜在消费者明确指向一个性别群体，那么调查总体应该是该性别群体的成员④在波马公司与农工商超市一案中，农工商超市对波马公司委托调查的一个质疑是：“被控侵权产品是男式运动鞋，被调查者却主要是女性，不符合‘相关公众’要求。”( 上海市高级人民法院(2009) 沪高民三( 知) 终字第70 号)。生活经验表明，男性消费者往往对某些女性产品不甚熟悉，因而可能对同类商品的不同商标产生混淆。比如大多数男性对化妆品品牌不甚了解，对不同商标之间是否存在附属关系或侵权关系无法做出准确的判断，而女性消费者却没有这方面的困扰。

3.调查总体的主体范围

一般情况下，调查总体应是权利人或者侵权人的潜在消费者。但在混淆调查中，有些法院判决销售者也可以被纳入调查总体中，其理由是:连作为“行家”的销售者都发生混淆，缺乏经验的普通消费者就更可能发生混淆了。这方面的经典案例是LTS 公司诉PAF 公司案。该案中，原告生产的一款LTS—619卤素灯与被告生产的Dove 灯外形设计非常近似，它起诉PFA，希望确认自己的行为不侵权。被告专家让调查人员伪装成消费者，到灯具店向销售人员出示LTS—619 的广告图片，表示自己想要购买这款台灯。结果，在118 次“购买”中有29 名销售人员错将Dove 灯拿给了“顾客”。法院认为这一比率足以证明混淆的存在⑤Lon Tai Shing Co.，LTD.，v. Koch Lowy and PAF S.r.l.，1990 U.S. Dist. LEXIS 19123 ( S.D.N.Y.，1990) .。

从整体趋势上看，美国法院正在不断扩大混淆的主体范围，以此延伸对商标权的保护⑥杜颖：《商标纠纷中的消费者问卷调查证据》，《环球法律评论》2008 年第1 期。。调查证据中的总体也应相应扩大。有论者认为，恰当的调查总体不仅应包括实际购买者，还应当扩大到非购买者，包括商品的使用者、投资者、批发商、零售商甚至毫无直接联系的观察者⑦S. Upadhye.Trademark Surveys： Identifying the Relevant Universe of Confused Consumers.8 Fordham Intell. Prop.Media ＆ Ent. L. J. 549 (1998) .。这种扩张似乎走到另一个极端。但联邦司法中心确曾指出:范围过宽的总体是可以补救的，只要专家提供整个调查过程的更为详细的信息，法院即可据此做出进一步分析;而如果总体定义过窄则回天乏力，因为没有任何方式可以获得那部分未被调查的人群的心理反应⑧S. S. Diamond.Reference Guide on Survey Research. in Federal Judicial Centre，Reference Manual on Scientific Evidence，2nd edition，2000，p. 237.。

(二)抽样方法的选择

一般认为，采用概率抽样方法所得到的样本是最具代表性的，其结论可以较准确地推广适用于整个总体，并且可以计算出置信区间(confidence interval)，以描述调查结果的可靠性①Shari S. Diamond.Reference Guide on Survey Research. in Federal Judicial Centre，Reference Manual on Scientific Evidence，2nd edition，2000，p.238.。概率抽样是指在抽样时总体中的每个个体都有已知的、非零的被选中概率②Michael Rappeport. Litigation Surveys-Social“Science”As Evidence，92 Trademark Rep. 957 (2002) .。

但是，消费者问卷调查的对象毕竟是活生生的人，当调查专家根据概率抽样方法从总体中选取了样本名单后，他们可能发现，名单上的某些被访者要么拒绝接受访问，要么无法取得联系。因此，在现实生活中，概率抽样方法很难应用于问卷调查。于是，在有关消费者混淆的问卷调查中，一般只能采用非概率抽样方法，最典型的方式即购物中心截访。在这样的访问中，被访者不是在一个总体的名单中依照已知的、非零的概率被挑选出来的，所以通过这样的样本所得到的结论并不能精确地推广到整个总体。

法院接受非概率样本的理由是:在商业实践中，97%的面谈式市场调查都采取非概率抽样方法;在社会学与行为科学中，95%的实证研究文献也建立在非概率抽样的基础之上③Jacoby ＆ Handlin.Nonprobability Sampling Designs for Litigation Surveys，81 Trademark Rep. 169 (1991) .。同时，法院也要求当事人采取一定的措施来提高样本的代表性。比如，在购物中心截访时，当事人可以通过随机选择调查地点来提高样本的代表性。一个不成文的经验法则是:为了使抽样结果能够准确地推广到范围更大的总体中，至少应随机选择4 个不同的地点进行调查④Jacoby.Survey ＆ Field Experimental Evidence. in Kassin ＆ Wrightsman，The Psychology of Evidence and Trial Procedure (1985) ，p. 184.。另外，在调查的时间上也可以进行适当的安排，比如在同一天的不同时段或在一周内的不同时间进行调查。这些手段一定程度上提高了样本的代表性，但是非概率抽样所得到的结论仍然不能无偏差地推广到整个调查总体，也无法通过统计学的方法计算出样本结果的可靠性。它只能提供一个大致的参数，供法院进行参考和分析。

三、混淆的验证:调查实验的展开

(一)恰当刺激物的选择

在调查过程中，调查人员须使用权利人或侵权人的商品、商标等作为刺激物，以测度消费者对这些标识的心理反应。刺激物的不同选择将对消费者的反应产生巨大影响，法院对刺激物的选择有严格的要求。

为了使调查实验更加逼近消费者购物时的真实状态，调查人员应向被访者展示他们在市场上可能遇到的、真实的涉案商品或其图像。在Agnes Trouble 诉Wet Seal 案中，麦里罗(Marrero)法官总结道:“一般而言，在商标侵权调查中应使用刺激物，比如能够使潜在消费者直接接触到涉案商品或标识的图片、广告或者包装。”⑤179 F. Supp. 2d 291 ( S.D.N.Y.，2001) .当此后的案件涉及刺激物问题时，这段评论经常被法官们引述⑥在We Media v. General Electric 案中，法官指出该调查“没有使用潜在消费者在作出电视节目收看决定时会接触到的图片或广告。因此，原告专家向被访者提供的仅仅是一串单词列表，实际上测试的是被访者在没有背景的情况下对单词的联想”(218 F. Supp. 2d 463 ( S.D.N.Y.2002) ) 。。

当当事人选择以涉案商品本身作为刺激物时，法院强调不能为调查目的而故意改动商品原来的样式。在Vista Food Exchange 诉Vistar 案中，原告为了证明被告的“Vistar/VSA”商标与自己的“Vista Food Exchange，Inc.”商标发生混淆而进行了一项消费者调查。原告专家向被访者展示一本8 页的宣传册，其封面、封底都印有显著的原告的商标。宣传册内有43 处用到“Vista”这个单词。原告专家问被访者:“您认为这一宣传册是哪个公司推出的?”并提供了10 个公司名称供被访者选择。结果52%的被访者误认为该宣传册是被告推出的。法官批评道:“向被访者展示的宣传册并没有模拟‘真实的市场环境’。宣传册中只有2 次正确展示了原告的商标，即封面和封底。而在册子中的45 处提及‘Vista’的地方，都没有‘Food Exchange，Inc.’及原告的旗帜标识……被告的商标也不是像它在商业活动中那样被展示的……因此，由于调查将人们的注意力引到‘Vista’和‘Vistar’这两个单独的词语上，它无法模拟真实的市场环境，而是有意引导被访者发生混淆。”①Vista Food Exchange，Inc. v. Vistar Corporation，2005 U.S. Dist. LEXIS 42541 ( E.D.N.Y.，2005) .在 American Footwear Corp. v. General Footwear Co.案中，原告的调查人员向被访者展示了其产品海报。这一海报是被改动过的，在众多展会上展示的原版海报上应该有指明American Footwear 是销售商的标识，但这一标识在刺激物中被移除。法院认为这一刺激物是不恰当的(609 F. 2d 655 (2nd Cir. 1979) ) 。在我国，调查访问中刺激物的恰当性也已受到关注，在波马股份公司与农工商超市一案中，法院拒绝了波马股份公司提交的调查报告，理由包括:“调查纯粹以书面比对、问卷回答的方式进行，而非购物情景或模拟购物情景下对商品的实际比对”，“调查问卷在对两者进行比对时的参照物是运动鞋的照片而非运动鞋实物”②上海市高级人民法院(2009) 沪高民三( 知) 终字第70 号。类似的案件可参见株式会社普利司通诉国家商标评审委员会( 北京市第一中级人民法院(2010) 一中知行初字第1908 号) 。。

法院之所以如此强调应使用消费者在市场上真正可能遇到的、未加改动的商品原物或其整体图片，其道理在于:“一个商品的某些方面也许会与另一个商品相似。但这种相似性可能被其他显著的差别所抵消。调查中不能简单地把这些差别因素移除来获得调查者想要的结果。一个真正侵权的商品是能够在真实的市场环境中诱发混淆的商品，这就意味着它与其他商品的相似程度高到没有任何其他因素足以将之抵消。”③Irina D. Manta.In Search of Validity： A New Model for the Content and Procedural Treatment of Trademark Infringement Surveys，24 Cardozo Arts ＆ Ent L.J. (02) (2007) .

(二)调查行为的准则

调查人员在调查过程中的行为是否规范，调查实验的设计是否合理，都将影响调查的最终结果。在调查实施的过程中，只有调查人员具备一定的调查能力，并严格遵守科学的调查程序，才能保证调查结果的可靠性，否则调查设计上的所有努力都将付之东流。因此，法院非常重视审查调查人员的行为规范，如果调查人员严重违反调查的行为准则，调查报告将被排除适用④在Toys R Us，Inc. v. Canarsie Kiddie Shop，Inc.案中，法院因原告的调查人员严重违反科学的调查规范而排除调查证据的适用(559 F. Supp. 1189 ( E.D.N.Y. 1983) ) 。。为了保证调查人员行为的规范性，司法中的一般要求是:

其一，调查人员必须接受足够的技术训练。美国联邦司法中心建议，为了保证调查人员能够恰当地理解和遵守调查问卷中的指示，作为新手的调查人员至少必须接受5 个小时以上的技能训练，以学习和掌握访问社会调查的一般技巧⑤S. S. Diamond.Reference Guide on Survey Research. in Federal Judicial Centre，Reference Manual on Scientific Evidence，2nd edition，2000，p. 257.。

其二，调查必须严格遵守“双盲规则”(double-blind protocol)，即调查人员和被访者都不能知晓调查的目的或谁赞助了此项调查。之所以要坚持双盲规则，是因为很难保证调查人员在调查的过程中能够完美地控制自己的肢体语言和任何非语言的暗示。如果调查人员知晓调查的目的，他很可能在无意间向被访者透露哪些回答才是该调查想要得到的“正确”答案。在Toys R Us 诉Canarsie Kiddie Shop 案中，调查人员被告知不能在原告公司所在的街区进行调查，这实际上变相地暗示调查与该公司存在某种联系。更致命的是，有调查人员承认，在介绍调查规程的简报会上，有人曾明确告知他该调查是为原告所做的。这些行为严重违背了双盲规则，法官因此排除了该调查证据的适用①559 F. Supp. 1189 ( E.D.N.Y. 1983) .。在我国实践中，法院以调查规则失范而不予采信的情形也较为常见。在华东师范大学出版社诉吉林教育出版社一案中②上海市第二中级人民法院(2002) 沪二中民五( 知) 初字第115 号。类似的案件还有，在波马公司与农工商超市一案中，法院不采信的理由包括：调查不是由第三方独立进行，而是由上诉人代理人直接实施；在问卷调查过程中，存在被调查人在调查人员辅助下完成调查的情况等等( 上海市高级人民法院(2009) 沪高民三( 知) 终字第70 号) 。，法院认为:“调查者没有从一般消费者选购书籍的角度去设置问题开展调查，而是直接就争议问题发问，这种调查结论难以采信。”

其三，调查必须设置回访核实程序。在调查完成后，调查专家必须成立一个复查小组(review board)对一定比例的被访者进行回访，向其询问与调查时同样的问题，以验证调查人员是否严格按照指示完成调查任务。如果缺少这一程序，调查证据同样面临被排除适用的危险。在Exxon 诉Xoil Energy案中，法院认为:“原告调查的证明价值因如下缺陷而大大削减……缺少对一定数量的被访者进行回访的核实程序。”③Exxon Corp. v. Xoil Energy Resources，Inc. 552 F. Supp. 1008 ( S.D.N.Y.1982) .

(三)问卷调查的模式

问卷调查的核心目标是从消费者那里获得他们对争议商标的主观认知情况。经过长期的实践，美国法院主要接受两种测度消费者内心感受的问卷设计，分别是Squirt 模式和Eveready 模式。

1. Squirt 模式

在Squirt 诉Seven-up 案中，原告为了证明被告的Quirst 软饮料产品与其Squirt 产品相混淆而做了如下调查:

［调查员首先向被访者播放Squirt 产品、Quirst 产品和其他两种产品的播音广告，然后询问被访者］

问题1：“您认为SQUIRT 和QUIRST 是由同一家公司出品的，还是由不同的公司出品的?”

问题2：“是什么让您这样认为?”

如果较高比例的被访者认为两者是由同一公司出品的，那就证明原被告的商标存在混淆可能性④1979 U.S. Dist. LEXIS 9986 ( E.D. Miss.，1979) .。

在该案中，涉案的两种产品是同时被呈现给被访者的，而Squirt 模式的一种改进版本则是分阶段地将涉案产品展示给被访者。在第一阶段中，调查员向被访者展示原告的产品，然后将该产品收起。接着，在第二阶段中调查员向被访者展示一排产品，其中包括被控侵权的产品。针对第二阶段中的每个产品，调查员逐一询问被访者:“您觉得现在您看到的这个品牌和第一阶段给您看的那个品牌是由同一个公司出品的，还是由不同的公司出品的?”如果较高比例的被访者认为被控侵权产品与原告产品是由同一家公司出品的，那就证明原被告商标存在混淆可能性⑤在Storck USA，L.P 诉Farley Candy Co.案中，被访者首先在第一阶段看到原告的糖果产品。在第二阶段，调查员向被访者展示包括被告产品在内的4 种糖果产品。然后逐一询问：“您认为1 号(2，3，4 号) 糖果和第一阶段向您展示的糖果是由同一个公司出品的，还是由不同公司出品的?”“是什么让您这样认为?”结果，34%的被访者认为原被告的产品是由同一家公司出品的，法院认定侵权成立(797 F. Supp. 1399 ( N.D. Ill. 1992) ) 。。

2. Eveready 模式

在Union Carbide 诉Ever-Ready 案中，原告为了证明被告在灯具上使用EVER-READY 商标侵犯了其EVEREADY 商标权而做了如下调查:

［向被访者展示被告Ever-Ready 灯具的图片，灯具上附有其商标］

问题1：您认为是谁推出这一灯具产品?

问题2：是什么让您产生这种想法?

问题3：请您列举出该厂家的其他产品。

在回答问题1 时，只有0.6%的被访者提到Union Carbide。不过，在回答问题3 时，54.6%的被访者提到了原告所特有的电池产品。法院认为该部分消费者也应被认为发生了混淆，因此55.2%的混淆率足以证明存在混淆可能性①531 F. 2d 366 (7th Cir. 1976) .。

(四)法律实验中的缺陷及其改进

如果问卷调查能够客观的反映消费者的心理认知，不同的调查方式所得到的结论应该是相同的，至少是接近的。但实证研究表明，不同问卷设计所得出的结论差异巨大②Simonson 先生运用4 种不同的调查问卷对12 对可能混淆的商标进行调查，结果显示不同问卷设计所得到的混淆率差异巨大，在测度Panasonic 和Wanasonic 两个商标的混淆可能性时，Eveready 模式和Squirt 模式所得到的混淆率相差高达46 个百分点，分别是53%和7%。Itamar Simonson，The Effect of Survey Method on Likelihood of Confusion Estimates： Conceptual Analysis and Empirical Test，83 Trademark Rep. 364 (1993) .。换句话说，问卷设计的选择直接决定了调查的结果，混淆的科学测度并没有惟一“正确”的结论。导致这一现象的原因是多方面的:

首先，测度消费者内心世界的勘探工具——语言本身即具有较大的模糊性。遣词造句的微小变化都可能引起被访者不同的心理反应，实践证明，这种反应是非常灵敏的③Presser 教授曾经做过这样一个实验。他问实验样本中的一半被访者如下问题：“您认为美国是否应该允许反对民主制的公开演讲?”而对另一半被访者询问道：“您认为美国是否应该禁止反对民主制的公开演讲?”结果，对于前一个问题，56%的人回答“不”，而对后一个问题，仅有39%的被访者回答“是”。尽管“不允许”和“禁止”是等值的，但用词的微小变化足以带来17%的差距。L. MacFarquhar. The Pollster，The New Yorker，October 18，2004，p.85，p.92.。而人的心理活动又非常丰富和微妙，被调查者很难解释自己一时一地的心理感受，问卷调查很难客观地再现其内心世界。

其次，问卷调查是一种模拟的实验环境，毕竟不是真实的购物过程，调查的过程难免人为地提高或降低了争议商标之间的混淆程度。以Squirt 模式为例，由于争议的两个商标被人为地同时呈现在被访者面前，而问题1 则提示两者可能存在一定的关系，在这种情境下，被访者很可能认为两者是由同一公司出品的。在真实的购物环境中，消费者很可能根本不会产生这样的误认④Bradlee Boal. Technique for Ascertaining Likelihood of Confusion and The Meaning of Advertising Communications，73 Trademark Rep. 405 (1983) .。在Beneficial Captical 诉Benficial Finance System 案中，法官就认为“您认为Beneficial Captical 公司和Beneficial Finance System 公司之间存在商业联系，还是不存在商业联系?”这样的问题是具有诱导性的，因此排除了对这个Squirt 型问卷的适用⑤529 F. Supp. 445 ( S.D.N.Y. 1982) .。有学者认为，Squirt 模式的改进版本能较好地反映真实的购物环境。在真实的购物过程中，消费者往往凭借记忆中对商标和商品的印象做出购物的决定，所以被访者在第一阶段看到原告的产品，就相当于在日常生活中接触到原告产品的广告，而第二阶段则相当于日常生活中的购物过程⑥Jerre Swann. A“Reading”Test or a“Memory”Test： Which Survey Methodology Is Correct? 95 Trademark Rep. 876(2005) .。这一看法并未获得普遍认同，有法官即认为，Squirt 模式的改进版本同样人为地暗示了两个商标之间可能存在某种联系，不能恰当地模拟真实的市场环境，问题的设计具有诱导性⑦690 F. Supp. 2d 218 ( S.D.N.Y. 2010) .。

一般认为，采用Eveready 模式所得到的混淆率比较准确。许多法院以此作为问卷调查证据可采性的标准⑧James Burrough，Ltd. v. Sign of Beefeater，Inc. 540 F.2d 266 (7th Cir. 1976) ； E. ＆ J. Gallo Winery v. Gallo Cattle Co.，955 F. 2d 1327 (9th Cir. 1992) .，有法院甚至由于当事人所采用的是Squirt 型问卷而非Eveready 型问卷而不予采信⑨Kargo Global，Inc. v. Advance Magazine Publishers，Inc.，2007 WL 2258688，* 8( S.D.N.Y. 2007) .。但研究表明，Eveready 型问卷同样会高估混淆率水平，原因在于:问题1 具有较强的“要求效应”(Demand Effect)，被访者即使不知道谁推出争议产品，由于觉得自己有给出答案的义务，会努力去猜测“正确”的答案。这一答案往往是市场上占据优势地位的品牌，而一般情况下，原告商标恰恰就是市场上较有名气的商标，所以采用Eveready 型问卷通常对原告比较有利①John Liefeld. How Surveys Overestimate The Likelihood of Consumer Confusion，93 Trademark Rep. 939 (2003) .。为了解决这一问题，学者们建议必须在问题的答案中加入“不知道”的选项，并向被访者强调，如果他或她不了解相关商标的情况，可以回答“不知道”②Shari S. Diamond.Reference Guide on Survey Research. in Federal Judicial Centre，Reference Manual on Scientific Evidence，2nd edition，2000，p.244.。有研究表明，增设这一选项后，大约有20%的被访者会受到影响③Jacob Jacoby. A Critique of Rappeport’s“Litigation Surveys-Social‘Science’as Evidence”，92 Trademark Rep.1480 (2002) .。也有学者持不同看法，在Baseball Properties 诉Sed Non Olet Donarius 案中，原告没有“不知道”选项，与加入“不知道”选项的调查结果，混淆率并没有发生变化。拉贝波特(Rappeport)解释道，消费者混淆调查的内容主要是日常生活中出现的商标，被访者不愿意被他人认为自己无知、不懂行情，因此不情愿选择这一选项。这一选项的设置在混淆调查中没有什么作用④Michael Rappeport. A Rejoinder to A Critique，92 Trademark Rep. 1502 (2002) .。

解决Squirt 型和Eveready 型问卷的缺陷，消除人为提示、要求效应等“噪音”，较好的办法是设置对照组(control group)。其做法是，在调查中加入与权利人的商标明显不可能发生混淆的标识，测试消费者对这两个标识之间发生混淆的比率。在Edison Brothers Stores 诉Cosmair 案中，原告在其服装产品上使用Notorious 商标，被告也在其香水产品上使用同一商标。最初的调查显示混淆率为58.5%。但通过用一个对照组对数据进行过滤后，法院发现有24.5%的消费者在看到其他与Notorious 的音、形、义迥异的标识时，也会认为其与原告存在某种赞助关系。法院认为，这24.5%的“混淆率”属于背景噪音，应该予以排除。因此，实际的混淆率只有34%⑤Edison Brothers Stores，Inc. v. Cosmair，Inc.，651 F. Supp. 1547 ( S.D.N.Y.，1987) .。控制组的设置是使调查结果尽量接近客观事实的一种努力。但根据李斐德(Liefeld)先生的实证研究，不同模式的调查问卷都不可避免地高估了混淆率水平⑥John Liefeld. How Surveys Overestimate The Likelihood of Consumer Confusion，93 Trademark Rep. 939 (2003) .。

四、混淆可能性的证成:让数字说话

(一)足以认定混淆可能性的百分比

一般认为，只要数量相当可观(substantial or appreciable number)的具有合理注意力的消费者对争议商标发生混淆，即足以认定存在混淆可能性。麦卡锡(McCarthy)教授指出，如果混淆率超过50%，法院几乎肯定会认为这是存在混淆可能性的具有说服力的证据。而只要混淆率高于25%，即可认为该问卷调查是存在混淆可能性的有力证据⑦J. Thomas McCarthy. 4 McCarthy on Trademarks and Unfair Competition，§ 32：185(4th ed. 2012) .。但在司法实践中，答案似乎并非如此清晰。在Sears，Roebuck 诉Johnson 案中，法院确实认为74%的混淆率足以认定存在混淆可能性。而在Sears，Roebuck 诉Allstate Driving School 案中，当事人采用了几乎一样的问卷调查方法，法院却认为由于调查方法存在其他方面的缺陷，82%的混淆率不足以认定存在混淆可能性⑧Jack Lipton. Trademark Litigation： A New Look at The Use of Social Science Evidence，29 Ariz. L. Rev. 639(1987) .。在有些案件中，认定存在混淆可能性的混淆率远低于25%。比如，在Humble Oil ＆ Refining 诉American Oil 案中，法院认定11%的混淆率足以证明存在混淆可能性⑨405 F. 2d 803 (8th Cir. 1969) .;在 Grotrian，Helfferich，Schulz，Th. Steinweg Nachf.诉 Steinway ＆ Sons 案中，法院甚至认定8.5%的混淆率是认定混淆可能性存在的“强有力的证据”①365 F. Supp. 707 ( S.D.N.Y. 1973) .。相反，在Weight Watchers Int’l 诉Stouffer案中，法院却认为9.2%的混淆率不足以证明存在混淆可能性②744 F. Supp. 1259 ( S.D.N.Y. 1990) .。

在我国，多高的百分比足以认定消费者混淆之可能?这近乎瞎子摸象。在我们回收的68 份问卷调查中，就“在商标混淆的调查实验报告中，您认为多大的百分比足以证明两个商标之间存在混淆?”38 人认为需要达到70%以上，13 人认为60%以上，9 人认为50%以上，3 人认为40%以上，3 人认为30%以上，2 人表示“没有经验”而弃答。显然，这一结果表明，绝大多数法官对商标混淆的构成采取了异常严格的标准。在具体的案件中，一些当事人弄巧成拙，提供不利证据的情形时有发生③在米其林公司诉喻静一案中，喻静为证明其使用的“miQolin”商标未侵犯米其林公司“米其林”注册商标，委托调查公司进行调查，该结论反而是其败诉的重要依据之一。一审法院认为：32%的被访者认为两家公司关系密切或者同属于一家集团公司，31.4%的公众认为两家公司的产品或属于同一家公司的不同产品，应当认定容易导致混淆；二审法院进一步认为：该报告没有证实没有对他人驰名商标导致淡化或搭便车，即使采纳调查报告的结论——大多数被访者不会对被诉商标与米其林公司驰名商标产生混淆，也不足以证明被诉商标没有侵犯米其林公司驰名商标权( 广东省高级人民法院 (2011) 粤高法民三终字第163 号) 。，不同的法院对同一份调查报告的认识甚为悬殊④而在蓝野公司与联华华商公司等一案中，百事可乐公司一审期间提供的经公证的77 份有效调查问卷中，认为百事可乐包装上“蓝色风暴”标识与蓝野酒业公司“蓝色风暴”标识构成近似的有21 人；认为因百事可乐包装上的“蓝色风暴”标识，而将这种包装的百事可乐产品认为是蓝野酒业公司“蓝色风暴”商标产品的有10 人；认为这种包装的百事可乐产品和蓝野酒业公司的“蓝色风暴”商标的产品会产生混淆的有5 人。一审法院认为，“绝大多数被调查者并不会因百事可乐公司在其产品上使用了‘蓝色风暴’标识而对百事可乐公司产品与蓝野酒业公司产品发生混淆”；二审法院则认为，“从百事可乐公司自行提供的市场抽样调查看，已经有一定比例的消费者对两者产品的来源产生误认”( 浙江省高级人民法院(2007) 浙民三终字第74 号) 。。

为此，有学者批评道，对于多高的混淆率足以证明存在混淆可能性这一问题，法院没能提供一致而有效的指引⑤Jack Lipton. Trademark Litigation： A New Look at The Use of Social Science Evidence，29 Ariz. L. Rev. 639(1987) .。问卷调查证据的批评家认为，运用问卷调查证据的案件可以分为两类:当法官在心中早已认同问卷调查的结果时，他会在判决中接受和依赖调查证据进行说理;而当法官主观上已然否定问卷调查的结果时，调查证据就会备受攻击并遭到拒绝⑥J. Thomas McCarthy，4 McCarthy on Trademarks and Unfair Competition，§ 32：196(4th ed. 2012) .。

(二)混淆率的计算方法

在混淆率较低的情况下，之所以有的法院会认定存在混淆可能性，原因在于，法院并非只考虑混淆的百分比，还考虑这些百分比所代表的实际人数。比如Humble Oil ＆ Refining 诉American Oil 案，法官之所以认定11%的混淆率也足以证明混淆可能性存在，原因在于，在全国市场上数百万消费者中，11%的消费者已经“数量相当可观”⑦405 F. 2d 803 (8th Cir. 1969) .。在Quality Inn Int’l 诉McDonald’s 案中，虽然调查结果显示混淆率只有16%，但法官判决道:“从被告McSleep Inn 的1 亿4 千4 百万潜在消费者推算，超过2 千万的消费者可能发生混淆。这可不是一个小数目。”⑧695 F. Supp. 198 ( D. Md. 1988) .所以，有学者批评道，法院在评价混淆率时并没有明确究竟是以消费者的人数为标准，还是以百分比为标准⑨Jack Lipton. Trademark Litigation： A New Look at The Use of Social Science Evidence，29 Ariz. L. Rev. 639(1987) .。如果都以混淆百分比所代表的实际人数为标准，那么在一个成熟的市场上，许多产品的潜在消费者都是数百万计，几乎所有案件都仅须一个很低的混淆率即足以认定混淆可能性的存在。

如果选择以百分比作为评价标准，又会涉及到计算基数的问题。假设我们采用Eveready 模式的调查问卷对样本量为200 的被访者进行调查，结果发现只有20 人认为被控侵权产品是由商标在先使用者生产的，那么，混淆率便只有10%。但如果进一步深入询问发现，这200 人中实际上只有30 人知道商标在先使用者，即剩余的170 人在回答“您认为是谁推出这产品”这一问题时，无论如何都不可能提到商标的在先使用者。因此，在200 名被访者中仅有30 人是真正的潜在消费者，其余的170 人应该属于无关的人群，应被排除在调查范围之外。按照这种计算方式，混淆率就高达66.6%。在Frank Brunckhorst诉Heileman Brewing 案中，法官就遇到这样的难题。被告进行了一项样本量为600 的电话调查，希望证明其使用的商标与原告的商标之间不存在混淆可能性。经过深入询问，其中只有38 位被访者知道原告的商标。在这38 人中，有13 位被访者认为被控侵权的产品是由原告提供的。那么，此时的混淆百分比应该是34%(即38 人中有13 人发生混淆)还是2%(600 人中有13 人发生混淆)呢?法院最终采纳了34%这个数据，认定存在混淆可能性①875 F. Supp. 966 ( E.D.N.Y. 1994) .。对于这个问题，麦卡锡教授认为，这两个数据都是正确的，它们只是从不同的层面来反映消费者的心理状态。34%这个数据是正确的，因为只有这38 位消费者是真正的潜在消费者，其中有较大比例的消费者发生了混淆;而2%的数据也是正确的，它反映了原告商标在消费者心目中的知名度较低这一基本事实②J. Thomas McCarthy，6 McCarthy on Trademarks and Unfair Competition，§ 32：185(4th ed. 2012) .。

由此可见，虽然问卷调查证据也被视为科学证据的一种，但它和其他科学证据有根本性的差别。在DNA 鉴定、弹道鉴定、伤情鉴定或精神病鉴定中，鉴定机构所得出的结论是一个客观的数据，是一个“是”或者“不是”的明确答案。而问卷调查所得到的百分数，则需要法官根据各方面的情况进行综合分析，它的具体含义必须由法官根据个案的情况进行能动的解释。

五、结语:迈向数目字时代的商标司法?

商标司法中调查实验证据的运用日益广泛，我们能否就此得出结论:一种精心设计的实验模型能够对消费者的主观认知进行科学测度，将消费者的心理状态转化成一种可计算的形式，以数目字的方式为法院提供了有效证据?

这一结论的得出似乎为时尚早，实证研究似乎也不支持上述观点。毕比(Beebe)教授对2000 年到2004 年间的331 个涉及混淆可能性的案件进行分析，发现其中运用问卷调查证据的案件实际只有65个，仅占不到20%③Barton Beebe. An Empirical Study of the Multifactor Tests for Trademark Infringement，94 Cal. L. Rev. 1581(2006) .。萨拉尔(Sarel)等人的研究则发现，虽然引入调查证据与认定侵权成立之间存在正向关系，但其影响不具有统计学上的显著意义④Dan Sarel ＆ Howard Marmorstein. The Effect of Consumer Surveys and Actual Confusion Evidence in Trademark Litigation： An Empirical Assessment，99 Trademark Rep. 1416 (2009) .。至于法院对未提供问卷调查证据方作出不利裁决的案件，实际上是因为在这些案件中，其他的认定因素都无法支持当事人的诉讼请求。在这种背景下，法官才希望当事人能提供问卷调查证据以作为分析案件事实的参考⑤Sandra Edelman. Failure to Conduct A Survey in Trademark Infringement Cases： A Critique of the Adverse Inference，90 Trademark Rep. 746 (2000) .。所以，问卷调查证据在商标案件中的作用也许没有表面上看起来那么重要。这也解释了为何我国法官对此类证明方法不抱太大的热情⑥在68 份问卷中，针对“您是否相信商标调查会在将来中国的司法中广泛而大量的应用?”12 人答“乐观”；22 人答“悲观”；33 人答“没有特别的感觉”。。

不宜过高估计社会调查实验的实际效果，原因是多方面的。首先，问卷调查并不能像其他科学证据那样提供确定无疑的结论;在问卷调查的每个关键环节中，都存在着可以论辩的空间。其次，问卷调查涉及一系列统计学的技术问题，法官往往并非统计学专家，所以当双方的调查专家进行互相攻讦又似乎都言之成理的情况下，对调查证据视而不见是一种明智的做法①［美］汉斯·采泽尔等著，黄向阳译：《用数字证明》，北京：中国人民大学出版社，2008 年，第218 页。68 份问卷中，针对“如果双方当事人提供的调查证据得出完全不同的结论，您会愿意继续对调查的具体操作方式进行详细的审查吗?”，14 人“愿意继续调查”；54 人“更愿意直接放弃对这一证据类别的审查”。。最后，消费者问卷调查是既耗费时间又非常昂贵的证据形式②根据2000 年的数据，一项样本量为300 的购物中心截访( 成本最低的方式) 费用大概在3 万到4 万美元之间。Sandra Edelman. Failure to Conduct A Survey in Trademark Infringement Cases： A Critique of the Adverse Inference. 90 Trademark Rep. 746 (2000) .，当事人必须根据成本—收益的分析决定是否提交此类证据，法官也清楚不应对这类证据做出强制性的要求。

但是，不应否认，消费者问卷调查仍然是一种有用的证据形式。在“多因素认定法”无法提供强有力的证据时，一份严格按照统计学规程设计执行的调查问卷所得到的数据往往具有较强的说服力③Dan Sarel ＆ Howard Marmorstein. The Effect of Consumer Surveys and Actual Confusion Evidence in Trademark Litigation： An Empirical Assessment，99 Trademark Rep. 1416 (2009) .。尽管在技术上，问卷调查仍未达到精确的程度，但它毕竟为法庭打开了一扇窗户，让法官得以直接观测现实世界中消费者的心理感受。它提供了一个机制，将消费者的认知、律师的法律知识和调查专家的统计技术融会在一起，在三方的共同努力下向法庭呈现一幅真实市场的模拟图景。正如不太精确的航海图仍然帮助古人完成无数海上历险的壮举;这幅不太真实的市场图景也为法官完成其正义的事业提供了可以依凭的工具。

问卷调查证据既不比其他认定因素更好，也不比它们更坏。它绝不是对消费者心理状态的客观反映，但它同样也为法官作出最终判断提供可以参考的依据。它所提供的并非仅仅是一串数字，而法官也不是对这些数字进行加减乘除的计算器。在认定混淆可能性的过程中，法官所进行的是一项综合性的操作，这一操作在法官的精神熔炉里神秘地发生④［意］皮罗·克拉玛德雷著，翟小波等译：《程序与民主》，北京：高等教育出版社，2005 年，第23 页。。在那里，直觉和感情在活跃的良知中加热;问卷调查证据和其他认定因素一样，为这个燃烧着的熔炉提供一味知识的燃料，使得法官更好地将抽象的法律和具体的事实焊接在一起，得出尽可能公正和准确的裁决。