WTO贸易政策审议文本的大数据挖掘
2014-03-23劭浩
劭浩
当前,科技的发展使得数据量呈指数增长,更新速度也越来越快,有研究表明,过去3年间产生的数据量已经超过人类历史以往数据的总和。在大数据时代,通过人工阅读资料、处理数据变得愈发困难,这也就导致了大量数据的堆积而不能有效发挥其应有的作用。人们逐渐意识到可以利用先进的数据挖掘方法从中找出大量有价值的信息,更好地理解和领会海量数据中隐含的知识,加速学习过程,从而“唤醒沉睡的价值”。
在WTO,每年都会产生大量的文本资料,包括各种会议记录、法规条文、贸易协定文本以及争端解决案等等。这些文档的涵盖内容之多,范围之广,跨度之大,已经超出了在短时间内用人工进行翻译、理解、归纳和分析的范围。如何使得专家能够在有限的时间内掌握更多的信息,从而在谈判中掌握主动权和优势?大数据挖掘给我们提供了一种新的思路。针对贸易政策审议报告(Trade Policy Review,TPR)而言,通过文本挖掘,可以找出其涵盖的全部贸易议题,分析出政策和议题的变化趋势,并从文字中挖掘出政府和机构对于某个议题的态度,从而辅助专家进行文本的阅读和理解,大幅提高其工作效率。
贸易政策审议机制是WTO在总结GATT运行四十余年的经验基础上,在乌拉圭回合中期评审中通过并发展起来的。它是WTO的重要监督机制,由贸易政策审议机构负责,定期对所有成员进行审议。贸易政策审议机制协议第A条明确阐述了其主要目标是“通过提高各成员贸易政策和做法的透明度并使之得到更好的理解,有助于所有成员更好地遵守多边协定和使用的诸边贸易协定的规则、纪律和在各协定下所作的承诺,从而有助于多边贸易体制更加平稳地运行”。通过对贸易政策审议报告的分析,就能够大体理解贸易的趋势和走向,掌握不同国家参与国际经贸治理的程度,具有重要的理论和实际意义。
大数据透视TPR
对贸易政策审议文本的分析,主要为了解决专家的三类需求:第一是通过数据挖掘方法快速浏览全部文本资料,归纳出文本的主要观点和内容以及对不同国家的评论态度进行分类等。第二是通过主题挖掘模型,分析不同主题的分布和变化趋势,并归纳出文档中不同主题的重要程度。第三是在搜集资料的基础上建立检索数据库,对于专家给出的议题,能够迅速抽取出相关资料并根据需要分析出相应结果。
分析的手段包括对同一国家不同年份的报告进行分析,对不同国家的相同议题的比较以及对会议提问的评论态度进行分类等。上文中提到的关于中国G264报告中知识产权议题,如果对秘书处报告S264进行相同的分析,就可以得到不同的结果。例如,在G264中,知识产权的重要程度为0.021,而在S264中的数值为0.046,这样的信息需要引起专家的思考,在贸易政策审议会议的时候要特别注意其他国家针对知识产权方面的提问。又如对美国S275报告进行比较可以发现,对知识产权的关注度只有0.039,这在一方面说明了美国在知识产权领域已经比较成熟,而另一方面也说明中国正逐步完善知识产权保护,因此也得到了更多的关注。同时,我们也可以通过情感分析得出不同国家对中国的评论态度有何不同。
而如果对同一个国家(区域)进行不同年份的趋势分析,也可以得到一些有价值的信息。例如对欧盟9年度的贸易政策审议报告进行主题挖掘,我们可以得到针对特定议题的关注度的变化趋势。举例来说,对农业补贴的关注程度从1995年到2013年呈现出先上升后下降的趋势。这是因为为了适应WTO谈判达成的有关《农业协定》及新一轮谈判的要求,1999年欧盟委员会通过了《欧盟2000年议程》,强调对农业政策进行彻底改革,其主要内容是确定将2000-2006年的农业预算支出冻结在每年405亿欧元的水平上,同时,分步骤、分阶段地消减对主要农产品的价格补贴,通过提供直接收入补贴的方式补偿农民因此造成的损失。因此,在2000到2006年中的关注程度就有了明显的上升。
大数据助力WTO人才培养
数据就是财富,随着数据挖掘技术的进步,文本挖掘方法已经可以在一定程度上挖掘出海量文本中有价值的信息。通过主题挖掘模型,可以分析WTO各个国家贸易政策审议报告文本,归纳出文本的主题并按照重要程度排序,提供检索,并为谈判专家提供指导性意见和建议。研究方法和模型也可以进一步扩展到其他类型的文本资料,例如分析WTO的贸易争端案中不同国家和组织对某一特定案例的观点和态度等。
中国在2001年加入WTO,至今已有十余年,但相对于关税及贸易总协定(GATT)到WTO几十年的历史,仍是一个缺乏实践经验的成员。因此,中国有必要培养更多的专业人士来通过国际规则寻求国家利益。然而,人才培养和经验积累都是长期的过程,这些专业人士必须了解大量的相关资料,具有良好的外语技能并且具备国际谈判的实践经验,不可能一蹴而就。大数据的挖掘技术可以在一定程度上加速人才培养的过程,加强谈判专家对规则的理解和掌握,提升研究水平,并辅助进行决策,使得中国在国际舞台上拥有更强的主动权和话语权。(作者邵浩为上海对外经贸大学WTO学院讲师,研究方向为数据挖掘和机器学习。本文受上海高校智库上海对外经贸大学国际经贸治理与中国改革开放联合研究中心资助)
编辑|赵丽芳 lifang.zhao@wtoguide.net