文本和数据挖掘技术（TDM）与著作权保护

2018-05-30杨博宇

职工法律天地·上半月 2018年8期

关键词：数据挖掘文本过程

杨博宇余萍

（611130 西南财经大学四川成都）

一、TDM的定义

TDM，Text and Data Ming,也被称做Content Mining，是一种基于计算机数据处理技术对数字化的数据进行处理并提取隐含信息的过程。学界中对于其定义有诸多讨论。

1.我国学者定义

郝文江(2007)认为，文本和数据挖掘（TDM），是指通过运用自动分析技术对现有的文本和数据进行考察分析，以便从中发现某种模型、趋势或其他有用信息。化柏林（2008）认为，数据挖掘是指从大量的、不完全的、模糊的、随机的应用数据中，提取隐含在其中的但又是潜在有用的信息和知识的过程。宋海艳、邵承瑾等（2014）认为数据挖掘只是知识发现阶段即从数据集中提取信息阶段的一个关键环节，整个知识发现阶段应当包括数据准备阶段、数据挖掘阶段以及结果解释与评价阶段。

2.国际上典型的定义

更为明确的定义可以在英国知识产权办公室（UK IPO）2012年针对TDM做的一项影响分析中找到，“文本和数据以及数据分析方法是从现有的电子信息中提取数据，建立新的事实和关系，以从先前的研究中建立新的科学发现。这种方式包括复制已完成的工作成果，作为提取数据过程的一部分。”国际科学、技术和医学出版商协会（STM）认为，“文本和数据挖掘意味着对发布者的内容进行广泛的自动化的搜索，其包括对语言结构的排序、分析、增补或删除以及选择和包含，常在行业索引或者数据库中用于分类或识别关系。”

Jean-Paul Triaille et al (2014)的报告中将TDM称做数据分析（Data Analysis，DA），认为这是一种对于数字材料的自动化处理，包括文本、数据、声音、图像或其他元素，或这些元素的组合，以便发现新的知识或见解。这个过程有四个特点：①具有自动性：是电脑对于选择的电子数据进行自动获取的过程（他们认为正是这种区别于人为选择的技术性特征使得TDM功能强大且引发了新的版权问题）；②数据经过处理：包括提取、复制、比较、分类以及其他数据分析过程；③对象是数字化材料，包括文本、数据、图片及其他元素；④是为了发现新知识或启示。

由上可知，生活中我们所进行的数据检索工作、数据库使用过程，数字图书馆馆藏图书阅读等操作，都是在TDM或DA的基础上，对我们所选择的数据进行处理后所呈现的成果。

二、TDM的应用和价值

当前，TDM技术在多个领域都展现出极强的实用价值。出版研究联盟针对期刊文本挖掘技术适用的一项调查（2016）表明，文本和数据挖掘技术正在被人们所认知和接受，人们普遍认为该技术能够对每一个领域的研究人员产生积极的作用。李钢（2016）提出，在商业领域,商家解决信息不对称问题的传统方式是依赖统计数据推测消费者偏好,而文本挖掘通过自然语言分析使商家能够直接了解消费者对产品的喜好,并对其市场策略做出相应的调整。孟庆良、展俊平（2014）在一项医学研究中运用TDM技术，得出结论，认为TDM技术能够为中西医结合研究提供更直观的展示，为中医临床研究提供有益参考，更好地指导服务于临床。郭金龙、许鑫（2012）从TDM在数字人文研究中的典型应用出发，指出TDM技术的发展将对创新人文科学的研究方法和研究范式产生深远的影响。

综上而言，TDM技术可以被视为广义上的一种利用“大数据”的网络背景，对现有的电子化文本和数据进行挖掘，处理并提炼出有用信息的过程，其具有知识发现、运用广泛、商业潜力巨大的特点。

三、TDM与著作权保护的冲突

全球研究界每年将产生150多万篇新的学术文章，这些文章以及其他类似文学、技术、科学作品经过发表和数据化处理之后，就形成了一个极为庞大的全球性的文献数据库。由于访问限制等原因，文章的数据会被分类储存到不同的载体或者电子馆藏图书馆中。但是TDM技术在一定程度上可以突破访问壁垒，在将所能提取到的数据整合后，呈献给访问者一种可视化的数据分析后的成果。其结果可能是根据关键词导出的段落化的文献，根据信息搜索出的碎片化的数据信息，或者根据图片分类检索功能产生的图片映像等形式。

大致来说，TDM的应用过程可以分为大致几个阶段：

（1）数据源的获取：将所需要的内容从外部来源或内部自有数据中提取出来，该内容可能是受到版权保护或者是数据库通过一定的技术手段进行防护的；

（2）转化内容：必要时，将提取出的内容转化为所需要的形式；

（3）加载内容：将需要的内容加载到数据集、存储库或者内容集合中；

（4）数据分析：对内容数据进行挖掘并分析；

（5）成果展现：通过分析产生挖掘后的结果。

在这五个阶段之中，无论是对于数据的获取或者转化、复制、重新加载以及分析，都会在一定程度上触碰到法律的边界。

I.Hargreaves (2011)在其研究中肯定了TDM的价值，认为对学术文献和其他数字化的文本进行挖掘和分析为新知识的发展和创新提供了一个真正的机会。但Dr. Diane McDonald & Ursula Kelly（2012）指出，为了“被挖掘”，上述数据必须被访问、复制、分析、注释并与现存的信息和理解所关联，这在一定程度上，侵犯了出版商的利益。

对于这样一种使用价值巨大、前景良好的技术来说，其还需要克服一些法律法规上的壁垒，尤其是在数据处理过程中所发生的，对数据进行复制、分析、破解时的自主技术性操作和著作权法中为了保护版权所赋予权利人的权利价值之间，所产生的实践价值和法律价值的冲突选择。

四、数据的定义和分级

首先，我国著作权法应当在法律层面，对“数据”下一个符合使用目的的定义。现行《著作权法》第五条规定了我国的版权客体排除规则，参照美国通过版权客体排除规则解决大数据产业排除困境的现行做法，我国或许可以将“数据”纳入公有领域范畴，成为版权保护的例外性规定。

其次，既然TDM是针对电子化的文本和数据进行挖掘的技术，则法律应当从技术的本源出发，对其所挖掘的客观对象——数据，进行分级。

例如，有学者在将数据的获取和展示分成了四个级别：

级别种类完全公开网络数据多方对多方社交媒体数据一方对多方合同/出版商数据单方对单方保密数据

针对不同级别的数据，使用者需要不同程度的相应授权。授权内容应当包括使用的目的、使用的形式、使用的时间等基本的合同性约定。而在处理不同层次的数据时，数据处理者所承担的责任也应当是有所区分的。

鉴于欧盟并未对TDM的具体使用模式作出限定，现有的主流立法模式主要有美国采取的“无条件例外”的合理使用模式和英国“版权例外”的模式。

许可方式的选择实际上是一种对于传统版权产业与新兴大数据产业之间如何激励取舍的制度安排问题。李国庆（2016）在审视了谷歌图书案之后提出，我国的合理使用制度应当：①以版权法目的——信息共享作为价值诉求；②为实现合理使用的价值诉求，合理使用制度应当具有一定的灵活性。

美国采取的“无条件例外”的“合理使用”许可模式并未对TDM技术的使用对象进行限定，英国的特殊性版权例外许可允许任何非权利人按照规定模式使用，仅欧盟的《草案》将TDM的适用对象限定在研究机构之上。

笔者认为限制技术的使用对象是不适宜的。现行的TDM技术的提供者和使用者主要集中在数据库、数字型图书馆、搜索平台等以研究机构、高校、公司等集体性组织之上，普通大众暂时只作为TDM技术的成果接收方和获益者参与其中。作为成果第三方，普通人应当不与TDM技术提供方就TDM操作过程中可能存在的侵权事宜承担连带责任。但在获取由TDM技术提供后的信息之后，新知识的再创建过程例如科学研究中利用所获取的数据实验得出研究成果，经济学家通过搜索到的经济数据作为基础数据进行重新编排制作观察报告的过程可能涉及到对原始数据的再编排过程，该行为是否违反《著作权法》还有待讨论。因而，现行立法过程中不应该对技术的适用对象进行限制。

[1]郝文江.基于数据挖掘技术对公安犯罪分析的改进.吉林公安高等专科学院学报,2007年第3期,第112页.

[2]化柏林.数据挖掘与知识发现关系探析[J].情报理论与实践 ,2008（4）.

[3]宋海艳,邵承瑾,顾立平,张东荣,潘卫,黄文丽,蒋丽丽,陈天天,张浩.我国科研人员对机构知识库认知与使用的现状调查与分析[J].现代图书情报技术,2014,8-16.

[4]李钢.大数据时代文本挖掘的版权例外[J],图书馆工作与研究,2016,1(3),28-31.

[5]袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2),1-4.

[6]UK IPO, An impact assessment for the introduction of the‘exception for coping of works for use by text and data analytics.’[7]The International Association of Scientific, Technical and Medical Publishers.

[8]STM, Text and Data Mining Sample Subscription,2012.

[9]Jean-Paul Triaille, Jérôme de Meeûs d’Argenteuil & Amélie de Francquan, Study on the Legal Framework of text and data mining(TDM),2014.

[10]Text Mining of Journal Literature 2016, Commissioned by Publishing Research Consortium.

[11]孟庆良,展俊平,郭会卿,郭洪涛,郑光,吕爱平,姜淼.基于文本挖掘技术析甲氨蝶呤与中医治疗联合应用的规律[J].中国中医基础医学杂志,2014.

[12]郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012,30(3),11-18.

[13]M.Ware & M.Mabe, The stm report: An overview of scientific and scholar journal publishing,2009.

[14]李国庆.谷歌图书馆案The Authors Guild, Inc. v Google, Inc.判决述评——以合理使用制度为视角[J].中国版权,2016.