刍议数字出版中辞书的版权保护

2016-01-06聂静沈菁

辞书研究 2015年3期

聂静　沈菁

摘要数字出版技术的飞速发展，日益强化对辞书版权的保护力度。以信息网络作为产品传播途径的数字出版技术，已经能够有效地保证对辞书的使用必须事先获得权利人的授权；有效防止对整部辞书的非法复制；严格监控对辞书条目的分批复制，及时制止恶意复制倾向；对侵权者不惜成本、用原始手段抄袭辞书条目的行为，也能较便捷地查核。可以说，随着现代数字化信息技术的快速发展而形成的数字出版方式，已经能够为数字化辞书提供比纸质辞书强大得多的版权保护支持。

关键词数字出版信息技术辞书版权保护

关于数字出版，目前国际上还没有一致公认的定义。在我国出版界，较为通行的观点认为“数字出版是指利用数字技术进行内容编辑加工，并通过网络传播数字内容产品的一种新型出版方式”（新闻出版总署《关于加快我国数字出版产业发展的若干意见》）。笔者也认同这一观点，所以，下文的“数字出版”都仅指上述意义上的出版方式。

数字出版的产品采用的是符合国际标准的编码数字形式，不需与具有一定外在形态的物质载体固定在一起。出版者将各种信息（文字、图片、声音、活动影像等）转换成编码数字集合体，再以数字流的形式传输给消费者。消费者接受、使用数字出版产品，都需要利用自己预先配备的电子设备进行解码，把编码数字还原成人可以感知的信息形式。通俗地说，数字出版是“只售内容，不卖载体”。这与其他各种出版物的销售是根本不同的。

不少人认为，数字化的辞书具有无损复制、易于分发等重要特征，因此容易被人随意非法复制并通过各类信息网络分发、传播，这必将给辞书作者和出版者造成严重的损失。然而笔者以为，随着现代数字化信息技术的快速发展而形成的数字出版方式，已经能够为数字化辞书提供比纸质辞书强大得多的版权保护支持。本文试对此进行分析，以求教于方家、学者。

一、数字出版能保证对辞书的使用必须得到授权

数字出版能通过数字版权管理（Digital Rights Management，以下简称DRM）系统对辞书的使用进行控制。这一系统依靠数据加密、访问控制、身份认证、密钥管理等一系列技术手段，只允许得到合法授权的消费者使用相应辞书。

DRM系统采用密码学原理，将数字化内容打包、加密，使之成为标准DRM内容格式文件。这种文件须利用相应的密钥解密后，才可以反转为人类感官能够辨识的信息内容。数字辞书上网之后，DRM系统还能够控制消费者对该辞书的访问。消费者如果要查阅某种辞书，必须先向DRM系统的“许可证管理”子系统提出申请并履行一定手续（如付费），才能得到密钥和授权证书，同时系统自动将消费者的身份信息和终端设备信息记载在案。消费者使用某种辞书时，DRM系统首先根据由消费者所登录的“DRM代理”子系统发来的密钥、消费者身份及其终端设备信息，判断该消费者是否有权使用这种数字辞书。如果判断结果为“否”，系统就会自动拒绝消费者的登录请求；如果结果为“是”，系统便自动创建版权对象。版权对象的作用是根据授权证书的描述对有关辞书内容的使用权利进行限定。版权对象中也包括内容密钥，以保证消费者只有拿到相应的“钥匙”才能开启对应的内容。版权对象本身也由DRM系统加密，以防止他人非法修改授权的种类和范围。在版权对象创建后，系统应消费者的请求将有关辞书的内容打包，与版权对象一起，通过一定的机制、形式传递给“DRM代理”子系统，再由“DRM代理”解析、解密内容并提供给消费者使用。这个过程大致如图1所示。

由上可见，出版者将数字出版产品传输给获得有效授权的消费者时是“一对一”地严格定向的，授权过程相当严密。传输过程中承载数字流形式产品的临时物质载体是电流、光电波或电磁波，而传输过程结束后，相应的编码数字集合体在临时物质载体上就不再存在，任何第三方都不可能接触到。至于在消费者自备的终端设备上，相应的数字出版产品是仅仅临时存在还是可永久存储，可由出版者利用数字技术实现有效控制。这就可以有效地保证使用数字化辞书的消费者都是获得合法授权的，从而保证辞书著作权人和出版者的利益不受侵害。同时，虽然过程繁复，但因为都是由计算机系统自动完成的，不需人工处理，并且数据量小，所以速度很快，营运成本也非常低廉。

二、数字出版能对整部辞书的版权实现保护

辞书版权保护的重要作用之一，就是防止非法复制（包括打印），尤其是防止对整部辞书的非法复制。采用电子出版物形式（即知识内容、消费者操作系统和载体都结合在一起销售的产品）出版数字辞书，数字辞书遭受盗版的危险性非常大。当年光盘版《中国大百科全书》被非法复制的不幸遭遇，辞书界人士都还记忆犹新。现在，数字出版可以有效防止整部辞书被非法复制。

消费者对辞书的正常使用，一般都是查阅其中的某些条目，而不是通读整部辞书。因此，利用与“云技术”相结合的数据库出版技术，是辞书数字出版的主要方向。在这种出版环境中，消费者可以从储存海量信息的在线数据库中选择获得自己所需要的信息，但是不能获取数据库的全部内容。

出版者可以把定稿的辞书内容进行数字化结构标引，建立基础数据库，并通过统一规范的平台管理和运营。目前，主要采用“可扩展标记语言”（Extensible Markup Language，以下简称XML）对数字内容进行结构化标引。XML是国际上通用的标引工具，具有良好的自描述性、可扩展性等优点，可以对异质的多个数据源进行结构化，以统一的数据格式重现给读者。同时，标准化的数据库内容，便于实施查询、插入、更新、删除等操作。

运用与云技术相结合的数据库出版方式，能使辞书的每个条目都相对独立地存在于数据库中，储存在出版者的服务器上。消费者使用辞书时，服务器的数据库搜索查询系统按照查阅需求，只把相应的一个或若干个条目的内容加密后发送到消费者终端设备，而不会显示整部辞书的结构和所有条目的内容。同时，出版者服务器发送的内容仅仅是临时性地进入消费者终端设备内存并在屏幕上显示，当消费者退出阅读界面后，内存中的信息即自动清除，不能长久保存。就是说，消费者通常不可能把整部辞书下载并保存到自己的终端设备上。此过程如图2所示。

这样，未得到作者或出版者授权的任何人就难以擅自复制某种数字化辞书的全部内容，甚至由于不能观看到整部辞书，所以连剽窃辞书的总体框架结构都是很难的。

相比纸质辞书或光盘版电子辞书经常被人轻易地整书复制的高风险，数字出版技术对辞书版权的保护无疑有巨大的进步。

三、数字出版能对辞书内容的部分复制进行有效监控

辞书中的条目具有相对独立性，除了少量的副条（参见条）外，绝大部分正条能够对某个知识点或信息项提供相对完整的解释，具有知识自足性。所以，辞书条目常常能够独立使用，而依据某种特点选择一定数量的条目按一定次序汇编在一起，即能组成一部辞书。也正是因为这个特点，以往的辞书版权侵权者大都是从若干部辞书中大量抄袭条目，然后重新编排一下，就将其作为自己“编纂”的辞书。

在数字出版中，辞书条目的内容是要按照消费者的查阅需求在其接收终端屏幕上显示的。这样，如果有人利用获得正常授权的机会，将屏幕上显示的条目内容逐一复制后粘贴到一个自己新建的文件中，那么，经过多次反复操作，岂不是仍然能够把某种数字辞书的内容全部变成自己能够掌控并随意使用的电子文件？这种可能性是存在的。我们日常上网查询到的内容信息，往往都能用类似方法将之复制下来，然后保存为一个新的电子文件，虽然有时会丢失一些格式。

然而，目前数字出版技术已经可对消费者复制屏幕内容的行为进行有效控制。如位于上海浦东张江国家数字出版基地的上海精灵天下数字技术有限公司针对数字出版物版权保护需求开发的软件系统，就能对消费者的复制行为进行控制。其中最为严格的控制，是不允许消费者对屏幕上出现的内容进行包括打印在内的任何方式的复制，甚至连一般计算机操作系统自带的或第三方软件提供的“截屏”功能、屏幕录像功能等，都被禁止。当然，考虑到消费者在进行研究、创作的过程中常常会产生的文献引用和搜集相关资料的善意需求（这属于著作权法允许的合理使用范围），这个数字版权保护系统也能够允许消费者少量复制屏幕上显示的内容，但是权利人（著作权人或出版权享有者）可以结合使用时间、操作次数、内容数量制定相应的授权范围。例如：对每天可以复制的次数、每次可以复制的字符数量进行自动控制，一旦某个消费者对某部辞书内容的复制超过限额，系统就自动不再允许复制。假如有人企图通过在许多天内多次复制的方法来获得一部辞书的全部内容，系统也能根据该消费者复制同一部辞书内容的总次数和复制字符总量等操作记录，及时发现这种恶意复制的征兆，并提出警告；如果该消费者继续进行这种恶意复制，系统就会自动取消其查阅、使用该辞书的权利。

允许消费者有限复制辞书的部分内容，既有利于消费者对辞书的参考使用，又能较有效地防范侵害权利人权益的不法行为。这可以说是数字出版对辞书版权保护的重要贡献。

四、数字出版便于查核辞书遭侵权的事实

辞书的使用价值在于它所承载的精神文化内容，而这些内容绝大部分是用文字表述的；同时，辞书作为出版物需要向社会传播，让公众能够认知其承载的精神文化内容，从而实现价值和使用价值。这样，从根本上说，只要允许他人看到辞书的内容，就无法避免被人复制。譬如：将屏幕上显示的条目内容逐一抄写下来或直接录入另一台计算机；组织许多人利用不同的终端设备分别访问同一部辞书，然后按分工在有限复制的额度内复制部分条目，再把这些条目汇总成书；分别登录访问若干部属于同一学科或专业领域的不同辞书，先将其中涉及某一分支领域的部分条目复制下来，再重新组合成书，等等。对类似的复制行为，显然，无论采用什么技术都不能绝对禁止。虽然复制者为此需要付出很高的人力成本和时间成本，但还是能够规避数字版权保护技术，把他人的辞书作品据为己有。

可见，数字出版能够防范侵权者利用电子手段轻易地非法复制辞书，却无法禁止他们用比较原始的手段剽窃已出版的辞书，只是增加了剽窃的难度，并极大地提高了侵权的成本。因为看不到数字化辞书的现成词目单，侵权者仅仅为弄清楚某部辞书的收词状况，就必须将成千上万个字符作为关键字逐一进行查询，需要花费很多精力和时间，而要调查一部纸质辞书的总体框架结构则几乎是轻而易举的。

数字出版技术虽然不能达到绝对禁止剽窃辞书内容的目标，但是，一旦侵权行为发生，在查核侵权事实上，与纸质辞书相比还是具有很大优势的。

20世纪90年代，中国曾发生过《语言大典》剽窃《辞海》若干附录和《现代汉语词典》《中国成语大辞典》中许多条目的辞书侵权大案。因为涉案辞书都是纸质本，人民法院在审理此案时，为了查核清楚侵权的事实，曾委托许多专家花费数月时间对这些辞书的内容逐一进行人工比对并按内容的相同程度进行统计。最后，法院根据剽窃的事实依法认定《语言大典》确实侵权，并判侵权人承担相应的法律责任。

在数字出版条件下，如果A辞书的权利人怀疑B辞书存在侵权嫌疑，可以先按A辞书的词目单（可集中于某一部类的词目，也可随机抽取各类词目）搜集B辞书中相应的若干条目作为样本，然后利用文本比较软件对比分析这些样本条目的内容，统计出完全相同、部分相同和基本不同的条目各占多少比例，从而大致上判断某辞书是否存在侵权的嫌疑。

经过样本对比基本确认B辞书有侵权嫌疑后，A辞书的权利人可以先申请对样本条目的来源、内容对比结果进行公证，然后向法院申请诉前证据保全，由法院责令侵权嫌疑人提交B辞书全部条目的电子文件。这时，A辞书权利人就可以利用文本比较软件比对B辞书中与A辞书所收词目相同的全部条目，并对软件统计出的相同程度为40%～80%（若条目中相同的内容不足40%，一般可视为属于合理使用的参考、借鉴）的那部分条目进行人工复核，主要是核查那些相同的部分是否属于条目的实质性内容，从而为法院依法审理、判决提供充分的证据。

可见，与完全由人工核查纸质辞书的条目相比，利用数字技术核查数字化辞书的条目内容需要花费的人力较少，而且速度非常快。此外，如果A辞书在发布前对每个条目都进行过数字水印技术（即在文字、图片等媒体材料中嵌入人类感官不能直接感知的隐蔽型版权标志）处理，而在B辞书相应条目中软件中检测到了相同的版权标志，那就为认定侵权提供了铁证，而且速度更快，核查操作也更便捷。

当然，对于印刷型的侵权嫌疑辞书，核查的过程会稍复杂一些。权利人需要先把相应辞书的样本条目转换成电子文件并进行人工校对，然后才能利用文本比较软件进行条目内容比对。当然，在向法院提起诉讼后，可以申请法院责令侵权嫌疑人提交印刷型辞书的电子排版文件，从而再对全部条目内容进行数字化比对。

（责任编辑李潇潇）