版权知识本体构建方法研究

2017-07-12任志远

软件导刊 2017年6期

关键词：版权知识库本体

任志远

摘要：针对版权知识的结构并考虑到版权本体需要不断迭代更新，在充分分析版权知识结构的基础上融合现有本体构建技术，通过提取中华人民共和国国家版权局和中国裁判文书网数据，提出适合版权知识本体的自动构建方法。

关键词：本体；版权；知识库

DOIDOI：10.11907/rjdk.162585

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2017）006-0142-03

0 引言

随着社会发展，版权知识变得越来越重要。但是版权知识比较复杂琐碎，人们查找学习版权知识时比较困难。目前，大部分知识库都只是基于字符串检索，检索结果准确性差，知识获取效率低。本体作为语义网的重要组成部分，可以极大提高检索效率。本文旨在探讨版权知识本体的构建方法，最大程度减少构建版权知识本体的难度。

1 本体构建方法简述

由于领域知识在构建本体时有特定需求，比较成熟的方法有七步法、METHONTOLOGY法，另外还有骨架法、五步获取法、循环获取法。各方法的优缺点及用途比较如表1所示。

1.1 METHONTOLOGY法

METHONTOLOGY法是专门用于构建化学本体的方法，该方法支持本体层次构建，但是该方法无法进行更新迭代。该方法主要应用于化学领域，流程如图1所示。

1.2 七步法

七步法是由斯坦福大学提出的一种实用的本体开发方式，但是该方法没法评价过程，无法迭代更新，该方法适用于医学本体构建，开发流程如图2所示。

1.3 五步循环法

五步循环法主要用于语义网本体构建，该方法有评价环节，构建的本体可以迭代更新，但是该方法操作性差，难度大，因此适用范围不广。

2 版权知识本体构建

本文融合以上方法的优点提出新的适合版权知识本体构建方法，将版权本体的构建分成两方面，其中法律采用手动构建本体，而案例等采用自动构建。最后添加评价步骤，使得整个流程不断地迭代更新。在本体构建过程中，数据来源于中华人民共和国版权局和中国裁判文书网。

2.1 改进的本体构建方法

对于法律案例来说，一般裁判文书结构明确，适合自动构建。从样例中可以看出案例文书的结构非常直接，案例涉及的人物等信息很容易被准确提取出来。首先，本体构建分成两个主要方面，一方面是法律，因为法律的严谨性以及版权法字数较少，可以人工构建，中国裁判文书网涉及版权相关的数据条件大约有3万个。在已提出方法的基础上改进流程，使得符合版权知识的结构特点。流程为：①整理版权概念详细术语；②根据知识内容主要分为两个具有代表性的类型，法律和案例；③对于法律来说首先将概念之间的关系整理出来，构建概念模型；④使用OWL本体描述语言将第三步生成的结构化文档形式化表达；⑤评价法律本体；⑥对于案例，在本体模板的基础上，自动提取案例的概念以及属性；⑦检查案例本体是否具有逻辑错误。图3为版权本体的构建流程。

2.2 版权法律本体构建

法律本体是版权知识本体的重要组成部分。法律本体构建依据《中华人民共和国著作权法》、《计算机软件保护条例》等相关法律。法律本体包括著作权相关概念、权利、处罚等内容。

2.2.1 复用本体

目前已经有LKIF、FOLaw两个比较优秀的法律本体模型。LKIF 基于LRI-Core但是减少了对子类的约束。LKIF包含200多个概念，但是LKIF提出的概念太抽象。而FOLaw更像是一个认知框架，两者对于著作权相关法律本体的构建更多的是借鉴意义，复用意义不大。

2.2.2 版權知识概念关系抽取

根据领域知识界定，版权知识本体主要有9个类、55个子类、466个概念。这几个类通过概念关系互相构成一个网状的概念图，如作品、人物、权利等，如图4所示。根据概念关系图分类手动提取法律法规文本中的概念。

2.2.3 创建实例

构建本体框架以及提取概念及关系后，实例化本体的方法分为手动构建和自动构建。具体如下：①手动导入，可以通过本体构建工具Protégé手动构建本体。在Protégé的Individual by class选项卡中手动输入概念以及关系；②自动导入，通过提取概念关系后，版权法律法规中的概念以及概念之间的关系已经成为结构化数据。然后通过Jena语义网工具读取本体概念，添加本体的实例及属性的方式将概念或属性添加到本体文件中，实现本体自动扩充。

2.3 案例知识本体构建

案例裁定书一般由五部分组成：首部、事实、理由、判决结果、尾部。首部主要说明相关涉案人，事实包括公司再审审称和法院再审复查查明等，理由是判决依据，尾部是判决结果。

2.3.1 案例知识结构

根据需求，首先构建案例的概念之间关系以及概念跟属性之间的关系。图5为案例中的概念层次。

2.3.2 概念提取

（1）结构化数据提取。建立概念之间的关系以及属性之间的关系，需要提取概念来实例化本体，而且文书格式比较严格，所以根据正则匹配就可以提取出大部分概念。首先将文书按照格式规范分成5部分，根据开头词语确定该段落归属于哪一类。根据规范提取部分相关词如表2所示。

（2）非结构化数据提取。提取非结构化数据首先需要对文本进行分词，这一步使用开源框架IKAnalyzer分词工具进行分词、标注。在分词过程中使用版权术语表制作字典提高分词准确率，通过分词标注后，通过n-gram算法提取出其中的概念，将概念通过Jena语义网工具添加到本体中。

3 结语

由于本体在知识工程以及人工智能知识表示方面的优势，使得本体一直是语义网的重点研究方向。然而，本体的构建尚没有成熟的标准体系。由于国内也尚无标准评价体系和工具，本文没有讨论本体的评价问题。目前本体质量只能通过领域专家进行人工评定。本文主要讨论了版权知识的基本结构，分析构建本体的基本过程，为本体自动构建作准备。下一步主要研究将机器学习整合到本体构建的过程中，通过监督学习使得本体构建自动化。

参考文献：

[1]贾焰，王永恒，杨树强.基于本体论的文本挖掘技术综述[J].计算机应用，2006，26（9）：2013-2015.

[2]曹灿.基于本体的软件工程课程知识库研究和应用[D].北京：北京林业大学，2010.

[3]有关著作权（copyright）的一些词汇（中英文对照）[EB/OL].http：//blog.sina.com.cn/s/blog_4d53c365010188w7.html.

[5]郭冲，王振宇.面向细粒度意见挖掘的情感本体树及自动构建[J].中文信息学报，2013，27（5）：75-92.

[6]巫建伟，陈崇成，叶晓燕，等.基于Jena的土地适宜性评价本体知识库构建研究[J].计算机工程与设计，2014，35（1）：287-292.

[7]李景.主要本体构建工具比较研究[J].情报理论与实践，2014，29（2）：109-111.

[8]田宏，马朋云.基于Jena的城市交通领域本体推理和查询方法[J].计算机应用与软件，2011，28（8）：56-63.

[9]李景.本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D].北京：中国科学院研究生院，2004.

[9]尚新丽.国外本体构建方法比较分析[J].图书情报工作，2012，56（4）：116-119.

（责任编辑：陈福时）