APP下载

面向数字人文的知识服务出版模式探索

2018-04-26薛志红

中国出版 2018年5期
关键词:知识库学术人文

□文│薛志红

近年来,随着信息技术发展及其在科学研究领域的应用,数据收集和处理方式发生了巨大变化,科学研究的方式也发生了革命性的变化,于是出现了基于数据密集型的科学发现新模式。美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)2007年提出数据密集型科学类型,2009 年微软研究院出版了《第四范式: 数据密集型科学发现》(The Fourth Paradigm: Data-intensive Scientific Discovery),提出了基于数据密集型计算的科学研究“第四范式”。数据驱动的科研发现和基于研究数据的知识管理,已经成为许多领域的重要基石,包括人文社会科学领域。[1]基于数据计算和应用的数字人文(Digital Humanities)成为人文领域的创新研究范式并得到广泛关注。

人文学界纷纷开展数字人文研究,哈佛大学、北京大学和中国台湾“中研院”三方合作建立“中国历代人物传记数据库”(China Biographical Database,简称CBDB),复旦大学历史地理研究中心开发中国历史地理信息系统(CHGIS),南京大学双语词典研究中心利用语料库开展辞典编纂和翻译学研究等;欧美国家的一些大学已经建立了跨学科的数字人文研究中心,如美国乔治梅森大学历史与新媒体中心、加州大学洛杉矶分校数字人文中心、剑桥大学文字与语言学计算中心、美国斯坦福人文实验室、伦敦国王学院数字人文研究中心,等等;国际上的数字人文研究联盟也已经出现,各种数字人文主题会议在全球频繁召开,南京大学于2017年6月举办了“数字人文:大数据时代人文研究前沿与探索”学术研讨会。

人文学术出版作为科学研究的重要支撑,必须支持数字人文这种研究范式。2016年10月,国家新闻出版广电总局提倡“关注知识挖掘与发现、知识关联与重组、知识应用与管理、自然语言理解与深度学习等技术;关注主题词表、叙词表、本体建设等工具;关注知识资源加工、资源管理、产品运营与服务管理等系统;关注知识服务模式创新”。[2]2018年1月9日,中国出版协会常务副理事长邬书林在第八届中国学术出版年会演讲时指出:“信息技术的进步对学术出版提出了新的要求,……国际上学术出版已从单纯的出书、出刊、出数据库,到现在自觉把出版工作融入科学研究、经济发展和社会生活当中,为其提供知识和信息的解决方案,为科学家、经济决策人、读者更好地从事科学研究、经济发展和社会生活提供知识和信息服务,这已经成为出版的新的重要理念。近年来,中国出版业也响亮地提出了知识服务的出版理念。”[3]当前,国外数据库出版商盖尔公司的盖尔学术平台(Gale Scholar)和谷歌公司的谷歌图书搜索(Google Book Search)等在功能上支持数字人文;中国知网2017年首页改版,不再突出信息资源特色,而是通过“大数据研究平台”“协同研究平台”“行业知识服务与知识管理平台”“中国经济社会大数据研究平台”等入口突出对科学研究全方位的支持;中华书局通过“二十四史”本体创新性地支持历史领域的数字人文研究,南京大学出版社“基于引文索引数据库的人文社会科学双语术语库”项目,为面向数字人文的知识服务提供术语保障。

人文学界和包括学术出版社在内的知识服务领域的探索为数字人文的发展提供了经验,但不可否认的是,数字人文和面向数字人文的知识服务才刚刚起步。学术出版社要深入研究面向数字人文的知识服务:数字人文究竟是怎样的研究过程,需要哪些知识服务来支持?当前语义出版、数据出版、增强出版等新的出版形态是否完全支持数字人文这种研究范式?面向数字人文的知识服务有哪些特点?面向数字人文的知识服务的生存和发展模式是什么,社会效益和经济效益如何?本文拟探析上述问题。

一、数字人文及其研究过程

数字人文的前身是“人文计算”,由20世纪40年代意大利著名人文学者罗伯特·布撒(Robert Busa)神父提出,其目的是:将学者从繁杂琐碎的资料收集整理工作中解脱出来;专注于提出问题和学术发现;极大地提高研究效率,促进学科发展。20世纪60年代,数字人文在语言学领域获得较多研究和应用,产生了大量基于语料库语言学的理论和实践。大数据时代,数据足够丰富,计算能力足够强大,通信交流足够方便,数字人文研究范式以全新的形态受到广泛关注。

尽管数字人文在很多领域有丰富的实践,但学界一直未对“数字人文”给出准确定义。约翰·昂斯沃思(John Unsworth)2002年提出的“‘人文计算’是一种代表性的实践、一种建模/模拟的方式,一种推理、一个本体论约定。这种代表性的实践可分为两个方面,一方面是高效的计算,另一方面是人文沟通”是一种比较经典的表述。计算的目的是为了知识发现,沟通的目的是为了知识表达并辅助知识发现。比如,黄敏聪对55组基本汉字的简繁体进行“人文计算”,获得了其从1946~1990年间在书籍上的使用频率,从而发现汉字简繁体的演变过程;[4]又如,CBDB项目通过社交网络方式给出朱熹的通信网络[5](见图1),以视觉沟通形式进行知识表达;其对朱熹通信网络的计算,给出朱熹人际交往中的亲疏关系和社群关系,并进一步发现影响朱熹思想的人物,这就是知识发现。

刘炜总结了数字人文研究与传统人文研究的不同之处(见表1)。[6]

图1 朱熹通信网络

表1 人文研究的两种范式比较

数字人文的研究过程如图2所示。人文学科的文献经过数字化储备,形成以版权作品为单元的文献型数据库;综合若干学术需求进行知识组织,设计知识单元,依此对数字化文献进行碎片化的知识单元抽取,形成包含实体和实体关系的领域知识库;针对人文学科问题构建模型,结合具体算法研制平台工具,形成模型工具库;利用模型工具对知识库中的知识单元进行知识表达或知识计算,知识表达的形式为知识图谱,知识计算的形式为数据报告;这些数据报告和知识图谱经人文专业学者分析解释后,用于发现或印证相关知识,形成人文成果;相关成果进入科学交流体系,经过同行评价,部分成果成为有价值的新知识。

图2 数字人文的研究过程

上述研究过程,除了“学术需求”提出和数据报告的“分析解释”由人文学者独立完成,其他过程都离不开知识服务的支持,可以说,知识服务融入整个数字人文的研究周期。

二、面向数字人文的知识服务内容

从数字人文的研究过程可以看出,面向数字人文的知识服务应该包含以下内容:①数字化文献储备,②知识组织,③模型构建和工具研制,④知识表达和知识计算,⑤知识交流和知识评价。这些内容有的包含在语义出版、增强出版、优先出版等新型服务中,有的还需要新的出版业态来完善。

1.数字化文献储备

以版权作品为单元的高质量、全面完整的文献型数据库是数字人文的基础,离开大量原始文献的数字化积累,数字人文将成为无源之水。这些文献包括电子书、期刊、音频视频图像作品,文献型数据库通过版权元数据进行组织,其服务功能主要是提供篇章层次的检索。数字化文献储备是当前学术出版提供服务的主要领域。

2.知识组织

知识组织通过知识单元的提取和结构化构建知识库,为知识表达和知识计算做准备。这里的知识单元包括各种粒度的结构性知识和概念性知识,如细粒度的术语、实体、公式、图像,中粒度的句子和段落,以及粗粒度的章节、数据集、附加资料等。知识组织体系,如主题词表等,本身是轻量级基础知识库,同时支持领域知识库构建。

语义出版是当前知识服务的主要形式,在语义出版领域,根据构建目标和知识组织方式不同,又有纳米出版物和微型出版物[7]两种形式。需要说明的是,随着原生数字化文献的产生和知识服务的需求不断提出,文献型数据库和知识库融合出版加强,研究型数据库不断出现。

知识库包含人机共读的结构化数据,其用户有两种,一是用户,二是机器。这种人和机器都能读懂的编码化知识被称为“智慧数据”。[8]当前语义出版的功能主要为用户提供基于知识单元的检索,在服务数字人文研究方面,其作用有待进一步开发。语义出版要服务于数字人文,被机器使用,必须借助相关模型和工具。

3.模型构建和工具研制

模型和工具的使用是数字人文研究范式与传统人文研究范式的最大区别。以下为数字人文研究常用的模型:①自动分类聚类模型,用于梳理文献热点前沿;②自动摘要模型,实现海量文本“遥读(Distant Reading)”;③统计分析模型,发现人文要素之间的关联;④GIS分析模型,发现空间与人文要素的关联;⑤社交网络模型,研究重要人物的社交关系和思想渊源。

工具是实现模型的计算手段,与算法有关,直接面向终端用户,模型与算法之间存在1:n关系,不同算法实现的模型有所区别。

在数字人文研究中,用户根据需求自主自助选择模型工具进行知识生成,模型工具库是知识服务的新内容。模型工具库构建是语义出版的延伸,是面向数字人文的知识服务的必然趋势,它促使检索服务走向计算服务,从而实现“智慧服务”。中国知网在“中国经济社会大数据研究平台”[9]中提供了若干相关分析模型、统计预测模型等,值得借鉴。

4.知识表达和知识计算

知识表达的方式可以是可视化知识图谱,也可以是GIS地图,还可能是词云等;知识计算的结果是相关数据报告,这些报告也可能以图谱形式表达。这种知识服务借助平台,是数字人文成果的一种形式,可以成为增强出版的一部分内容。

5.知识交流和知识评价

无论是传统人文还是数字人文,其研究成果都要进入科学交流和评价体系,才能彰显其价值所在。学术出版的最初使命就是促进科学交流。数字人文更加促进人文成果的生产,优先出版这种形式突破传统出版的周期约束,成为必然趋势。数字人文作为数据驱动的研究范式,其成果的来源数据和研究过程应该被学界重复检验。当前增强出版服务主要是数据出版,面向数字人文的知识服务应该进一步支持计算过程的公开,便于学界对数字人文成果进行客观评价。另外,目前学界流行的基于文献计量的评价体系不再适应,新的评价体系有待探索。

三、面向数字人文的知识服务特点

面向数字人文的知识服务呈现出以下特点。

1.平台化趋势

面向数字人文的知识服务是基于智慧数据的服务,可以看作是“智慧服务”,用户使用平台自助完成知识生产是必然趋势。在2014中文数字出版与数字图书馆国际研讨会上, 时任国家新闻出版广电总局副局长的邬书林在谈及我国知识与信息生产传播业未来走向时,用了一个形象的比喻——从“超市”模式向“餐馆”模式转型。[10]随着“信息时代正在走向数据时代、数据时代同时在走向计算时代”,[11]面向数字人文的知识服务可以比喻为自助式“学术厨房”,在这个厨房中,知识服务者准备了经过清洗、分类、编码的食材(知识库),提供各种煎炒烹炸的厨具(模型工具库),还有各种餐具容器(知识表达和知识计算结果陈列),最后厨房实现全透明装修(知识交流和评价)。针对不同学科和问题,“学术厨房”预设各种菜谱,各种厨具可搭配使用,也可自行组装生成新的厨具。这个“学术厨房”提供知识生产的环境,在内容上更加重视知识库出版和模型工具库出版,在形式上表现为融检索功能、计算功能、可视化功能、自助订制功能于一体的平台出版。

2.融入式服务

面向数字人文的知识服务是一种融入式服务,一方面,从知识服务内容可以看出,这种知识服务是一种全生命周期的学术支持,与仅提供科学交流服务的传统出版有根本区别;另一方面,这种知识服务也离不开人文学界的支持和参与,人文学界的学科特色和问题导向直接影响知识库的构建和模型工具库的构建。

在知识组织中,不同学科有不同的学术指向。比如,同样是历史领域知识库,中国古代史、中国近代史与中国当代史知识库的概念模型有很大差别。中国古代是家天下,中国古代史知识库重视历史人物之间的血缘关系表达;中国近代史中战争战役频繁,近代史知识库必须将战争战役作为一个大类并详细设定其属性;当代中国史以国家建设为主要内容,战争战役的属性设置可以简单些,人物之间的血缘关系也不再是重要的关联。

在人文领域,由于知识的时空依赖性、主观性、不确定性、模糊性和争议性,[12]知识库的构建必须依赖人文领域专家,无论是通过机器深度学习抽取知识还是人工标注知识,知识单元的专业性和知识关联的准确性一定要经专家认可。

在模型构建和工具研制中,同样的分词工具,依据通用词表所作的分词和词频统计基本不可靠,文本挖掘结果不能发挥“遥读”的功能,学科专家必须参与词表研制。

随着知识服务成为需求,中国科学院文献情报中心最早提出“融入一线、嵌入过程”的“嵌入式”学科服务模式。[13]北京大学图书馆连续两年举办数字人文论坛,主题分别是 “跨界与融合:全球视野下的数字人文”和“互动与共生:数字人文与史学研究”。学术出版和图书馆都要支持面向数字人文的知识服务,二者应相互配合。图书馆有组织上的优势,能够实时嵌入研究过程,学科馆员对人文学科有足够的了解;学术出版有资源和资金上的优势,能够解决版权问题和调动社会力量。学术出版一方面要从图书馆了解学科需求,另一方面与图书馆在学科知识组织体系等方面进行合作,共同推动数字人文研究。

四、面向数字人文的知识服务生存发展模式

中华书局的“二十四史”本体项目于2014年结项,是出版界最早构建的知识库,目前一直未成为产品形态,其原因就是盈利模式不清。学术出版也是一种市场行为,面向数字人文的知识服务必须考虑生存模式,才能形成良性循环。鉴于整个知识服务都处于培育和探索阶段,本文仅做一定的分析,认为业态可能出现如下特征。

1.经济效益与社会效益并行,外力支持启动服务创新

面向数字人文的知识服务是一种新型人文学术出版,仍然遵从学术出版的经济效益与社会效益并行的特点,当前阶段应是以社会效益为主、经济效益为辅。2015年3月,国家新闻出版广电总局下发《关于开展专业数字内容资源知识服务模式试点工作的通知》,并在经过专家评选之后,选取28家单位作为知识服务模式探索的试点单位;[14]2018年年初又公布了第二批27家试点单位。[15]语义出版是面向数字人文的知识服务的重要内容,政府的引导和支持就是希望通过项目产生社会效益,从而培育市场,促成经济效益的产生。在这种情形下,通过纵向政府扶持或横向与科研机构合作项目,成为很多出版社面向数字人文开展知识服务的起点。有实力的出版社,建议可独立开展此类服务的探索。另外,鉴于面向数字人文的知识服务投入大、风险高,因此应在项目初期进行原型系统设计,并将原型系统提交学界讨论,一是充分听取学者的意见,二是扩大社会影响力。

2.资源出版与数据工具出版并行,开放出版与版权出版同步

面向数字人文的知识服务凸显数据和工具的价值。人文学科尤其重视所引用知识的出处,为保障知识单元的有据可查,应该建立知识单元与来源文献之间的关联。一般情况下,用户点击知识图谱中的知识单元或关联关系时,平台应给出来源文献。也就是说,在面向数字人文的知识服务中,资源出版与数据工具出版并行。在当前用户体验不足的情况下,知识库和模型工具库应该开放出版,而文献资源库可有偿使用。

3.大众出版与定制出版并行,产品形态丰富多样

面向数字人文的知识服务是需求驱动型服务。人文学者的研究旨趣影响着知识库的文献来源、知识单元粒度、概念关系模型和模型工具库的设计。知识库和模型工具库的构建是一个不断迭代的过程,无论当前如何深挖用户的潜在需求,知识库的设计总有不完善之处,工具算法总有不满足的地方。知识库的设计一旦定型,再次修订投入会很大,出版商应首先满足大众出版的需求,再在有条件支持的情况下开展定制出版。

宝宝看到新奇事物,总想知道这是什么、为什么这样?所以就会去动动摸摸、敲敲打打。让他按照自己的意愿去进行,才能满足他的学习需要,因此,不堵塞宝宝进行自主学习的路是原则。

五、结语

数字人文作为一个以跨界与融合为特点的新兴领域,还将不断变化和再定义,无论是数字人文的学理研究,还是数字人文的实践应用都还处于初级阶段。对于学术出版社面向数字人文的知识服务来说,更是面临诸如学界需求方向、技术支持程度和商业模式的挑战,本文仅就其中的部分问题进行尝试性的探析,有待学界和业界的进一步理论研究和实践探索。

注释:

[1]Hey T,Tansley S,Tolle K.第四范式: 数据密集型科学发现[M].潘教峰,张晓林,等,译.北京: 科学出版社,2012

[2]关于开展首批新闻出版业科技与标准重点实验室申报工作的通知[EB/OL].http://www.sapprft.gov.cn/sapprft/contents/6588/306381.shtml

[3]邬书林.抓住信息技术进步机遇,提升学术出版水平[EB/OL].http://www.sohu.com/a/216991262_692521

[4]黄敏聪.基于人文计算的汉字简繁体演变定量分析[J].科技视界,2012(18)

[5]中国历代人物传记资料库——从轶事到资料[EB/OL].https://projects.iq.harvard.edu/cbdb/presentations-and-papers

[7]王晓光,宋宁远.语义出版物的内容组织架构研究——基于纳米出版物和微型出版物的比较分析[J].出版科学,2017,25(4)

[8]曾蕾,王晓光,范炜.图档博领域的智慧数据及其在数字人文研究中的角色[J].中国图书馆学报,2018(1)

[9]来源于中国知网http://data.cnki.net/

[10]知识服务或将成我国数字出版产业新拐点[EB/OL].http://culture.people.com.cn/n/2014/0708/c87423-25254827.html

[11]张晓林.颠覆性变革与后图书馆时代——推动知识服务的供给侧结构性改革[J].中国图书馆学报,2018(1)

[12]董慧,余传明,杨宁.基于本体的数字图书馆检索模型研究(Ⅲ)——历史领域资源本体构建[J].情报学报,2006(5)

[13]初景利,张冬荣.第二代学科馆员与学科化服务[J].图书情报工作,2008(2)

[14]国家新闻出版广电总局.关于开展专业数字内容资源知识服务模式试点工作的通知[EB/OL].http://www.gapp.gov.cn/news/1663/247536.shtml

[15]国家新闻出版广电总局.第二批专业数字内容资源知识服务模式试点单位遴选结果公告[EB/OL].http://mp.weixin.qq.com/s/X-iCP8d wKZ6W0EwwOcSAzw

猜你喜欢

知识库学术人文
汉语近义词辨析知识库构建研究
学术是公器,不是公地
如何理解“Curator”:一个由翻译引发的学术思考
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
对学术造假重拳出击
人文绍兴
人文社科
高速公路信息系统维护知识库的建立和应用
谁来教“医学人文”课
让人文光辉照耀未来