德国e-Humanities项目TextGrid及其启示
2009-09-02曾勤
曾 勤
摘要TextGrid是德国D-Grid应用于人文科学的一个网格项目,目的是利用网格技术,为人文学者提供一个处理、分析、注释、编辑、链接和发布文本数据的网格工作平台,主要应用于文献编辑、语言学和辞典编纂等,并不断拓展在其他领域的应用。该文简要概述TextGrid及其对我国网格发展的启示。
关键词网格德国TextGrid
1引言
“网格”一词源于人们熟悉的电力网格,最初由研究并行计算和超级计算的学者提出,面向科学计算领域,被视为一种如电网那样的基础设施,希望像电力一样,打开开关就在一种“无形”的虚拟环境中共享和充分利用超级计算资源。因特网实现了计算机硬件的连通,Web实现了网页的连通,而网格是把整个因特网整合成一台巨大的超级计算机,实现各种资源的全面共享,彻底消除资源“孤岛”,为用户提供一体化信息和应用服务(计算、存储、访问等)。目前全球代表性的重大网格项目包括:亚太地区的ApGfid网格,美国的TeraGrid网格,欧盟的DATA-Grid和EuroGrid,英国e-Science计划,德国网格Deutschland Grid/D—Grid等。我国的代表项目有中国国家网格(CNGrid)和中国教育科研网格(China-Grid)等。这些网格项目主要是构建重要科学领域的全球协作基础设施,应用于生物、医学、物理、地理等自然科学领域。
e-Science作为一种新的全球性学术研究和协作环境,高性能计算资源、海量科学数据库、科学数字图书馆、野外观测台站、大型科学装置、计算模拟的软件工具等通过高速的网络联接,组成e-Science的基础设施与资源,实现资源集成共享,形成支撑科研人员大范围交流协作的协同工作环境。在e-Science基础设施支撑下,科研人员组成跨学科、跨组织、跨地域的虚拟组织,通过远程实验观测、计算模拟、协同工作等新的科研方法和手段开展科学研究活动。e-Science的基本特点是开放式的科学研究、大范围的资源共享和广泛的协同合作。而与e-Science相当的e-Humanities则旨在为人文学者提供一个动态而又虚拟的网络和跨学科环境,让人文学者能够通过分布式资源、协同合作的方法和标准化的网格计算,进行学术文本数据处理、分析、注释、编辑和链接,开展跨学科、跨组织、跨地域的人文科学研究。但是与网格技术被广泛应用于自然科学领域相比,用于人文科学的网格项目较为少见。本文将根据文献“TextGrid and eHumanities”简要介绍德国Text-Grid项目,希望对我国同类项目的发展提供一点借鉴和启示。
2TextGrid概述
德国Deutschland Grid(http://www.d-grid.de)简称D-Grid,由德国联邦教育和研究部资助,致力于将网格计算应用于科学研究。主要应用领域包括气象、高能物理、生物医学研究、生命科学应用和复杂工程解决方案等。作为D-Grid项目中唯一应用于人文科学的TextGrid(http://www.textgrid.de)于2006年2月开始启动,由六所德国大学图书馆和研究机构(Goftingen State and University Library;Darm-stadt University of Technology;Insfitut far Deutsche Sprache.Mannheim;University of Trier;University of Applied Sciences,Worms;University of Wurzburg)以及两个商业公司(DAASI International,Tubingen and Saphor,Tubingen)共同合作开发,旨在创建一个虚拟研究图书馆,在支持TEI编码的环境下开放源码和接口,为人文科学学者提供处理、分析、注释、编辑、链接和发布文本数据的网格工作平台,它的目标是在一个动态而又虚拟的网络和跨学科环境下促进学术研究。
人文科学学者运用计算机技术的历史可以追述到20世纪40年代末,Pater Roberto A.Busa首次使用IBM电脑,运用计算机技术创建了一个完整的关于St.Thomas Aquinas作品的词汇索引。从60年代以来,运用计算机技术开发文本分析的应用软件工具大致有三种类型:1)针对具体问题、语言或项目的专门程序;2)通用软件工具,如tustep提供高度可配置与操作的构件模块进行文本处理和分析;3)自80年代发展起来的易于使用的脚本编程语言。在以文本为基础的人文计算中,一个重要进展就是由TEI(http://www.tei-c.org)发展起来的标准化文本编码。它最初是在SGML框架内,现在转换为XML(P4)和Schema(P5)。TEI使用标示字体进行数据交换和文本结构理论交流,为广泛的学科提供组合式标签集合。因此TEI不只是提供信息交换,而且还是帮助学者提高描述文本特征能力的数据描述语言。
为满足e-Humanities发展,TextGfid以e-Science环境下的科学研究方法为基础,为人文科学研究提供一个人文计算基础设施。首先在学术文本处理领域,运用实证方法创建和使用数字文本,解决传统的和新出现的问题;其次通过利用分布式资源,引进合作方法和标准化工具提高文本数据处理水平。另外由于学科知识的局限性,有不少人文学者缺乏计算机科学知识的系统培训和对较复杂的网络技术的了解,因此TextGfid还需要为研究者提供一个易于安装和使用的图形用户界面和开放式接口、统一出版平台,以及允许用户定义工作流程和数据结构。TextGrid将自动完成如符号标记,创建索引,词语分类,结构分析,类型设置等一系列步骤。即使地理上相距遥远、操作系统不同、编程语言不同,TextGrid也能够提供一个统一的平台,允许用户对自己的模块进行扩展,对不同模块和数据进行整合和无缝链接。并且提供访问资源的透明度和安全性,为研究者创建开放式的科学研究、大范围的资源共享和广泛的异地协同合作的服务平台。
3TextGrid具体应用案例
TextGrid的应用之一是要在统一的字符编码标准、网络服务及其他标准基础上,为文字处理发展模块化平台。虽然最初重点是针对文献编辑,但是现在项目组已经在语言学和辞典编纂等方面开展工作并拓展它在其他领域的应用。它的开放式和可扩展的框架允许任何感兴趣的组织加入。随着一个活跃的TextGrid组织的逐步发展,它将会成为一个有生命的人文科学领域研究平台。
3.1文献编辑
TextGrid支持不同阶段各个版本的创建,从对书目资源的最初收集、注释、链接和整理进行排序,
到对各种版本提供广泛全面的检索。主要是对历史性的手稿和出版物通过高品质扫描将其数字化,并将由此产生的大量图像数据链接到存储网格,从而允许研究者对如此大量的数据资源进行存储和访问。原始资料的数字图片和可被计算机处理的文本之间的链接,帮助用户利用抄本的摘录阅读手稿中的图片、印刷与原稿相似且更具可读性的版本、从可检索和已注释的文本到扫描手稿相应部分的导航。通过部分自动操作(如分割原始图像)和整合链接过程,TextGrid软件工具可以大为简化繁琐的编码任务。
由于德国出版物的版本非常复杂,有时一部著作出版发行了上百个版本,在创建不同评论版本时,大量工作在于创建注释和元数据,对用于建立索引的人名或地名的标注可以提高读者对文本的理解程度。此外,网格中具有超强计算能力的软件工具可以自动整理和实时更新包括作品的起源以及各种评论的不同资源信息。TextGrid还提供一些易于使用的工具,支持编辑者共同创建注释和统一的书目信息,并将它们应用于全面检索、生成网页和自动翻译等进一步处理过程中。TextGrid整合不同学术版本的目标,得到了由编辑者引入的链接的明确支持,而且终端用户同样能够在所有链接的电子文本中执行全面的检索,包括使用文本的元数据限制搜索范围,从而排除一般网络搜索引擎所产生的大量不相干的结果。
3.2辞典编纂学和语言学的应用
TextGrid的目标之一是利用计算语言学、信息检索和网格计算等尖端的技术,基于可以被公开访问的语义网格框架,提供一个支持德国历史语言学和现代德语文集编辑的综合平台。此外,除了全文本检索,增加智能服务来满足不同语言学科的需求:如在语源学中用于搜索外来词汇、方言学中搜索区域异体字、词形学中在较大的复合单元中搜索词位和单个词素、句法中搜索适当的名词和术语、语义学中搜索词义(概念)以及相关语义的词、篇章语言学中搜索特定的文本类型等。
首先,TextGfid整合了从中古高地德语到歌德时代的八部历史语言字典和涵盖大部分西日耳曼语的五部方言字典,随后还会不断增加,并且将界面定义为针对更多外语字典和词汇资源的整合。其次,发展了不同时期的词形学分析工具,将该工具整合到一个信息检索系统中,可以自动发现不同词形的词位。同时通过词条、部分语句、地区和语言的形态句法信息丰富每个文集的标号内容。依据对称和转换,可扩大词汇入构项之间由于原始的交叉参考词汇所产生的词群。虽然这些确定的语义关系在印刷文献中没有被明确地标记,由于信息检索技术产生了新的链接,它们可以自动完成,由此产生的参考网络也可以手动地进行标注和扩大,或者在必要时进行限制。通过标准界面提供统一的搜索功能,如分类搜索中心词(词条),语法信息和其他内容(依赖于具体的字典:引证,定义等)以及对不加限定的纯文本、基于原有和新插人参考文献的语义上相关术语的搜索,大大提高了字典的实用性。
TextGrid的未来发展战略是建立一个能够更好地展现和管理不同地区和时代的词汇数据的辞典编纂者平台,能够计算语义关联;生成同现矩阵;校正不同语言或方言文集;继续扩大和丰富为辞典的链接而创建的词汇网;增加新的词素并对其标注;为今后对不同时期意思相同的词建立一个超词条的目录。
4对我国同类项目发展的启示
网格作为国家教育信息化重要的基础设施,其规模和应用水平已成为衡量一个国家教育与科研综合实力的一个重要标志,是创办世界一流大学、培养一流人才的重要物质条件。中国教育科研网格(ChinaGrid)是教育部“十五”211工程公共服务体系建设的重大专项,主要由生物信息学网格、图像处理网格、远程教育网格、流体力学网格和海量信息处理网格这五大专业应用网格构成,充分利用中国教育科研网和高校的大量计算资源和信息资源,开发相应的网格软件和运用网格技术将CERNET上分散、异构、局部自治的海量资源整合起来,通过有序管理和协同计算,消除信息孤岛,发挥综合效能,实现资源的广泛共享、有效聚合、充分释放,形成高水平、低成本的计算服务平台。它整合了全国20所高校的高性能计算资源、存储资源、数据资源、知识资源、专家资源等,为前沿科学研究探索提供了必备手段和条件。
随着我国ChinaGrid项目的不断拓展,借鉴德国D-Grid的发展计划与应用,可否建立ChinaGrid项目下的“ChinaTextGrid”,开发相应的TextGrid软件和运用网格技术为人文科学研究提供e-Humanities的基础设施?
众所周知我国幅员辽阔,历史悠久,无论是国家图书馆还是各高校图书馆和研究机构在人文科学领域都拥有丰富的馆藏信息资源,内容形式多种多样,包括图书、善本、珍贵资料、报刊、地图、照片、手稿、影视音频资料等。例如对我国古典文学名著《红楼梦》的“红学”研究,其相关文献资源的内容、形式和规模应该不亚于德国对Jean Paul的研究。Wtirzburg大学图书馆对Jean Paul资源的整合案例“Jean-Paul—Portal”(http://www.jean-paul-portal.de)为我们提供了很好的借鉴:Jean Paul是公元1800年左右德语古典文学史上著名的领军作家,他的作品及其研究评论著作和庞大的遗著(40,000页的手稿)大约有4 TB的数据。Wtirzburg大学图书馆尝试多媒体版本形式,用标准信息处理技术和TEI标记将手稿材料图像、抄本、所有印刷本图像、打印文档和评论版著作进行整合,对文本进行编码,同时以纸本印刷和电子形式出版。
借鉴德国TextGrid对Jean Paul资源的整合案例,我们可以考虑研发中文信息处理技术,将分布在世界各地图书馆或研究机构的“红学”资源,包括《红楼梦》版本、曹雪芹研究、版本研究、主题研究、艺术研究、人物研究、语言研究、结构研究、诗词研究等海量文献资源进行整合,对不同版本的著作及评论、历史性的手稿、抄本、图片、影视音频资料等,通过高品质扫描技术将其数字化,将由此产生的大量图像数据链接到存储网格,利用各高校的校园网格在ChinaGrid提供的统一平台和标准化工具基础上,共同创建和统一书目信息,对《红楼梦》相关的信息资源进行编辑、注释、链接、整理和排序,对各种版本提供广泛全面的检索,利用具有超强计算能力的网格软件工具对作品的起源或各种评论的不同信息资源自动整理和实时更新,提高文本数据处理水平,为“红学”研究者提供海量的数据资源存储和透明访问,达到资源共享和异地学术研究合作。
ChinaGrid提高了211工程高校公共服务体系的整体水平,实现了高性能计算环境、大型仪器设备等方面的整合共享,避免了重复投资,提高了使用效率。在ChinaGrid广泛应用于科研、教学等自然科学领域的基础上,为人文科学研究者提供全球性学术研究和协作的基础设施,对丰富的人文资源进行开放式的科学研究、大范围的资源共享和广泛的异地协同合作是未来e-Humanities的发展方向,值得我们进一步的探索和研究。同时也是对高校数字图书馆建设应用网格技术提供一体化平台、实现资源全面共享、解决海量数据处理、进行资源集成和知识管理的一个新挑战。