APP下载

文献语料管理系统设计分析

2024-09-21张超

科技创新与应用 2024年27期

摘 要:不少语言学科研项目需要建设文献语料库,对文献语料的管理需求越来越强烈,开发一套面向语言学者的文献语料管理系统非常必要。该文以清末民初西南文人白话作品和传教士文献的语料处理需求为出发点,对系统功能需求、系统流程、系统数据等进行分析、设计和实现,有效解决文献语料库建设中的语料管理问题。

关键词:文献语料库;语料管理;系统设计与分析;语言学者;管理系统

中图分类号:TN912 文献标志码:A 文章编号:2095-2945(2024)27-0143-04

Abstract: Many linguistic research projects require the construction of a literature corpus, and the demand for managing literature corpus is becoming increasingly strong. It is necessary to develop a literature corpus management system for linguists. This paper takes the processing requirements of the vernacular works of literati and missionary literature in the late Qing Dynasty and early Republic of China as the starting point, analyzes, designs, and implements the system functional requirements, system processes, system data, etc., effectively solving the problem of corpus management in the construction of literature corpus.

Keywords: literature corpus; corpus management; system design and analysis; linguists; management system

近年来立项的国家和地方各级社科课题中,有不少项目涉及文献语料库建设,早期北京话文献、客家方言文献、粤语文献、闽语文献、吴语文献和西南官话文献等,在不少课题中或多或少被涉及,如庄初升《海内外客家方言的语料库建设和综合比较研究》、李蓝《中国方志语言资料数据平台建设及词典编纂》、林华勇《清末民国汉语五大方言比较研究及数据库建设》、盛益民《基于文献考证与历史比较的吴语语法史研究》等。语料管理系统就是语料库的后端数据管理系统,用以管理语料库的后端数据内容。如何规范高效且准确地录入文献语料,使文献语料库有效地精确地服务于学术界,是语言学者普遍关心的问题。因此,开发一套面向语言学者的文献语料管理系统非常必要。本文参考于娜娜[1]、王松[2]、李仁均[3]等,以清末民初西南文人白话作品和传教士文献的语料处理需求为出发点,结合语言学界对语料库的应用需求,探析文献语料库管理系统的设计。

1 系统功能需求

参考孟克代力格日《托忒文文献语料库及其管理程序设计》[4]提供的经验,基于清末民初西南文人白话作品和传教士文献处理的需要,本文确定文献语料管理系统最基本的功能需求包括文献管理、语料管理、生僻字管理、用户管理和系统管理等5项,以下分别进行介绍。

1.1 文献管理

文献语料管理系统是为文献语料库的建设服务的,文献语料库中需要呈现文献的有关信息,故文献管理是文献管理系统中重要的功能模块之一。该模块下包括文献分类管理、文献对象管理、文献目录管理等。

文献分类管理。允许用户根据研究需要建立自定义的文献分类,可编辑的信息包括分类名称、类别备注、排序号等。

文献对象管理。可编的信息项目包括编号、名称、分类、著者、出版者、出版时间、内容简介和封面图片等。

文献目录管理。是针对特定文献对象目录内容而进行的增删查改操作,可编辑的信息项目包括目录名称、上级目录、所在页码范围等。考虑到实际文献可能有多级目录的现象,文献目录管理模块要具备按层级建立目录的功能。

1.2 语料管理

语料管理是对文献语句进行的增删查改操作,基本功能包括新增语料、修改语料、删除语料及检索语料等。可编辑的语料信息包括文献语句、文献释义(可空)、简体对照(可空)、繁体对照(可空)、外文对照(可空)、普通话对译(可空)、所在文献、所在页码和所在目录等。

文献的语料都要明确归属于特定文献,为避免错置归属,宜将语料管理作为文献对象管理的子功能模块来设计,即在文献对象操作区内加“文献语料管理”功能按钮作为文献语料管理入口,这样可以省去选择语料对应文献的操作,并且有效避免错置文献。

1.3 生僻字管理

生僻字是指当前主流输入法在启用大字符集的情况下仍不能输入的汉字。比如,清末传教士西南官话文献《华西官话汉法词典》中的“”(西南官话中形容小孩爱捣乱且不听招呼),“”(西南官话中指铺床的动作),“”(‘搊’的简化,指用手从侧面对人或物体提供支撑的动作)等汉字,在当前主流键盘输入法(比如搜狗输入法)启用大字符集或“生僻字”选项情况下仍无法输出,用逍遥笔手写输入法也无法输出,就宜把它们定为生僻字。对这类生僻字,寇冠等[5]《基于字符集编码扩展的通用生僻字解决方案探索与实践》处理思路可以借鉴参考,但考虑到数据库字符集支持等问题,于本文讨论的文献语料库中暂时难以适用。本文讨论的文献语料库需要考虑到后端和前端对字符的支持情况,要尽量满足大部分学者的检索应用需求,宜尽量用通用字符集解决问题。综合考虑后,本文确定对生僻字的处理策略为:在数据库中存储其图像,建立具有唯一性的编号,文献语料中该字的位置用其编号占位,用户在前端检索时,可以用其编号作为关键词。为了让用户较方便地查检到生僻字的编号,需要允许用户在生僻字表中多维度地检索生僻字,为此,生僻字管理模块需要编辑生僻字的编码、读音、构造部件、图片、来源文献与备注等信息,以方便用户选择不同的字段信息进行检索。

1.4 用户管理

用户管理是指对语料库用户的增删查改操作。根据系统模块功能特点,需要对用户进行权限管控。用户数据模型预置系统管理权、用户管理权、文献管理权、语料管理权和生僻字管理权等,在添加或修改用户过程中,根据实际需要对用户合理赋权。具有这些管理权之一的用户都是管理员,可以进入文献语料管理系统;不具备这些权限的为语料库普通用户,不能进入文献语料管理系统,只能在前端查检应用数据。

1.5 系统管理

系统管理是对系统基础信息的设置操作,所设置的信息项目包括语料库所有权人及其基本信息、语料网网站名称、语料库网站工信部备案号、网站网安备案号及语料库平台简介等。

2 系统流程分析

2.1 系统外部数据流图

文献语料管理系统的外部数据流表现为系统管理员、文献管理员、语料录入员、语料审核员和生僻字管理员等角色与文献语料管理系统之间的关系,如图1所示。各角色分别与文献管理系统发生数据交互。

系统管理员:主要负责系统设置、用户增删及权限设置等操作。文献管理员:主要负责文献分类、文献对象、文献页面和文献目录等的管理操作。语料录入员:主要负责文献语料的录入保存操作。语料审核员:主要负责语料内容的复核和审核操作。只有审核通过的语料才向前端开放查检权限。生僻字管理员:主要负责文献生僻字的统一编号和录入操作。

2.2 文献管理系统核心数据工作流

文献管理系统核心数据是文献语料,相应地,核心操作就是语料的录入和审核。系统处理流程图如图2所示。流程中包括语料录入员和语料审核员2个角色。语料录入员录入语料,提交审核。语料审核员执行审核,判断是否通过,不通过的语料退回语料录入员界面,语料录入员修改后重新提交审核。审核通过的语料则入库待用,可以进入前端查询应用范围或作进一步研究处理。

图2 系统处理流程图

3 数据分析

3.1 文献基础数据

文献基础数据包括文献分类、文献对象、文献页面和文献目录等,由文献管理员录入处理。由于这类数据不复杂,前端应用精确度需求并不高,故这类数据的处理不需设置审核流程。

3.2 文献语料数据

文献语料数据是文献语料库的核心数据,是供用户查检应用的具有科研价值的数据,有精确度的需求,故语料录入后需要经过一次审核操作才能正式进入待查检应用状态。为确保语料有应用价值,语料尽量以意义相对完整的句子为基本录入和存储单元。由于文献语料都是以文字形态存在的,一般没有对应的音频和视频,所以都是以文本方式存入数据库。

4 系统实现与应用

文献语料管理系统采用Python服务器编程语言,基于Django框架而设计,在张超教育部社科课题“基于百年前西南文人白话作品和传教士文献的清末民初西南官话语法研究”、庄初升国家社科课题“海内外客家方言的语料库建设和综合比较研究”、林华勇国家社科课题“清末民国汉语五大方言比较研究及数据库建设”等项目研究中进行了应用,系统运转正常,极大地提升了文献语料录入处理的效率,并确保了语料的精确度,进而确保了文献语料的学术价值。

以下展示文献语料管理系统在处理清末民初西南文人白话作品和传教士文献的语料过程中的部分界面。图3为文献类别列表界面,用户可以在该界面进行文献类别的增删查改操作。

图4是文献对象列表界面,用户在该界面除了进行基本的增删查改操作之外,还可以对文献进行目录、页面和语料的管理。

图5展示了《华英捷径》这部传教士西南官话文献后台目录管理界面,用户在此界面可以针对这个文献进行目录的增删查改操作。文献对象和目录之间构成主子关系。

图6展示了《西语译汉入门》这部文献的页面对象管理界面,用户在该界面可以进行文献页面的增删查改操作,还能看到各页面下的语料数量。

图7为《华西初级官话课程》这部传教士西南官话的语料管理界面,用户在该界面可以进行语料的增删查改操作,也能查看语料对应的页面图像,方便用户在处理语料过程中进行数据核对。该页面也支持数据导出操作。

5 结束语

文献语料库通常是文献整理研究类课题项目配套的重要成果之一,而文献语料管理系统是文献语料库的后端管理平台,是确保文献语料快速准确录入和为前端提供数据格式的处理工具。本文以清末民初西南文人白话作品和传教士文献的语料处理需求为例,分析了文献语料管理系统的基本功能需求、系统处理流程、系统数据等,并采用Python服务器编程语言,基于Django框架进行了设计实践,有效满足了文献语料库建设中的语料管理的实际需求。

参考文献:

[1] 于娜娜.基于B/S架构的语料库管理系统[D].哈尔滨:哈尔滨理工大学,2018.

[2] 王松.基于Spark的会话语料库管理系统[D].石家庄:河北师范大学,2020.

[3] 李仁均.抑郁语料采集与管理系统的研究[D].兰州:西北师范大学,2023.

[4] 孟克代力格日.托忒文文献语料库及其管理程序设计[D].呼和浩特:内蒙古大学,2011.

[5] 寇冠,刘良俊,徐晓剑,等.基于字符集编码扩展的通用生僻字解决方案探索与实践[Z].北京市:中信银行股份有限公司,2021-09-11.