APP下载

云南省数字档案馆专题数据库建设持续推进
——以民国档案人名数据库为例

2020-12-06

云南档案 2020年6期
关键词:姓名著录民国

■ 连 超 艾 丽

怎样更快、更准查找档案,怎样深入挖掘和开发档案信息,是档案工作永恒的主题。云南省档案局十年数字化大幅提高了档案利用效率,但仍只是在一定程度上解决了查阅者的需求。为了更加精准查找档案,推进大数据应用,省局相继开展了十几个专题数据库建设,其中馆藏民国档案人名数据库就是其中一个基础性数据库。该数据库是以方便快捷查阅云南省档案馆馆藏民国档案数字化原文为目标,以每件卷内文件为对象,围绕人名采集相关信息,并聚合档案数字化原文查看路径、安全管理信息所构建的专题数据库。2019年首期项目已完成任务190万条,取得较好效果:一个人在卷帙浩繁的民国历史长河中所经历发生的各个事件记录,只要输入姓名关键字段一检索,几秒中之内就可以查找完备。不仅查准查全率的层次大幅提高,而且使人物在发展轨迹的归集上有迹可考、有章可循。

建章立制 规范开展建设

建设伊始,规矩先行,民国档案人名数据库注重数据采集的规范性。我们先后制定了《云南省档案馆馆藏民国档案人名数据库建设业务规范》《馆藏民国档案人名数据库建设成果质量验收规范》等规章制度,逐步建立起切合工作实际的规范标准。重点把握以下几方面要求:

采集项目的范围,重点是关键字段的设置。怎样清晰地把一个人同其他人区别开来?通过设置姓名、身份、机构名称、职衔、地名、称谓、字、别号、曾用名、籍贯等著录字段,基本可以达到目的。即使万一有重名的情况,但是身份、职衔、籍贯等其他信息不可能完全相同。

姓名信息的著录,重点是格式的完整统一性。对照档案数字化原文,采集文件材料正文中出现的人物的姓名,同一人物姓名在同一件档案中仅需采集一次,受文者、发文者及文件正文中与文件主题有直接关系的人物均应采集。一是按文件材料所书写的姓名进行著录,如原文书写为“字”“别号”“曾用名”的,原则上应照原文著录并加考证并补充著录其学名。如龙志舟【龙云】、松坡【蔡锷】;二是书写为“职衔+姓”的人物,原则上应著录其全名。如云南省建设厅发文,正文中写为“厅长张”的人物,应著录为张邦翰。

身份信息的著录,重点是科学划分所属群体。著录规则主要有两点:一是机构、军队或党派身份,著录格式为完整的机构(军队、党派)名称+职衔,如:云南省政府主席、中国银行昆明分行经理、第六十军上士、云南省财政厅第一科科长、西南联大历史系研究生;二是个人、社会、群体身份,著录格式为地名(社群名)+称谓。如:保山县商民、昆明火柴同业公会会长、腾冲县士绅、云南旅京同乡会成员、元江县第四区乡民等。但在采集过程中,发现一些人本身已有所属单位和职衔,但在某一段时间内,被临时抽调组建新的团体。比如某件档案主题是抽调某些县长去某机构参加某种培训,那么此时他们的新身份就是学员。所以应按该人物在该件档案原文中表述的身份进行采集。

问题导向 优化工作方法

档案开发的目的在于更好地应用。在工作实践中,需要以问题为导向,进而提出有针对性的解决方法,以点带面,逐步总结出有借鉴意义的经验范式。

强化培训,准确理解民国行文。民国档案竖行文,繁体字,基本上都不是规整的印刷体,而是手写的毛笔字,还有许多狂草,加上各种圈点勾画,更显潦草杂乱,通篇不加句读。有些繁体字和现代字的字形反差很大,想当然地理解,就容易录错。比如古体字“裏”,就是现在的“里”,但容易理解为现代字“裹”;又如古体字“彙”,就是现在的“汇”,但容易理解为现体字“橐”。要想从字里行间找出人物姓名,需要采集者对中国传统文化的渊源和艺术鉴赏力有较深厚的功底和知识储备,尤其是对各种毛笔字体,如行楷篆隶等都有涉猎。另外,民国行文习惯在今看来时有不通顺,如政府特派尚委员嘉惠,其实就是该特派员叫尚嘉惠;又如李前县长浚,其实就是前任县长叫李浚。所以要求采集者能迅速判断出令、公函、呈、布告、批谕、咨等各种范式,较熟悉民国公文用语和地方机构的设置与演变。再次,民国时期的职务和现今有所不同,有一些沿袭下来的历史典故,如原文件里落款为“某政府主席代行拆”,何谓“代行拆”,字面的意思是代替该主席拆文阅览,其实就是秘书。那么,著录身份的时候,就要适时转换为今人的职衔。

数据清洗,信息考证辅助查重(chong)。查找并处理异常数据,发现并处理不具备有效检索作用的人名、机构、地名等著录信息,确保数据可用,检查并删除重复数据,达到同一件档案内无重复数据的要求。同时,发现文件中一些人名价值不大,从而进一步甄选采集范围,确保数据的完整性、规范性、一致性、有效性。主要有几大类无需采集的姓名:一是无衔职的普通民众。如壮丁、杂役、伙夫、马夫等;二是流程式人物。如拟稿、核稿、校对、监印、签收等与文件主题无关的人;三是难以考证之人。如原文或印章无法辨识的人、有姓无名之人。

自检内检,双管齐下谋求质量。我们发现,如果只是单纯求快,员工只顾采集,不能有效地敦促加工人员。只有引入绩效,才能使员工形成压力和动力,进而达到质量和效率的统一。每名采集人员需要对自己录的条目负责,每天采集完成的数据,需要检查准确性;加工公司内设专职质检,统计错误。两层检查以后,再分批提交监理公司验收。监理人员逐件打开图像,逐条对照姓名查验,每卷发现错漏的情况超过三条就要打回,不告知加工公司具体错误,促使其自行查找改错。如此往复,直至错误率为零。

立足当下 展望数字时代

馆藏民国档案人名数据库的建设集应用性和趣味性于一身,查阅者徜徉于云南民国时期的世情百态,遍览各色曲折事件、风貌人物,知识性丰饶、应用性广泛,具有较高的社会利用价值。为全方位深入挖掘各种潜在的数据资源做出了良好的诠释,也为全面推进信息化开发建设、迎接大数据时代的到来做出了很好的铺垫。

猜你喜欢

姓名著录民国
常用参考文献著录要求
常用参考文献著录要求
常用参考文献著录要求
梁潮印笺·姓名章戢孴
他们为何都爱民国?
姓名的『姓』字为什么是『女』旁?
民国人爱刷朋友圈
本刊参考文献著录要求
民国书家与民国书风
午社“四声之争”与民国词体观的再认识