高校学籍档案单机可视化检索实证研究
2019-05-24孙学政
孙学政
摘 要:依托共享数据,对数字化学籍档案重命名,构建以姓名为主要检索标识的系统,借助everything检索软件,实现基于文件名的高效检索。数字化档案有序存放在指定文件夹,在可视化的情况下,文件夹同样具备检索功能。高校学籍档案单机可视化检索实证操作,简单易学,软硬件投入低,在涉及人名的档案检索中优势明显,因受限于文件名长度,与基于档案内容本身的智能化检索相比,有明显的不足之处。
关键词:学籍档案;数据清洗;数据加工;可视化检索
档案网络化智能检索利用是档案工作的终极发展方向,有朝一日,你想查看自己权限内的档案,只要说一声,检索结果就瞬间呈现在你眼前。档案作为核心的信息资源,很大一部分需要限制利用,在利用时需要做好用户身份识别与权限控制。就目前的技术水平而言,做到档案网络化智能检索利用并不难,但从投入产出比来看,很多档案不值得这么做。与高端的网络化智能检索系统相比,如果以不到10万元的软硬件投入,做到只输入一个学生的姓名(遇到同名情况时增加相关检索条件)就瞬间看到该生的新生录取名册、学籍表、成绩表、毕业资格审查表、学历注册照片、学籍变动、奖惩等所有与该生有关的档案,那么,这种检索模式就更切合大多数高校档案利用工作的实际。依托共享数据,对共享数据进行清洗与加工,在此基础上对数字化学籍档案副本进行批量重命名,构建以学生姓名为主要检索标识的系统,借助everything免费检索软件,可轻松实现高校学籍档案单机可视化检索。
1 高校学籍档案可视化检索的数据准备
档案利用最大的困难就是如何解决高效检索问题。学籍档案快速准确检索依赖学生学号、姓名、专业、班级等大量数据,如果全部需要手工录入,不仅工作量大,而且很难保证准确性,为保证数据准确性而进行的审核工作量甚至比录入工作量更大。高校招生部门、教务部门有大量的准确数据,依托这些共享数据构建学籍档案可视化检索系统,可以起到事半功倍的效果。
1.1 共享电子数据的采集及补救措施。新生录取名册电子数据来自招生部门,可按省份、类别、专业、总分排序,经过一定的处理,可基本实现数据共享;学号、姓名、曾用名、班级、专业等数据来自教务系统,可完全实现数据共享。如果上述学生数据不能收集齐全,作为补救措施,可借用学历电子注册数据,1991年以后的毕业生都进行了学历电子注册,可从教务部门获取,1991年之前的学生数据,可从档案管理系统的卷内目录或校友通讯录等数据源获取,当然这些数据不能直接利用,需要做进一步的清洗与深加工。
1.2自动审核人工录入数据。人工录入数据不难,难就难在如何快速准确录入数据,数据不准确的后果往往是灾难性的,会导致整个检索体系的崩溃。高校有勤工助学的学生,发动人海战术,人工重新录入学生姓名、专业等数据时,为保证准确性,一般需采用双人双机录入,校验合格后使用,这种做法工作量成倍增加,效率低下。为提高录入效率,也可多人多机分别录入不同数据,利用共享数据进行自动审核,确保录入数据的准确性,具体做法是利用电子表格的vlookup函数。以新生录取名册录入为例,可新建电子表格,将共享数据拷贝到sheet1表中,调整单元格数据顺序,A列必须为姓名,D列为专业(也可为其他需要审核的内容),在sheet2表中A1、B1、C1、D1四個单元格分别录入页码、姓名、专业、待审核四个字段名,在D2单元格录入“=VLOOKUP(B2,'sheet1'!A:D,4,0)”(具体操作时不要录入全角双引号,下同),在sheet1表格A列中精确查找姓名与sheet2表格中B2姓名相同的学生,并将其相应D列内容链接到sheet2表格中D2单元格,此时sheet2表格中D2单元格显示“*N/A”,鼠标左键单击D2单元格,光标移至D2单元格右下角出现“+”时压住鼠标左键向下拖动,想录入多少人就拖多少行。当在sheet2表格中B列录入学生姓名时,D列相应单元格会出现该生的专业,如果还是显示“*N/A”,则表示录入可能出错,如果经核实录入无误,则表明共享数据不全,在sheet2表格中C列相应单元格录入该生专业,以备进一步人工审核;如果出现的专业与该生不同,则可能共享数据有误或存在同名学生情况,在sheet2表格中C列录入该生专业,以备进一步人工审核。利用共享数据自动审核,既可保证数据准确性,又可成倍提高录入工作效率。sheet2表格中A列录入纸质档案实际页码,与纸质档案一一对应,待进一步对数据进行加工处理。
2 对数字化学籍档案副本重命名,实现按姓名可视化检索
学籍档案的检索以学生姓名为显著特征,由于存在同名情况,因此,仅仅靠姓名,虽然可以做到查全率100%,但必须辅以其他检索条件,借助可视化操作,才可快速准确定位所需档案。对数字化学籍档案副本重命名,既要确定命名规则,又要具备简单的软件应用知识。
2.1 数字化学籍档案副本命名规则。文书档案数字化副本命名规则,常用的是文件级档号-件内页面流水号,或文件级档号-稿本代号-稿本内页面流水号,这种命名方式虽然利于档案数字化副本批量挂接到数据库,但必须借助目录查找档案,并没有实质性提高数字化档案的检索效率。高校学籍档案数字化副本如果参照此规则命名,检索效率同样不高。为便于快速准确查找学籍档案,充分发挥数字化档案检索利用优势,需针对高校学籍档案实际,确定数字化学籍档案副本命名规则,并与档案实体一一对应(如果仅仅从利用的角度来看,数字化档案副本无需与实体档案一一对应,命名会更简单,检索效率会更高,此问题有待进一步探讨)。文件名称构成主要为“档号-姓名”,为避免同名造成的误检,可根据实际情况增加文件名称构成项目,比如学籍表、成绩表文件名构成为“档号-姓名-专业-入学年度”(档号可反映毕业年度);新生录取名册为“档号-姓名-专业-报考省份”(档号可反映入学年度);毕业资格审查表为“档号-姓名-专业”(档号可反映毕业年度);学籍变更材料、奖惩材料为“档号-文号-文件名-姓名”。为提高查准率,二字姓名后统一添加“-”,多个姓名之间用“-”连接;各校还可以根据共享数据及档案记载情况,增加文件名构成项目,比如本校成绩单记载有毕(结)业证书、学位证书号码,可利用毕业资格审查表电子数据对扫描版成绩单进行重命名,实现按证书号码精确检索。
2.2 数字化学籍档案副本的后期处理。大多数高校都实现了馆藏纸质档案数字化,由于手写档案不能进行OCR识别,部分打印版效果太差,OCR识别率太低,难以实现基于档案内容的高效检索。扫描件的查找难度比纸质档案更大,需进行进一步的加工处理。
2.2.1 利用Adobe Acrobat X Pro软件或WPS付费软件的拆分文档功能,将成册扫描的新生录取名册、毕业资格审查表按页拆分为多个文档,有多少页拆分成多少个文档(高速扫描一般都是成册扫描成一个文档,如果是单页扫描成一个文档,则省略此步),同一页的所有学生对应一个文档,由于文件名长度不能超过255个字符,当一个文档的学生人数太多时,为保证能检索到所有学生,可多拷贝几份,分别命名,形成内容完全相同但文件名不同的多个文档(这种情况并不多见,仅是例外情况下的变通措施);学籍表、成绩表拆分之前要进行相应处理,保证学生与学籍表(或成绩表)是一一对应关系;学籍变更材料、奖惩材料可根据原文件实际情况确定是一对一关系还是多对一关系。
2.2.2 灵活运用Excel或WPS以及方方格子插件等软件对电子数据进行清洗与深加工。共享电子数据要做相应清洗,比如以前有些生僻字打不出时经常会用“*”或“?”代替,由于文件名不能包含“\ / :* ?< >|”等字符,重命名前要清除这些字符,可以用查找替换的方式进行清洗,查找“*”“?”需要在查询栏分别输入“~*”和“~?”,替换栏输入正确的数据(以前打不出的生僻字,现在基本上能打出,可通过搜索引擎查找复制粘贴,比如煇字,可搜索一个火字加一个军)。由于批处理文件中不能出现多余的空格、软回车等,这些也需在WPS或EXCEL中进行清洗。为提高检索效率,电子数据要进行进一步加工,在清除空格后,二字姓名后可批量添加“-”,假设A列为原姓名数据,B列为处理后的新姓名数据,在B1单元中录入“=if(len(A1)=2,A1&"-",A1)”,左键单击选定B1单元格,双击B1单元格右下角“+”(或压住“+”向下拖到结尾),可在二字姓名后批量添加“-”,复制B列数据,选择性粘贴(选数值)到A列,删除B列,完成二字姓名数据加工处理。方方格子插件目前有Excel版和WPS版(试用版),可实现电子表格数据行列转换,也可实现一行多列、一列多行数据合并,可减轻数据加工处理的工作量,上文sheet2表格中A列数据中相同页码的B列多行姓名可轻松合并到一个单元格中,重命名数字化文件后,可实现新生录取名册、毕业资格审查表多对一检索。
2.2.3 文件批量重命名的具体操作。最基本的重命名语句为“ren 源文件名 目标文件名”(中间两处空格不能省略),假设电子表格中ABCDE列分别为源文件名、档号、姓名、专业、入学年度等信息,包含有整个年度所有学生的学籍表信息,源文件为pdf版式文件,在F1单元格中输入命令“="ren "&A1&" "&B1&"-"&C1&"-"&D1&"-"&E1&".pdf"”(命令中两处空格不能省略),可生成一条重命名语句,单击选定F1单元格,双击F1单元格右下角的黑+,可生成整个年度的学籍表批量更名数据;将电子表格中处理好的批量重命名语句拷贝到新建的文本文件(重命名.txt),再另存为批处理文件(重命名.bat)。将重命名批处理文件拷贝到源文件相同的目录下,运行批处理文件(特别提醒:重命名前做好备份),可实现文件批量更名,更名后所有文件名中都含有档号、姓名、专业、入学年度等检索项。
3 学籍档案单机可视化检索利用的实践
3.1 everything检索软件及其应用。可在360软件管家下载免费使用,是一款基于名称实时定位文件和目录的文件搜索工具,该软件大小不足2MB,界面简洁易用,检索速度极快,占用系统资源极低,实时跟踪文件变化。在搜索框输入检索内容,会实时显示过滤后的文件和目录,检索结果可进行复制、浏览、修改和删除等操作,可轻松实现模糊检索与精确检索。比如听说张某某的弟弟1986年考入本校养殖专业,现想知道张某某的弟弟是谁,在检索栏输入“张 养 86”(中间空格不能省略,本校养殖专业有海养、淡养、养专等不同专业,仅输入一个养字,是为了在模糊查找时扩大检索范围,提高查全率),检索结果会显示本校1986年入学的养殖专业所有张姓学生,分别查看学籍表,通过社会关系记载,如果找到张某某就可以基本确定其弟弟是谁,如果学籍表中没有张某某的记载,则基本确定张某某的弟弟不是本校养殖专业1986级学生。当单次检索呈现的结果较多时,可继续增加检索条件,以缩小检索结果,比如,想查找“张文”的成绩表,在检索栏输入“张文”,呈现的结果较多,继续在检索栏输入“-”(紧跟在文字后面,不要空格),则只出现张文的学籍档案,如果还存在同名的情况,则可增加更多的检索条件(不同检索条件之间用空格隔开)或通过查看路径找到所需的结果。本校成绩单文件名已包含毕业证书、学位证书号码,输入证件号可精确查找到所需要的成绩单,电话核查学历证书真伪时,只需录入证件号码,即可实时告知查询结果。
3.2 数字化学籍档案副本的有序化存放。everything搜索只基于文件和文件夹的名称,上文已给出了文件批量重命名的实证操作,在可视化的情况下,文件夹同样具备检索功能,数字化文件有序存放,会极大提高检索效率。以广东海洋大学数字化学籍档案副本为例,按不同全宗建有新生录取名册、学籍表、成绩表、毕业资格审查表、数字化文件等分目录,分目录下再根据实际情况设立类别、年度等子目录(比如,广东海洋大学2018届博士毕业生成绩存放在“D:\广海大\成绩\博士生\2018”目录下),数字化档案存放在相应的目录下,检索时就能可视化快速定位。everything软件检索结果会显示名称、路径、大小、修改时间等内容,路径就是数字化文件存放的位置,数字化文件存放有序,就可以充分发挥可视化检索优势,直接定位所需要档案。比如本校有8名毕业生叫“张文”,涉及两个档案全宗,有全日制研究生、本科生、专科生,也有成人教育学生,可根据路径快捷定位所需的档案。
3.3 数据安全与隐私保护问题。解决数据安全问题,最关键的不是技术而是管理,在投入有限、不能确保网络信息安全的情况下,数字化学籍档案副本只能实行单机不联网检索。由于everything是免费软件,并且功能过于强大,电脑上所有文件名信息都会实时自动提取整合为一个数据文件,联网使用可能会有安全隐患,不建议在联网的电脑上使用。数字化学籍档案包含学生的身份信息、高考成绩、社会关系、求学经历、家庭住址、学业成绩、学籍异动等个人隐私,从信息安全的角度,不宜保存在联网的电脑上。及时备份数据是保证数据安全的重要措施,推荐使用BCompare軟件,主要功能有:文件夹比较、文本比较、MP3比较、版本比较、十六进制比较、数据比较、图片比较、注册表比较、文件夹同步、文本合并等。通过文件夹比较,可保证电脑数据与备份数据的一致性;文件夹同步可极大减少数据备份工作量;通过文本比较,可确保文本内容未被非法修改。为更好地保护个人隐私,在提供数字化档案利用时,推荐使用 Photoshop软件。对于新生录取名册、毕业资格审查表中涉及的其他学生信息,提供利用前,复制一份文档,用PS的色阶功能将其他学生的信息涂白,仅打印与利用者有关的信息。所有检索利用结果都保存备查,建好利用工作台账。
*本文系广东高校档案工作协会2018年科研课题(重点项目)《大数据环境下高校档案信息资源的集成与服务研究》(粵高档协[2018]6号)研究成果之一。
(作者单位:广东海洋大学档案馆 来稿日期:2018-12-21)