APP下载

数据库技术在学位数据管理中的应用

2019-06-18王开源

宿州学院学报 2019年4期
关键词:身份证号关键字字段

王开源

宿州学院商学院,安徽宿州,234000

高校每年有大量毕业生,学位管理工作人员在处理学位数据时都会花费很大的精力。学位数据人数多、字段数量大,稍不注意都会给最终数据带来巨大误差。而且有些学位管理工作人员经验不足或运用计算机与数据库技术方面的水平不高,要在有限的时间里收集整理,按标准结构构建好完整的学位数据是一件不容易的事情。从数据采集、数据清理、数据规范和数据安全四个方面进行介绍,以方便广大高校学位管理工作者快速构建学位数据库。

1 数据采集

数据采集是学位管理中的基础工作,直接关系到学位管理工作的优劣。当前,常用的数据采集工具是EXCEL表格和VFP数据库(Visual Foxpro)。EXCEL表格在创建表格及录入数据方面比较简单,但在数据库功能方面比较有限。VFP技术性较强,在数据库功能方面比EXCEL好。

1.1 采集工具

EXCEL电子表格和VFP 数据库在高校数据管理中使用较为广泛。EXCEL电子表格是Microsoft Office的重要成员,主要功能是制作各种电子表格,可以利用公式对数据进行复杂的运算,并将数据以各种统计图表的形式表现出来,还可以对数据进行分析[1]。VFP数据库是一种典型的关系型数据库管理系统,用来存储数据的基本结构是二维表,通过二维表可以方便实现数据结构的构建、数据的录入、数据结构的修改和数据的编辑等操作。

1.2 字段设置

利用EXCEL和VFP数据采集的关键是设置数据结构和录入数据内容。在EXCEL中,设置数据结构只需根据标准要求在表格的首行录入字段名称即可。VFP数据库二维表的数据结构设置是在表设计器中设定。以学士学位数据采集的数据结构为例,根据标准要求设置姓名、姓名拼音、学号、身份证号、政治面貌、民族字段,如图1所示。并且字段的类型全部设置为字符型,在数据内容录入方面的关键是准确性与规范性。在做好数据录入之前,需要明确数据的真实性、准确性与一致性。在数据的规范性方面重点是统一数据的规范格式,如身份证号规定是18位,其他有关字段内容也只能从规范内容中选用。学位数据字段的设置要尽量精简,对文本的字体、字号、对齐方式及数据类型都要有明确要求。

图1 VFP数据库学位数据采集结构

2 数据清理

数据清理是将采集数据中不规范、不正确的数据找出来进行修正。包括检查数据一致性、处理无效值和缺失值等。在学籍管理中的数据清理常采用数据比对与数据对接方式来检查数据的一致性、完整性[2]。

2.1 数据比对

数据比对是将采集的数据与标准数据按照关键字进行一致性比对,找出差异并予以修正。如将采集的学位数据与教务网络系统数据按照身份证号关键字进行比对,找出两数据之间的差异。在“目标源字段列表”和“比对源字段列表”中选取要进行比对的同名字段,并且在“目标源关键字段”和“比对源关键字段”中选择身份证号关键字段进行,如图2所示。

图2 数据比对

2.2 数据对接

采集数据包含字段信息比较有限,要得到比较全面的信息,必须将采集数据与其他数据进行对接,对接前要确定好双方对接的关键字段。如将采集的学位数据与教务系统的数据进行对接,采集的学位数据字段有限,教务系统中的字段信息比较全,可以将二者以身份证号为关键字进行对接[3]。对接方式如下:设定采集数据得到的表为CJ,从教务系统导出的表为JW,两表中具有共同的身份证号字段SFZH,以SFZH为连接字段,对二表进行对接并将对接后的数据保存到CJJW表中,指令如下:

SELECT * FROM CJ,JW WHERE ALLTRIM(CJ.SFZH)==ALLTRIM(JW.SFZH) INTO DBF CJJW

对接后数据的记录条数如果与CJ表的数据条数一致,说明是全部对接上了。如果CJJW表的数据条数与CJ不一致,则说明没有完全对接上,在身份证号字段上存在误差。接下来可以将CJJW表与CJ表进行比对,找出其中存在差异的数据,比对方式可以采用上述的比对软件处理。从比对的结果中找出对接不上的记录以修改有关不准确的数据。修改后继续将CJ与JW进行对接,直到全部数据能够对接上[4]。

2.3 清理重复

在采集数据表中往往会出现字段内容重复的情况,需要查找重复内容并加以修正。在EXCEL中,处理字段中重复内容的方式为: 选择可能存在重复内容的字段,然后通过“开始”菜单中的“条件格式”进行处理[5]。在“新建格式规则”中选择“仅对唯一值或重复值设置格式”,在“全部设置格式”组合框中选择“重复”,点击“格式按钮”选择合适的格式,如图3所示。

图3 EXCEL重复数据清理

2.4 批量填充

批量删除记录,在VFP数据表中要删除某些记录,可以使用DELETE语句实现批量的删除操作。如要在2018届学位数据表“XW2018”删除学制为2年的学生,操作指令如下:

DELETE FROM XW2018 WHERE XZ=2

批量更新表中字段内容,如将性别民族政治面貌更换为相应的代码,例如将性别统一更换为性别码,“男”用代码“1”替换,“女”用代码“2”替换,执行代码如下:

REPLACE XB WITH “1” FOR ALLTRIM(XB)==“男”

REPLACE XB WITH “2” FOR ALLTRIM(XB)==“女”

批量更新数据中的出生日期字段“CSRQ”,执行代码如下:

REPLACE CSRQ WITH MID(SFZH,7,6) ALL

3 数据规范

上面操作所得到的只是部分数据,与学位网的注册数据所要求的数据库结构还不完全一样,需要将该表中不需要的字段进行删除,添加注册结构中需要的字段,并按要求对表中某些字段的内容进行统一更新。

3.1 设置数据基本格式

在EXCEL的“开始”菜单中利用“字体”“对齐”等对数据格式进行规范,如对字体、字号和字形等进行设定。

3.2 设定数据有效性规则

在EXCEL中设置数据的有效性规则,如要设置身份证号字段的文本长度为固定数值18的操作步骤如下:在采集数据中,选择需设置有效性规则的字段,然后打开“数据”菜单下的“数据有效性”进行设置,在“数据有效性”窗口中选择“文本长度”,数据项选择“等于”,长度项填写为18[6],如图4所示。

图4 数据有效性设置

为用户录入有误的数据显示提示信息,以“SFZH”字段的数据输入为例,当用户输入的数据不符合数据的要求时,在“数据有效性”对话框的“出错警告”中进行设定出错警告的“标题”和“错误信息”,如图5所示。

图5 数据有效性警告设置

3.3 创建索引

索引是可快速访问数据库表的特定信息,是某个表中一列或若干列值的集合和相应的指向表中物理标识这些数据页的逻辑指针清单。在运用VFP表格采集数据时,为防止数据录入人员重复录入数据,可以在设计数据结构时为关键字段设置主索引或唯一索引[7]。

4 数据安全

采集数据后的重要环节就是存储,以保证数据的稳定性和安全性。为确保数据的稳定与安全,首先要选择可靠的存储硬件设备,然后对数据标明制作日期并加密。下面就EXCEL与VFP数据的十分有效加密设置方法。首先准备好EXCEL与VFP数据,然后利用WINRAR对其进行压缩,在压缩的同时可以对其进行加密。

4.1 EXCEL自带的加密功能

打开准备好的数据,在“文件”菜单下的“信息”选项中的“保护工作簿”,通过“用密码进行加密”选项进行数据内容的加密。

4.2 WINRAR压缩加密

在数据文件上单击鼠标右键,在快捷菜单中选择“添加到压缩文件”,在“压缩文件名和参数”对话框中选择“设置密码”来设定密码,在对压缩文件保存时,可以同时标注文件的编辑日期[8]。

5 结 语

利用EXCEL与VFP技术对应届毕业生的大量学位数据进行整理和完善,对于每个高校在毕业季的工作有十分重要的意义。本研究主要利用了EXCEL的数据存储、重复清理、VFP数据库的索引、VFP数据库技术中的比对与表格对接技术解决两个大量数据表格数据不一致问题,对非专业人员从事学位管理工作,对学校顺利完成毕业生的毕业环节都有着十分重要的指导意义。

猜你喜欢

身份证号关键字字段
图书馆中文图书编目外包数据质量控制分析
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
作品赏析(4)
老师情
成功避开“关键字”
作品赏析(3)
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
智能垃圾箱