Excel数据表在中医古籍整理研究中的应用※
2012-01-29杨胜林张建英马凤丽
杨胜林 聂 坚 秦 琼 乔 磊 张建英 张 明 马凤丽
(1云南中医学院基础学院,昆明 650200;2云南省中医医院,昆明 650200)
Excel电子表格软件是微软Office套件的一个组件,其处理表格的功能强大,易于使用,是目前办公软件中常用的表格软件之一,但是,Excel软件同时也是一个具有基本数据库功能的软件,因此,使用该软件不仅可以方便地进行各种表格的设计制作,而且利用其数据表的功能,还可以进行一些如排序、筛选等基本的数据操作。
中医古籍整理工作,一是做最基本的文字校注,二是对古籍文献内容进行归类整理,以便于统计数据,寻找相关规律。Excel软件在中医古籍整理工作中主要可用于第二种情况。通过将古籍文献内容保存入Excel工作表,再利用Excel的数据操作功能归类整理文献。
笔者在进行中医古籍整理研究工作中,发现充分利用该软件的数据操作功能,可以有效地提高工作效率和工作质量,现将具体方法简介于下。
1 将文献内容存入Excel工作薄
1.1 Word文档原文分段 在中医古籍文献整理工作中,通常使用的文档格式是Word文档,Word软件有强大的文字处理和排版功能,但在处理数据方面,功能明显弱于Excel,为使用Excel处理数据,首先需要将Word文档转入到Excel工作薄中,这个操作可以用复制粘贴完成。要说明的是,在进行复制粘贴操作之前,需要先将Word文档内容进行调整,在调整之前,为保持原文档内容不受影响,可以先另存一个新文档副本,在副本中进行分段操作。调整的方法是,逐句阅读原文,将原文中有独立意义的单句或一组单句分为一段,方法是在要分段的地方打一个回车即可,将整篇文档按这个方法重新进行分段。
1.2 将分段内容粘贴入Excel数据表 分段完成后,全选文档内容并复制,然后打开Excel软件,新建一个工作薄,在工作表Sheet1中选中E2单元格并粘贴(不是粘贴在A1单元格,留出前面的空行、空列有其他作用)。这样,刚才在Word文档中分的段,在Excel工作表中就被分别粘贴在各行中了。Excel中的行,也可以称为记录,古籍内容被分到各行,也就相当于是输入了数据库的不同记录,这样就便于对其整理归类。
1.3 调整规范Excel数据表内容 粘贴以后,还要对Excel数据表内容进行一些调整规范,因为Word原文档的内容可能会有标题、空行等内容,这些也会随着粘贴而在Excel工作表中单独占有一条记录,这些内容一般是统计数据时用不到的,并且还可能会对统计过程产生干扰。将标题内容分别移到工作表Sheet1中的C列和D列中,一级大标题移到C列,二级标题移到D列,并分别将对应内容的空行填充满。例如,某一级标题下有3个二级标题,共有20行内容,3个二级标题分别有7行、6行、7行内容,那么就将这20行内容对应的C列全填写上这个一级标题,3个二级标题分别填入其7行、6行、7行内容对应的D列中。这样,每一行内容属于哪个一级标题、二级标题就一目了然,将来就不会因排序而找不到原来所属的章节,如果古籍原文标题不只两级,可以在D列和E列之间再插入新的列存放下级标题,笔者在古籍整理工作中只用到了章节两级标题。为了更好地找到每个内容在原文中的位置,在每条内容(每行记录)对应的B列填入其在Word原文档中对应的页码,以便于结合上下文辨析其内容,然后删除中间的所有空行,并且在A列从第2行开始填写,从1开始编号,顺序填入每条内容(每行记录)的编号。最后,再为每列命名,在第1行填入每列的名字,A1中填写“序号”,B1中填写“页码”,C1中填写“章名”,D1中填写“节名”,E1中填写“内容”。这样,就将原来的Word文档转换成了一个数据表。
2 处理数据
2.1 逐条辨析属性 这个步骤是将做好的数据表内容进行解析整理的过程,对所分出的每一条内容,即每一个数据记录进行分类,例如,这条内容是讲诊断还是病机,又是属于什么具体内容,如病因的风寒暑湿燥火,病位的肝心脾肺肾,病性的虚实寒热等。将这些属性分别填写在每条记录旁边列的对应行中,为防止混淆,这些属性内容从第1列开始填写,即与原文档内容中间间隔三个空列。由于每条内容的这些属性可能不只一个方面,故可以多设置几个属性,笔者在实际应用中,设置了4个属性列,一般就足够使用了,在I1、J1、K1、L1单元格中分别填入“第一属性”、“第二属性”、“第三属性”、“第四属性”,作为这4列的名字。以下就逐条对其属性进行归类辨析,分别填在每条记录旁边的第I、J、K、L列中,每列填写一个属性。有时候,可能还有些内容需要提取出来,如所涉及的方剂、药物,在M1单元格中填入“方药”,如果某条内容涉及方药,就将方药名字填入第M列中对应的行里面。
2.2 设置数据有效性 在逐条对数据属性进行归类时,可能会出现一些诸如“疏肝”、“舒肝”之类的同义词,如果使用了同义词,那么在排序时,就有可能不能将相同属性的内容排在一起,起不到数据表的应有作用。为避免出现这种结果,可以利用Excel表的数据有效性验证功能,在一系列的同义词中,只允许输入某一个名词,而不允许输入其他名词,或者还可以设置一个下拉列表,可以从下拉列表框中选择某一个属性作为输入。这样的名词术语标准化过程,保证了可以将每条内容进行正确排序。
2.3 数据排序 属性归类 做好以上基础工作后,就可以利用Excel表的排序、筛选功能,将具有某个属性的数据记录排在一起,以便于进行计数统计。归类的实现可以使用Excel的筛选功能,即筛选出在I、J、K、L列中出现过某字某词的行,例如,出现过“肾”字的行,那么就是筛选出了属性中有“肾”字的数据记录。归类的实现也可以使用Excel的排序功能,例如,使用O列作为排序标志,应用IF公式,按照对应的I、J、K、L列是否出现过某字词确定O列的内容。例如,出现过“肾”字,在对应的O列就填入“有”,没有出现过就填入“无”,然后以O列为关键词进行排序,就可以得到与筛选相同的归类结果。使用排序法归类,更为灵活,操作也比筛选简单,还可以进行组合排序,而且只要对单元格中的公式进行简单的粘贴等操作,即可以对另外的关键词进行归类,如排过“肾”字了,那么将P2单元格中的“肾”字改成“脾”就可以归类与“脾”相关的数据内容,或者也可以对“肾”和“阴”,或者“肾”和“脾”同时进行归类,只要在R列中填入“阴”或者“脾”,在Q列粘贴入相应的公式,然后以O列和Q列为关键词进行排序即可。还可以通过编写或录制,使排序操作更加快捷,甚至实现一键排序。排序归类之后就可以进行计数统计。其中涉及的方药等内容也可以复制出来,在另一个数据表中再进行处理,进行排序计数。
3 小结
在整理中医古籍的过程中,使用Excel数据表可以大大简化对古籍内容归类的工作,不仅提高了效率,也提高了质量。在做好第一个数据表之后,相关的公式操作等,都可以通过复制粘贴方便地完成,可谓是古籍整理的一大利器。但是,Excel数据表毕竟还有操作繁琐、功能局限的不足,如果能以此思路和方法为基础,开发出相应的古籍整理助手软件,则可使古籍整理工作更加快捷高效。