APP下载

利用正则表达式实现索引自动排序

2014-03-27高爱英王红剑

中国科技期刊研究 2014年2期
关键词:文档

■高爱英 王红剑

1)人民军医出版社,Email:gaoay@sohu.com2)通信作者:中华医学会杂志社 100710 北京东四西大街42号Email:spiderking@cma.org.cn

医学等专业出版领域经常要制作索引,索引一般按拼音顺序进行排列,此排列方法在校对时非常不便。如果能以页码为顺序对索引重新排序则非常容易校对。通常,编辑和校对是以手工的方法处理,工作量非常大,笔者利用正则表达式工具软件UltraEdit,协同常用的OFFICE软件进行索引标准化处理[1-3]。此方法没有编程代码,理解正则表达式的规范后可以处理不同类型的索引。

1 利用UltraEdit软件对索引进行正则表达式处理

1.1 建立WORD格式文档

UltraEdit是一款功能强大文本编辑工具,不仅拥有常规的查找、替换、复制、粘贴等功能,更可以进行正则表达式的处理。WORD软件是编辑最常用的字处理工具,为了便于后期的格式化处理,在UltraEdit中建立WORD格式的文档是一个很好的选择。例如,可以建立一个名为“关键词索引.DOC”文档(图1)。

1.2 导入索引内容

建立空白文档后,可以把索引内容复制到“关键词索引.DOC”文档内。UltraEdit软件具有文本行记数功能,对于索引此类需逐条核对的文本极为有利。编辑可以在转换前后进行初步筛查,防止因操作失误引起索引数量变化(图1)。

1.3 建立正则表达式

正则表达式是此项工作的重点和难点,最好具备一定的编程基础。作为近些年才发展起来的正则表达式程序存在着不同的编程工具,而且分为不同的正则表达式流派和规范,在使用UltraEdit工具软件时会有所体现。

利用专业的正则表达式工具RegexBuddy可以对正则表达式进行验证,如果输入的正则表达式可以正确高亮索引中的数字,则说明正则表达式正确。索引中“16/118三体”数字未被高亮,而末尾的页码“567”高亮,说明正则表达式正确(图2)。

图2 RegexBuddy检验正则表达式

验证无误后便可利用UltraEdit软件进行最终处理,其中查找栏为“(d*)”,替换栏为“@1”,正则表达式引擎选择“Perl”。“()”为分组标志,“”为单词头部,d*为任意多个的数字,为行结尾。整个查找内容的含义为“在结尾处查找任意多个的数字”,也就是告诉程序查找索引内结尾的页码内容。替换栏“@1”含义为将第1个分组(原始内容)前加上“@”符号(图3)。

图3 UltraEdit中使用正则表达式

1.4 查阅及修正处理结果

运行“全部替换”后,所有的索引将在页码前增加一个“@”。例如第192条索引“Zenker憩室(咽下部憩室) 863”,变换为“Zenker憩室(咽下部憩室) @863”。此时应当对索引的条目数量进行核对,检查是否有错误的页码。对于不规范的页码内容辅助手工编校(图4)。

2 使用WORD软件对索引进行表格转换

2.1 文本分割

将UltraEdit软件处理后的文本全部复制到WORD中,同时全部选中,并运行WORD菜单中的“表格-转换-文本转换成表格”。在“文本转换成表格”对话框中的“文字分隔位置”选择“其他字符”,并输入“@”(图5)。

图4 正则表达式处理后索引文档

图5 WORD中文本转换操作

2.2 转换表格

经过以上步骤,WORD程序将全部的文本自动转换成表格。表格分为2列,第1列为“索引关键词”,第2列为“页码”(图6)。

图6 WORD文本转换后表格内容

3 使用 EXCEL对索引进行排序

3.1 排序前处理

在WORD中将索引转换成表格后,将表格复制到EXCEL程序中,EXCEL是电子表格处理利器,同时还能设置表格数据类型,因此在EXCEL中处理表格数据要比WORD更加合理。选择表格的第1列,将其设置为“文本”,将第2列设置为“数字”,同时将第2列的数字小数点设为“0”。设置完成后,将表格加上标题行。第1列为“关键词”,第2列为“页码”(图7)。

图7 EXCEL程序设置表格内容

3.2 索引排序

设置好表格的标题和数据格式后选择“排序”功能,在排序对话框中“主要关键字”选择为“页码”,“升序”;“我的数据区域”选择“有标题行”(图8)。

图8 EXCEL中排序及格式化索引

3.3 初步格式化文档

为了方便校对人员的折校,可以使用交替阴影格式化EXCEL表格,此功能在EXCEL中可以使用格式刷工具批量处理,比WORD的手工格式化要方便(图9)。

图9 WORD程序中格式化索引

4 使用WORD格式化索引文档

EXCEL中完成排序及阴影交替格式化后,将全部内容复制到WORD程序中。在WORD程序中进行简单的表格样式设置及页面设置后便可输出。

5 小结

利用正则表达式工具软件UltraEdit协同OFFICE软件进行论文的索引排序是一种简单高效的方法,其核心思想是分离索引文本与页码。正则表达式处理工具是本方法的灵魂,对于关键词索引等不太复杂的内容完全可以不使用正则表达式编程。如果要实现作者、关键词、文题等全面索引,则编程会不可避免,但是正则表达式处理思想仍然极为重要。

1 高爱英,王红剑.利用WORD实现不同字体自造字的编辑与输出.中国科技期刊研究,2011,22(5):733-735

2 高爱英,王红剑.利用WORD程序实现彩图位置的优化.编辑学报,2010,22(2):167-169

3 王红剑,高爱英,游苏宁.利用WORD进行自动编校. 中国科技期刊研究,2009,20(3):502-503

猜你喜欢

文档
浅谈Matlab与Word文档的应用接口
基于Python的Excel文档批量转换生成自定义形式Word文档工具的实现和应用
样样都行 PDF文档在线处理一条龙
有人一声不吭向你扔了个文档
轻松编辑PDF文档
三道防线保证WpS文档安全
巧用Word替换纠正角标跑偏
Word文档 高效分合有高招
文档查询语言ODQ查询优化技术
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat