中文索引平台建设
——以“索引家”开发为例*
2019-01-20王雅戈叶继元黄建年
王雅戈,叶继元,黄建年,唐 强,刘 峰,杨 斐
1 中文索引平台开发迫在眉睫
索引的历史和图书的历史几乎一样久远[1]。欧美重视图书索引。美国学者H.宾尼(Binney)认为,一本好书如果没有索引,则可能失去一半价值[2-3]。欧美50%普通图书有索引,95%以上学术著作有索引[4]。欧美索引业的发达与现代索引技术的发展密切相关,1980年代中期以来CINDEXER、Macrex、SKYTM等索引软件相继问世,把索引编纂员从枯燥的手工标引和排序中解放出来,使索引编制效率和质量大大提高。
改革开放以来,我国索引事业取得较大发展。1991年成立中国索引学会,著(译)多部索引著作,发表了大量研究论文[5]。2003年成功研发“索引之星”软件[6]。2009年实施国家标准《索引编制规则(总则)》。2012年新闻出版总署下发《关于进一步加强学术著作出版规范的通知》,规定学术著作编制索引[7]。2014年出版的《习近平谈治国理政》有中、英、俄等10多个语种版本,每个版本都编制了索引[8],成为图书索引的典范。2018年颁布国家标准《地方志索引编制规则》,《学位论文索引编制规则》也成功立项。
但是,我国图书索引的比例仍然很低,1980年前出版的图书有索引的仅占18.7%[9],1996年前出版的科学著作有索引的仅占17%[10],目前学术著作有索引的仅占5%[11]。我国图书索引未能普及的一个原因是缺乏便捷的现代索引技术手段。
我国学者很早就建议开展中文索引自动化研究[12-14],并取得一定进展。相关研究或介绍国外索引软件开发经验[15-16],或展示计算机编纂索引的实例[17-19],或尝试开发索引自动编纂软件[20,2]。但是,实践探索未能实现较大突破。比如,国外索引软件一直未加以汉化,不适合中文图书;“索引之星”软件开发成功近15年,一直只有单机版,适用性弱。2016年我国出版图书499884种[21],为这些图书编制索引是一项庞大的工程,也是一个巨大的市场,已有索引软件和技术远远不能满足需求。为适应图书索引编制和文化交流传播需求,亟需建设一个能够提供技术支持、学术交流和信息服务一体化的中文索引平台。
2 “索引家”开发探索
2.1 目标
针对中文索引软件不能满足索引编纂需求的现状,中国索引学会积极推动中文网络索引软件研发,软件定位是为图书编著人员、出版专业技术人员、索引编纂人员提供技术支持、学术交流和一体化的信息服务。要求软件要有大格局,能担负起国家索引平台职责,并起名为“索引家”。
2.2 思路
索引编纂包括标引和排序两个环节。标引是指在原文中选取有检索意义的主题词,并在其后附上页码;排序是指把索引标目按拼音或笔画进行排序、合并相同标目,并把其后的页码按顺序依次接续。索引软件首先实现标引自动化,具体来说就是把标引的过程变为扫描过程,光标扫过主题词就可完成索引标目的标引且自动添加页码;其次是实现排序自动化,并把完整的索引款目自动保存在索引文件中。
2.3 功能
“索引家”的核心内容是开发网络版索引软件,构建索引技术服务信息平台。平台主要包括索引学术研究交流和索引编纂出版技术支持两方面,具体包括索引标引技术支持、索引研究成果交流、索引编纂供需信息传递、索引编纂专业人才培养、索引编纂业务辅导和统计分析、平台管理等功能模块,其中索引编纂技术支持是核心功能。
2.4 发布
“索引家”平台研发受多方面因素的影响,也持续了一段较长时期。2007年前后,受侯汉清教授鼓励,尝试以办公软件编制索引。2013年前后,在叶继元教授倡议下,进行了开发前的准备和预研。2015年8月,在叶教授带领下,启动研发工作,期间遇到各种困难,多次停滞重启。2017年3月1日完成研发,并获得“索引家标引软件”(简称“索引家”)著作权。在内网和公网试运行,根据用户反馈多次改版,2019年8月21日正式上线[22]。
2.5 优势
(1)效率优势明显。索引家软件可以代替手工标引,提高准确性,尤其是添加页码时不易出错,节约标引时间。经测试,利用其它软件标引一本15万字的社科类图书约需30小时,利用索引家软件标引则只需6小时。
(2)功能优势明显。相较于索引之星、WORD和EXCEL软件,“索引家”平台优势包括:索引家不仅可以进行索引标引,还能进行索引排序,具有完整的索引编制功能;大量并发用户能同时在线使用;平台管理简便,交流功能强,用户负担小;系统可持续性好,推出半年多已升级3次,能够满足普通用户的需求;具有很强的辅导功能,能直接在平台上采用线上或线下、集中或分散、自动或人工等方式对用户开展培训。
3 “索引家”开发经验
总结“索引家”开发过程,经历曲折,经验包括:(1)开放原则:在开发前期,应当持开放态度,提出详细技术路线和周密研发方案,面向用户、专家充分说明开发思路,征求各方面的意见。前期方案越周详,后期开发困难越少。(2)包容原则:调研和预研时,总会听到不同的意见,对各种意见要合理采纳,特别是反对意见有时会激发出更好的开发新思路。(3)合作原则:平台的用户主要是著者、编辑、学生、索引员、图书馆员等,开发过程需要相关行业人员的合作;需要网络管理、程序编写、用户管理等各方面分工协作。(4)分工原则:在开发过程中,管理人员、技术人员、用户等要责任明确。(5)服务原则:平台主要围绕索引编纂开展服务,要坚持用户第一、服务至上。(6)遵重知识产权:平台开发前,已经有很多索引自动化方面的研究成果。索引家合理汲取了其思想原理,并进行改进、提高,在技术上集成创新,在功能上超越发展。(7)持续发展:平台虽然发布了,但还存在这样那样的不足,需要不断改进。(8)避免闭门造车:平台之所以历经曲折,其实与开发初期的调研不充分、应用技术不够成熟、陷入闭门造车的做法不无相关;也与中期资金困难、试图简单了事的动机相关;更与过于注重学术、市场意识淡薄有关,这些今后都应当避免。
4 结语
我国索引事业前景广阔,市场巨大,需要学者、编辑、索引员等联合起来,形成索引共同体,共同承担索引重任。“索引家”平台开发过程中,始终离不开中国索引学会的关心和支持,也受到地方志办公室、高校图书馆、研究生院等多个部门的支持,他们为平台的完成提供了重要指导。愿平台能够随着各项索引标准的颁布实施,担负起普及索引知识、保障索引技术、提供索引服务的职责。但是,只有一个“索引家”平台远远难以满足需求,期冀通过“索引家”的成功研发,能为后续中文索引平台建设探索捷径。相信会有更多专业型和通用型的索引平台建成,共同推进中国索引事业发展。