APP下载

古籍编纂录入系统的分析与研究

2016-03-30陕西电子信息职业技术学院710032

电子制作 2016年12期
关键词:字库字符识别计算机系统

张 娜 陕西电子信息职业技术学院 710032



古籍编纂录入系统的分析与研究

张 娜 陕西电子信息职业技术学院 710032

【文章摘要】

随着计算机技术的广泛普及和应用,加强古籍编纂录入系统的数字化建设成为古代文献研究的热点,也是现如今古籍编纂录入系统发展的必然要求。在搜集现有研究资料和应用成果的基础上,本文试从古籍编纂录入系统的研究与分析角度出发,有针对性地指出当前古籍编纂录入系统中存在的问题与缺陷,并在基础上提出改善建议,希望能对今后古籍编纂录入系统的完善以及古籍研究提供借鉴与帮助。

【关键词】

估计编纂;录入系统;分析研究

中华文化源远流长、博大精深,历经几千年的时间检验而传承不断,更是在人类历史文化的发展中留下了浩如烟海的古籍,记载了华夏民族曾经的历史与辉煌。现如今,这些古籍成为考量和探索古代文化的重要载体和工具,是先辈留给我们的珍贵文化遗产。如何深入高效的对其进行研究以继承古代文化遗产并加以创新,成为华夏儿女共有的责任和义务。本文试从古籍编纂录入系统的研究与分析出发,阐述当下社会环境下古籍研究的瓶颈与困难,希望能进一步促进古籍编纂录入系统的完善。

1 古籍编纂录入系统的发展

1.1古籍编纂的概念

古籍的编撰指根据相关的主题来编辑古籍文献。古籍编纂在我国具有非常久远的历史,早在我国西汉时期,刘歆的《七略》便体现出了古籍编纂的思想,至现在为止国内各图书馆关于古籍的藏书目录及种种联合目录已不可胜数,极大的便利了人们关于古籍的检索与查找。同时,随着古籍编纂方法的提升和完善,在一定程度上也为我国古籍文献的研究提供了便利性。

1.2录入系统的演进及发展

古籍录入系统随着计算机技术的不断提高,从原来的手工录入逐渐演变为现今的自动录入。传统的手工录入是指依靠人力通过输入法在计算机系统上进行输入,将所需要的古籍内容输入的计算机中,这种方法需要花费大量的人力和时间,而且准确度无法保障,而现今的自动录入是指通过光学字符识别技术(通过图像扫描、预处理、版面分析等程序辨别纸张上的文字并将其转变为可在计算机上进行编辑的文字)来代替人力进行古籍文字到计算机的输入过程,极大程度上降低了估计录入的成本并提高了录入效率。

2 古籍编纂录入系统的方法

2.1古籍自动编纂

传统的古籍编纂方法繁琐且效率低下,无法适应现今社会对于古籍文献的需求,因此在计算机技术日益完善和成熟的今天,利用其进行古籍编纂的自动化已是大势所趋。古籍自动编纂一般需要经过确定编纂主题、文档分析、文档编纂等步骤。以农业古籍自动编纂为例,通过单词出现的频率或计算紧凑度和深度值的方法,确定编纂主题从而实现农业古籍的自动编纂。目前古籍自动编纂的研究尚处于起步阶段,仍然还有许多的技术难题需要留待后来人攻克。

2.2古籍自动录入

古籍自动录入技术主要通过光学字符识别技术来完成,大致需要经过图像扫描、预处理、版面分析、文字区域提取、文字识别、后处理等步骤。古籍自动录入主要体现在古籍的数字化工作当中。迄今为止,古籍自动录入技术应用较为成熟的软件是“数码翰林”,已成功制作了《四库全书》和《四部丛刊》的电子图书,且保留了古籍的原版。随着古籍自动录入系统的的不断完善,古籍检索系统也大量涌现,例如各大院校图书馆的电子图书检索系统,同古籍自动录入技术呈现出互为促进的效果。

3 古籍编纂录入系统的缺陷

3.1文字录入识别能力较弱

古籍编纂录入系统尽管已经取得丰富的成果也进行了相应的完善,但数字化的自动录入系统仍然依赖于图像文字的识别技术,在面对字型较为复杂或相似字较多的情况下易出现识别率较低的情况,影响古籍自动录入的精准度。

3.2计算机系统缺少古籍生僻字字库

先进的计算机系统字库存储的大多是日常使用较为频繁的常见字,在生僻字字库方面尚不完善,存在较大的问题。而古籍文字生僻字的部分在文字占比中较大,因而给古籍编纂录入系统带来的较大的挑战。除此之外,由于古籍文字理解难度较大加之计算机系统中关于古籍的语法较少,也容易失去精准度。

3.3古籍扫描等设备的精准度不高

古籍编纂录入系统的数字化建设很大程度上依赖于古籍扫描等设备的水平,但受科学技术条件水平的限制,光学字符识别设备的水平还存在很大的不足,无法达到古籍文献研究的高精准度要求,经常会出现由于古籍文字不清晰或扫描仪器质量问题而产生识别错误,导致古籍编纂录入系统失去效应。

4 古籍编纂录入系统的改进

4.1提升关键字检索和数字化整理能力

鉴于目前古籍数据库检索系统的检索效率不高等现象,应邀请关于古籍文献研究方面的专家学者对古籍编纂录入系统提出自己的改善建议和要求,并依据其观点开发相应的辅助软件来提升古籍编纂录入系统的关键字检索能力和数字化整理能力,从而完成古籍编纂录入系统的改进。

4.2完善古籍字库的储备

开发相应的文字软件弥补现今计算机系统生僻字字库不足的缺陷,从而完善古籍字库的储备,为古籍自动编纂录入系统的精准度奠定文字基础。除此之外,还应添加关于古籍语法方面的分析软件,使得计算机系统能更好地识别提取关键词,完成古籍自动编纂。

4.3提升古籍录入系统硬件设备水平

在当前科学技术发展的水平上,尽量完善古籍录入系统硬件的设备水平,降低其误差率。同时,在光学字符识别技术的过程中,提供相应的软件良好运行环境等辅助手段,侧面提升古籍文字录入的准确度。

5 结束语

古籍编纂录入系统的研究虽然已经取得了丰富的研究成果,但其数字化建设方面整体仍处于初步探索阶段,缺乏实用性强、通用性强的研究成果,因此需要更多的专家学者投入到古籍编纂录入系统的研究当中,尤其需要计算机技术方面的人才与古籍文献研究方面的学者的通力合作。在此基础上,随着关于古籍编纂录入系统研究人才的不断涌现,相信古籍编纂的数字化建设愿景必将得以实现。

【参考文献】

[1]吴家驹.中文古籍数字化的进展与主要成果述评[J].南京师范大学文学院学报,2004(3):178-183.

[2]陈立新.古籍数字化的进展与问题[J].上海高校图书情报工作研究,2003(2):36-38.

[3]乔红霞.关于古籍全文数据库建设工作的思考[J].河南图书馆学刊,2001(4):58-60.

猜你喜欢

字库字符识别计算机系统
No.2 喜茶联合汉仪字库推出微型书和书签
IBM推出可与人类“辩论”的计算机系统
论计算机字库单字的著作权保护
——以方正诉宝洁案为例
一种改进深度学习网络结构的英文字符识别
仪表字符识别中的图像处理算法研究
分布处理计算机系统研究
MIMD 并行计算机系统结构与定量分析
老家的惜字库
基于CUDA和深度置信网络的手写字符识别
地面气象测报业务计算机系统