APP下载

国家图书馆敦煌文献数字化图像处理技术探要

2011-03-18乌心怡

图书馆学刊 2011年4期
关键词:国家图书馆图像处理敦煌

乌心怡

(国家图书馆,北京 100081)

中国国家图书馆是世界上敦煌遗书的主要收藏单位之一。国家图书馆二期数字图书馆的落成,标志着新的文献资源载体的利用,近年来国家图书馆开展了多项数字化项目,其中古籍数字化项目以“国际敦煌学项目”(The International Dunhuang Project,简称IDP)为国家图书馆的重点项目。“国际敦煌学项目”致力于将全世界所藏敦煌文献全部数字化。这个项目的实施,不仅有利于敦煌文献原卷的保护,也便于各国学者对敦煌资料的使用,“国际敦煌学项目”在古籍文献的保护开发利用上做出了突出的贡献。中国国家图书馆与大英图书馆签署了这项合作项目,并已经开始敦煌文献数据化的工作。目前,在 http://idp.bl.uk英文和 http://idp.nlc.gov.cn中文两个网址上,可以看到各国收藏敦煌文献的部分清晰图像。数据化工作室使用国际高精端的相机进行图像数据化工作,拍摄完成后的原始图像数据直接保留在国家图书馆数据库里,由于这些原始数据所占空间大,不利于网上展示与利用,因此要将图像处理后再上网。敦煌写卷为卷轴形式,因此将一个完整的写卷拍摄完成后需要若干拍组合而成,只有将这些单拍连接起来,才能形成完整的一部写卷,这就需要将每一幅单拍进行图像处理后,再连接起来,达到IDP数据完整的要求。

具体技术规范要求:

1.gamma值的校对,gamma值提供校正亮度、对比度,使工作室所有电脑屏幕显示图像的色彩保持统一,每月调试一次gamma值对原卷的色彩还原有极大的好处。可以保持拍摄图像和处理完成后的图像色彩一致。

2.像素深度的选择,像素深度决定彩色图像的每个像素可能有的颜色数。8位就是每个像素有2的8次方种颜色。16位就是2的16次方,一幅彩色图像用8位256种颜色显示,那么16位就是65536种颜色,在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。用16位色拍摄出来的图像,会将丢失的色彩信息降到最低,能够更真实地反映原卷的色彩信息,然而16位所拍下的图像不能直接用于上网,一张16位的图像,它的文件大小远远大于一张8位的图像,所以图像必须进行处理。目前IDP选择用16位作为原始图像捕捉的设置值。

3.像素的选择:一个像素里只有一个颜色,受计算机分辨率的影响,网页上显示的分辨率为72ppi,在每平方英寸上有72×72=5184个像素,而300ppi在每平方英寸上有90000个像素,意味着有更多的色彩细节。IDP首先以300ppi捕捉原始图像,作为长久保存的图像数据,其次将分辨率改为72ppi后的图像用于上网。

4.使用photoshop软件进行图像处理:打开经过转换的原始图像,将 300ppi转换为72ppi的图像,高度为2700像素,另存储一个数据编号,国家图书馆对原始图像的编号用R表示,对转换后的图像用L表示。以BD00001为例,BD00001R_R代表图像正面原始数据,BD00001R_L代表图像正面处理后数据。第一步选择滤镜下的抽出工具,将图像放大,选用工具栏中的边缘高光器工具,在工具选项画笔大小中选择数值100,也可以根据自己的习惯选择数值,选择智能高光显示,沿图像的边缘进行选择。敦煌写卷由于历史年代久远,写卷有不同的残破现象,纸张边缘并不是整齐的,因此要沿着这些残破的边缘细心勾画,不可用直线替代,不可改变写卷原貌。第二步将图像边缘全部勾画好后,换工具栏中的填充工具,在图像上填充,此时图像以外的部分不能被选中,如果图像外部跟着填充步骤被选中,说明图像边缘没有被完整地勾画,要细致检查未被勾画的部分,将其补充进行勾画,完成后选择确定。第三步,此时的图像原始拍摄的背景已经被去除,在图层选项里添加一个新图层,背景选择黑色,将新的黑色背景图层移至图像下面一层,此时图像会更加清晰地展现出来。第四步,将图像放大300%,对图像的边缘进行修整,将多余的与图像无关的杂色杂物去掉。第五步将制作好的标尺拖进图像,放置在图像的下方中间部分,单拍的图像处理完成,保存图像。

5.一部写卷中所有的单拍图像都处理完成后,就要进行最关键的连接工作,这一步骤非常重要,也是最有难度的步骤。因为一部写卷拍摄完成需要一定的时间,在拍摄的过程中会受色温等因素的制约,因此写卷后面的图像与前面的图像在色彩上就会有偏差,在连接过程中要对这些有偏差的图像进行色差的校对,同时又不能偏离原始写卷的色彩,连接完成后不能看到连接的痕迹,要保持色彩与原卷一致,因此这项工作要求技术人员具有一定的专业素质和技能。

国家图书馆敦煌写卷的编号从BD00001到BD16000,正面用R表示,背面无文字用VB表示,有文字用V表示,R1代表一个写卷里有一个文献内容,R2代表一个写卷里有两个文献内容,以此类推;以BD00001为例,BD00001R1_01表示写卷为一个文献内容,正面第一拍;BD00001VB_01表示写卷背面无文字内容,第一拍;BD00001V1_01表示写卷背面有文字内容,第一拍。以上均为单拍图像数据编号,连接图像的存储编号在后面加ST,即BD00001R1_ST,表示写卷正面连接图像。

连接图像具体操作步骤为:打开写卷的第一拍选择图像画布大小将宽度加长,根据一部写卷的具体拍数选择适当的长度,将背景填充黑色,将图像另存为ST的存储名,打开第二拍,将图像拖进到第一拍中,与第一拍末端相连,将图层的填充透明度改为50~60%。由于在拍摄过程中每一拍都多拍出两行写卷文字,因此在连接过程中将这些相同的文字部分叠加在一起,将图像放大至100%,调整角度使两幅图像完好地衔接起来,文字未对齐部分用旋转工具进行调整,调整后将透明度还原,这时可以看到两幅图像连接在一起后的细小连接痕迹。用橡皮擦工具,选择画笔的硬度为0,画笔直径300左右,将细小的连接痕迹去除,两幅图像完成,以此类推将所有的单拍都连接起来。对于写卷拍数多,像素宽度超过30000的写卷,将连接图像分为ST1和ST2,或更多。在连接过程中,会遇到那些色彩有偏差的图像,这时就要对照原卷进行色差的调整,这是难度最大,也是最有技术含量的步骤。首先对色彩有偏差的部分用套索工具进行选取和羽化,羽化值根据选取的范围而定,选取的范围越大羽化值越大。

曲线是Photoshop中最常用的调整工具,打开图像>调整>曲线命令,快捷键Ctrl+M,出现曲线对话框,Photoshop将图像的暗调中间调和高光通过线段来表达,在曲线对话框中,左方和下方有两条从黑到白的渐变条,位于左方的渐变条代表了变化的方向,对于线段上的某一个点来说,往上移动就是加亮,往下移动就是减暗。加亮的极限是255,减暗的极限是0。注意曲线设置框右下角的“预览”一定要勾选。然后在线段中间点击,会产生一个调节点,往上拖动,就会看到图像变亮。Photoshop允许放置多达16个调节点,但一般情况下,1~2个调节点就已经足够了,调节的过程也会变得快速而有效。所有的像素都分布在这0至255之间。0为暗调,128为中间调,255为高光,根据实际需要而定。例如在RGB曲线上,R代表红色,即所占的比例为255为饱和,即“大红”,0就是黑色。为保持一致性,一般都选择RGB图像默认的左黑右白。

调整曲线之前,曲线为一条直线,经过调整,曲线就有了一定的变化,变成不规则的形状,色彩也相应地有了变化,对图像中的RGB以及RGB中的红绿蓝三条曲线都进行调整,直到连接部分没有视觉上的色差为止。在对敦煌写卷的调整过程中,曲线的调整幅度不是很大,因为曲线的形状越大意味着色彩变化越多,敦煌写卷的色彩要与原卷保持一致,因此不需要调试得过多或过大。这一步骤的技术,要求工作者耐心细致并具备一定的实践经验。

[1]宋家钰等.英国收藏敦煌汉藏文献研究 [EB/OL].[2010-08-01].Http://new.ssreader.com/ebook/detail.jhtml? id=10319739.

猜你喜欢

国家图书馆图像处理敦煌
古代敦煌人吃什么
国家图书馆出版社重点图书
国家图书馆出版社重点图书
古代敦煌人吃什么
国家图书馆藏四种古籍编目志疑
亮丽的敦煌
基于ARM嵌入式的关于图像处理的交通信号灯识别
绝世敦煌
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用