APP下载

西藏风自记纸数字化建设成果

2021-03-25薛改萍次珍尼玛次仁

西藏科技 2021年1期
关键词:图像文件质量检查气象

薛改萍 次珍 尼玛次仁

(西藏气象信息网络中心,西藏 拉萨 850000)

西藏气象局在近10年的时间里,在中国气象局预报与网络司的精心统一协调组织和具体领导下,共开展了8 期气象历史观测数据资料数字化业务建设工作,对大部分纸质观测资料开展了图像扫描、图像文件整理、基于软件的数据生成和成果上报等多项数字化业务建设项目。由于气象业务面向现代化发展和服务经济社会的需求,特别是超长序列数字化气象资料在应对气候变化、精准精细提供预报预测气象服务及清洁能源建设开发和利用方面具有基础性数据支撑作用,为持续提升全区气象观测资料数据信息化处理水平,西藏气象档案馆对13个风自记观测站历史资料进行数字化采集处理[1]。

1 风向风速自记观测纸的馆藏现状、数字化意义

1.1 现状与意义

西藏共有13 个风自记观测站,最早观测时间从1954年6月开始,由于其中相当部分的纸张已有不同严重程度的图纸变质、笔迹模糊、纸张过度磨损等情况。

为更好更高质量的数据保护、拯救、妥善保存及有效利用,需要将所有自记观测纸扫描,并通过专用软件将纸张上的风向风速记录转为数据,最后形成的数字产品将为西藏高原长年风的气候研究、经济社会建设和服务提供基础数据。

1.2 数字化建设内容

根据中国气象局《山洪地质灾害防治气象保障工程》(以下称山洪项目)2019年项目实施方案明确要求,需开展西藏历史纸质气象资料数字化建设工作。本研究旨在西藏自治区共13 个风自记观测站1954—2010年共计134913 万张[1]EL 型电解风自记纸进行图像扫描、数字化和质量审核,并最终生成标准的数据集产品。

2 数字化技术解决方案

2.1 数字化建设技术思路

西藏自治区气象信息网络中心在中国气象局技术组的统一组织和技术指导下顺利开展了这项建设工作,需要完成西藏13 个站的EL 型风自记纸的馆藏统计、扫描提取有效数据以及制作数据集工作,并按照项目建设技术组统一制定的相关技术解决规范和质量标准上报数字化建设成果。

2.2 图像文件扫描与文件处理

2.2.1 扫描设备。扫描设备选用柯达i3200E,扫描的分辨率为300dpi,采用彩色底片扫描,该设备具备扫描容量大、速度快,图像清晰的特点。存储后图像文件为JPG格式。

2.2.2 图像资料借阅。由于自记观测纸属于观测原始记录,在资料扫描借阅时,原始记录依据馆藏档案借阅规定不能被借出气象档案馆,所有图像资料文件扫描和数据提取必须在西藏气象档案馆内进行,并按照档案管理制度有关规定办理借阅登记手续,完成后按照原有装订的顺序将资料恢复原状,及时归还。同时档案管理人员还一定要再次进行检查核对,确保借出的档案资料收回后真实无误。

2.2.3 图像文件预处理。首先需要对EL 型风自记纸按照“风自记纸预处理技术规定”对扫描的风自记图像文件纸进行预处理,按照气象档案馆风自记资料详细准确地登记资料档案种类、版面规格、站名、站号、年、月、换上前和换下后使用时间是否完整,是否正确,有无出现缺测、备注和数量(有效记录面的页数)。扫描模式参数的正确设置是根据扫描资料纸张状况和根据需要提取的扫描资料数量来确定,主要包括设置扫描资料模式和设置扫描资料分辨率。笔迹不清楚的、有多种不同颜色笔迹的,设置扫描分辨率为150dpi,笔迹清晰可辨的,设置该扫描分辨率为300dpi。对纸质有破损或纸质脆化厉害的资料要及时进行详细备注,扫描时还要特别注意安全保护。

2.2.4 图像处理。为保证已扫描好的图像清晰可靠使用,要提前对扫描好的所有图像进行预处理,避免出现图像重页、错页、漏页、扫描完后黑屏、页面不齐、倾斜、模糊等图像问题,要充分利用图像扫描处理软件及时除去扫描过程中的一些图像杂乱点和脏点。同时要进行图像偏差调整处理,图像与中间水平线夹角不能大于3度,在视觉感上基本没有偏斜角度为准。

2.3 质量检查

2.3.1 图像文件检查。检查图像文件质量分为人工质量检查和应用程序质量检查两个部分。人工质量检查主要是检查扫描图像是否清晰、有无任何歪斜、颠倒、扭曲或变形情况,黑边和污点是否需要处理,文件命名是否和自记纸标记时间一致等。应用程序质量检查主要检查扫描一个图像文件的完整性,看有没有错误的重命名、漏扫等一系列问题[1]。

2.3.2 数据质量检查。对数字化完的数据质量必须进行检查,其结果要有详细备注,备注的主要内容包括编写数据集质量检查报告,包含图像扫描文件检查情况、数据提取及问题处理情况、数据集质量文档制作流程说明等[3]。

3 数字化成果-数据集

按照中国气象局相关技术标准规定,数字化的最终成果要制作为标准数据集,数据集主要包括:气象数据集实体存档文件(datasets)、元数据实体文档(metadata)、说明解释文档(description)、附加说明文档(documents)、readme.txt文件[3]。

EL 型电接风向风速自记纸数据提取结果文件包括:图像预处理后提取图像文件jpg 文件)、风自记迹线文件(gal 迹线文件)、提取效果数据文件(png 文件)、数据库提取文件(db文件)、风自记纸分钟数据提取文件(Fm 文件)、小时数据提取文件(Fh 文件)共6类文件。

按照规范要求,必须用四级标志目录来存储代表文件与数据上报目录。

XX_YYYYMM[-CCn](一级目录:数据省份代码_年月,年月为报送时间;CCn为每年重报标识,n为每年重报次数)

IIiii(二级目录:区站号代表区域和站点编号)

Pic(三级目录:小时图像文件和小时跟踪数据文件)

YYYY(四级目录:代表年份)该目录下同时存放jpg文件和gal文件

Fm(三级目录:分钟风数据文件)

Fh(三级目录:小时风数据文件)

BZ(三级目录:备注数据文件)

FZJ-IIiii.db(数据库文件)

数据集清单见表1。

表1 西藏EL型电解风自记纸扫描图像文件数据集清单

4 结束语

项目建设成果将对全区气象档案馆馆藏历史资料由于有不同程度的变质、字迹模糊、纸张磨损等情况有一个质的保护、拯救及保存,进一步提高西藏自治区基础气象观测资料业务的规范化、信息化和现代化建设水平,成果所产生的数字化基础气象资料将更便于信息化条件下的资料管理和普遍应用,能有效地帮助提高基础气象观测资料在相关业务和科研的使用效益,在应对气候变化和建立现代气象资料业务体系起到积极作用。

猜你喜欢

图像文件质量检查气象
气象树
《内蒙古气象》征稿简则
审计署赴江西省审计厅质量检查座谈会
大国气象
美丽的气象奇观
图像电子文件的归档格式及其转换研究
中注协举办2016年证券资格会计师事务所执业质量检查人员培训班
加强会计信息质量检查促进会计基础工作规范
两步把PDF转为Word文档
《图像文件探寻之旅——图像文件概述》教学设计及反思