高校重要网页信息采集归档实践探析
2017-01-31陈建平浙江工商大学
陈建平/浙江工商大学
高校重要网页信息指高等院校在网络上直接形成的、有保存价值的数字化信息资源,这些信息具有原始性、凭证性特点,是“高校记忆”的重要组成部分,是数字时代高校档案部门的重要收集内容。高校重要网页是一种不断变化与更新的动态资源,保持高速增长的同时也大批消亡,若不及时采取措施进行收集,其消亡之后再也无法获取。因此,高校重要网页信息采集归档重要而且紧迫。
1 采集归档方式选择
高校重要网页信息形式多样,包括文本、图像、音频、视频等多种表现方式;所属网址虽不尽相同,但总体上所属网站、版块相对集中,较其他类别的重要网页信息更易采集归档。考虑到高校重要网页信息特点以及采集归档所需的人财物等因素,高校重要网页信息采集归档一般采取网络爬虫收集和人工采集相结合的方式,以实现对有价值的网页进行采集、过滤、提取与批量上载等一体化归档工作流程。为此,高校档案部门应该配备相应的专业技术人员,以及采集工具、计算机及存储设备等软硬件设施。
2 采集归档流程分析
首先,确定采集归档范围,明确采集对象。高校档案部门可以根据实际需要确定重要网页信息归档范围,以及归档网页信息的保存方法。目前一些高校主要针对本校官方网站、各部门(处、室)、各学院办公网站发布的动态新闻以及各大主流媒体网站中有关本校的重大事件的报道进行采集归档,如浙江大学以其官网上的浙大简讯版内容块作为采集归档的主要对象之一。关于归档网页的保存方法,大多数高校选择网页快照。
其次,确定采集归档标准,设置采集模式。技术人员对采集对象的网站及页面信息结构进行分析,在本地安装采集软件并设置采集模式。一般来说,采集软件经过设置可以自动采集指定网站、所需版块以及特定页面,生成网站镜像或网页快照等,并获取著录所需的字段信息,比如题名、发布者、发布时间、来源网址等;同时采集软件支持各种标准格式信息资源的采集,如HTML页面、文件信息、表格、图片、声音、视频等。借助采集软件,技术人员对高校重要网页与内联图片进行统一采集;在视频文件采集过程中对关键帧进行提取,生成高质量无损压缩影像;对单篇网页及网站历史数据进行批量采集。
再者,确定组件方式,整理入库。技术人员对归档网页信息的著录性规范进行审核,审核内容包括题名命名规则、档号自动编制格式、元数据采集标准等,在此基础上将采集的文本内容批量上传到全文数据库中,实现内容发布与全文检索等利用服务。
3 采集归档注意事项
3.1 采集工具及标准问题
高校重要网页采集归档是一个新兴的课题,目前还没有完美的采集工具和归档标准。档案行政管理部门也没有对采集工具进行过测试,没有推荐采集工具,更没有出台相应的行业标准。为此,高校要根据实际情况选择采集工具及标准,并要考察工具能否保留网页内容的元数据和功能。
3.2 采集鉴定及分类问题
采集工具经过设置能够自动对相应的网页信息进行采集,生成网页档案,并进行初步分类。在此基础上技术人员要对系统自动生成的网页档案及其元数据信息进行审核和完善;必要时要进行全文阅览,以便制作高质量的著录及标引;还要进行分类审核及完成入库工作。
3.3 采集质量及数量问题
在采集归档实践中,既要保证高校重要网页信息的质量,也要保证数量。目前的做法是,使用自动过滤系统跟踪目标站点,将网页中的信息(如日期、标题、作者、版块等)提取出来,再对采集工具设置自动去重功能,实现信息自动去重。在采集过程中,可以定义一个或多个主题词,对网页内容进行过滤,较为精确地获取与采集主题相关的网页内容;对于下载的网页,采集工具自动进行信息过滤,剔除广告及其他无用的信息,智能提取有价值的信息内容,生成网页快照,用于归档保存。