山东省农村农业信息资源整合研究
2016-02-05王风云郑纪业封文杰赵佳李乔宇阮怀军
王风云++郑纪业++封文杰++赵佳++李乔宇++阮怀军
摘要:根据山东省农村农业信息化示范省建设过程中信息资源整合的要求,对信息资源的分析、评价、筛选、类聚、标引、著录、排序、建库和存储等过程进行了分析,研究了农村农业信息资源整合的关键技术,以期为其他省份的农村农业信息资源整合提供借鉴。
关键词:山东省;农村;农业;信息化;资源整合
中图分类号:S126 (252)
文献标识号:A 文章编号:1001-4942(2015)12-0107-04
2009年,中华人民共和国科学技术部、中华人民共和国工业和信息化部、中共中央组织部联合启动了国家农村农业信息化示范省建设工作;通过代表性、工作基础、工作机制等方面的认真研究、论证,2010年,决定把山东省作为第一个国家农村农业信息化示范省,进行全国农村农业信息化的试点。
基于资源整合、统一接人、分地运营和专业服务构建省级农村农业综合信息服务平台是山东省作为国家农村农业信息化示范省建设的重要工作。按照“平台上移,服务下延”的原则,集成农村科技、远程教育、农业、市场等各类信息资源,打造省级农村农业综合信息服务平台(含各专业信息服务系统,即“1+N”平台),支持短信、语音、视频等多通道同时接人,能够实现对基层农户、企业和相关农业合作组织的“扁平化服务”。
1 农业信息资源整合定义
农业信息资源整合,就是依据不同层次农业信息用户的需求,将原本离散的、多元的、异构的、分布的信息资源,通过分析、评价、筛选、类聚、标引、著录、排序、建库、存储、链接等一系列逻辑和物理的优化整合,最终形成一个有序的、效能更高的信息资源体系,从而体现出农业领域知识的整体联系,并利用一个统一的共享平台,满足用户多元化的信息需求,实现一站式服务。
在山东省作为国家农村农业信息化示范省建设过程中,建立了山东省农村农业信息化综合服务平台,该平台既整合了农业自然资源信息,如作物生长的气候、土壤、水分、长势及病虫害信息等;也整合了农业经济技术资源信息,如农产品市场、技术、政策法规、管理信息等。农业自然资源信息为精准农业发展提供了可能性,农业经济技术资源信息为实现农业精准化提供了必要保障。通过信息资源整合,有效地解决了当前农业信息资源建设各自为政、分散管理所造成的低水平重复建设和农业知识的割裂现象,使分散在各农业科研院所、高等院校、政府管理部门的信息资源得到有效整合,实现了农业信息资源跨部门应用,特别是为广大农村所共享。
2 农业信息资源整合过程
2.1 农业信息资源分析
根据农村、农业和农民生产生活的需要,对大量涉农信息进行深层次的加工和分析研究,形成有助于问题解决的新信息,这是资源整合的第一步。对于农业科研人员来说,及时全面地获取农业信息资源,有助于提高自己的科研水平;农业生产者及时地获取农业政策法规、农产品生产和市场价格等信息,有利于减少农业市场上的农产品信息不对称问题,在一定程度上减少农业生产者的损失;对于农业管理者来说,全面地了解与农业相关的信息,能更好地指导我国的农业生产。
在山东省农村农业信息资源数据分析中,主要针对农民对农业生产的需求,分析了大田和设施栽培、水产养殖过程中的自然资源信息,包括农作物的生长环境、病虫害、长势等信息。针对农民对市场供求、法规政策、农业技术等信息需求,分析了农业实用技术、政策法规、生产资料、批发市场、农牧专家、农民经纪人、龙头企业、名优特产、农牧灾害、示范园区等信息,建立了农业数据资源中心。
2.2 农业信息资源评价
随着计算机技术、网络技术和通信技术的迅猛发展,网络信息资源爆发式剧增,增加了用户获取所需信息的难度,而且信息的可靠性与真实性也影响了用户对信息资源的利用,因此对农业信息资源进行评价至关重要。主要有定量评价、定性评价和综合评价三种方法。
访问量统计、链接关系分析、网络计量学等是信息资源整合中常用的定量评价方法,通过数据分析,可以从客观量化的角度对网站信息资源进行优选和评价。定性评价则是从主观角度,按照一定的评价标准,建立相关的评价指标体系,从而对网络信息资源进行优选和评估。
在山东省农村农业信息化综合服务平台建设过程中,从定量和定性两个方面对网络信息资源进行综合评价,即:通过定量分析尽可能多地获取某一网络信息资源的相关信息,分析统一资源定位器、该网络信息资源被链接率以及与其它类似或相同领域的信息对比等,然后定性地从覆盖面、准确性、时效性等方面分析该网络信息资源的内容以及资源的可获得性、页面设计和布局等。
2.3 农业信息资源筛选
根据信息资源评价确定的标准,采用查重法、时序法和类比法等对农业信息资源进行筛选。查重法是筛选信息资源最简便的方法,可以剔除重复资料,选出有用的信息资源。时序法即逐一分析按时间顺序排列的信息资源,在同一时期内,选取较新的,舍弃较旧的,使信息资源在时效上更有价值。类比法是将信息资源按空间、地区、产品层次分类对比,接近实质的保留,否则舍弃,这种方法需要信息资源收集人员有比较扎实的专业知识,熟悉自己的业务范围,从而根据信息资源的题录进行取舍。
2.4 农业信息资源类聚
农业信息资源类聚就是将信息资源划分成群组的过程,即把信息资源对象分成多个类或簇,同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。通过确定数据之间在预先制定的属性上的相似性来完成类聚任务,这样最相似的数据就聚集成簇。
2.5 农业信息资源标引
农业信息资源标引是指在分析信息资源内容的基础上,用某种检索语言把资源主题以及其它有意义的特征标识出来,作为资源存储和检索依据的一种资源处理过程。首先进行主题分析,确定主题的类型和结构;然后在主题分析的基础上,进行概念转换,将确定的主题概念赋予检索标识的过程,形成检索标识。不同的农业信息资源数据库可能会使用不同的分类法和主题词表来标引资源,《农业科学叙词表》由于能够提供丰富的农业专业术语以及术语间的关系,成为农业信息资源整合过程中标引和检索农业信息资源的工具。endprint
2.6 农业信息资源著录
农业信息资源著录是指在编制资源目录时,对资源内容和形式特征进行分析、选择和记录的过程。一般是按照某种标准化的格式和要求,对资源的某些被规定的特征进行描述(如来源、作者、题名、日期等),给出信息资源的缩影。为了更好地实现信息资源的共享,著录时编目人员要遵循统一的格式,使用受控的语言,逐条填写各个款目的内容。
山东省农村农业信息资源数据中心按15个大目录122个子目录进行著录,包括实用技术(14个子目录)、政策法规(13个子目录)、质量标准(6个子目录)、生产资料(13个子目录)、批发市场(6个子目录)、农牧专家(11个子目录)、农民经纪人(11个子目录)、龙头企业(11个子目录)、名优特产(6个子目录)、科技项目(5个子目录)、种质资源(7个子目录)、示范园区(6个子目录)、科技成果(3个子目录)、农牧灾害(5个子目录)和协会组织(5个子目录)。
2.7 农业信息资源排序
农业信息资源排序就是采用排序算法把一系列的信息资源记录,按照其中某个或某些关键字的大小,递增或递减排列起来的操作。排序算法是该过程中使用的主要方法,在处理大量数据时,应用该算法可以节省大量的资源。排序算法一般分为内部排序和外部排序,内部排序是指待排序列完全存放在内存中进行的排序过程,适合记录较少的序列;而如果待排序列记录数量非常多,排序过程不能在内存中一次性完成,则必需对外存储器进行访问,这种排序被称为外部排序。
常见的内部排序算法有插入排序、冒泡排序、选择排序、快速排序、堆排序、归并排序、基数排序和希尔排序等。在应用中,可根据不同情况、不同要求选择较适合的方法,甚至可将多种方法结合使用。当待排序的记录数不大时,可选用插入排序、选择排序和冒泡排序,方法简单,容易实现;当记录数很大,但不强求排序稳定性,且内存容量不宽余时,应选用速度非常快的快速排序或堆排序;当记录数很大,且对排序稳定性有要求,内存容量也宽余时,用归并排序最为合适,这也是山东省农村农业信息资源整合中选用的排序方法。
在对大型文件排序时,由于文件很大,不可能将整个文件的所有记录都同时调入内存中进行排序,这就需要利用外部排序技术来实现。外部排序最常用的是多路归并法,主要有两个步骤:第一步,按内存大小,将外存上的文件分成若干个长度相同的子文件或段,依次读入内存,并利用有效的内部排序法进行排序,将结果重新写入外存;第二步,将这些有序的子文件或段由小到大在外存上形成一个排序文件。
2.8 农业信息资源建库和存储
农业信息资源整合中的建库,需要充分调研现有资源,并考虑将来数据库的扩展性。针对农业信息资源整合中数据量大的问题,主要采用分布式索引建库方案,对数据进行分布式存储和计算。分布式索引建库采用统一服务接口,给用户提供一个可配置的建库申请文件,自定义自己的程序信息,保证不同用户可以并行启动分布式建库任务,完成最终的索引并传输至指定的机器。
3 农业信息资源整合关键技术
农业信息资源整合技术的完善和进步在很大程度上决定着信息资源整合的步调,因此,需要尽力挖掘新技术服务于信息资源整合和利用,保证用户可以方便、准确、及时地获取所需信息。农业信息资源整合所需的硬件关键技术有服务器虚拟化技术和负载均衡技术,软件关键技术有XML、Web和Web Service等技术。
3.1 硬件关键技术
在农业信息资源整合过程中,经常会遇到由于服务器配置高,仅用于部署单一资源应用,无法充分发挥其优越性能,造成服务器硬件资源闲置和浪费的问题。服务器虚拟化技术可以提高服务器利用率,加快应用部署速度,通过提供高可靠性、高可用的资源,为用户提供稳定、高效地访问服务,同时还节省了投资和维护成本等。
负载平衡技术可基于现有网络结构,扩展原有网络设备和服务器的带宽,增加网络吞吐量,加强数据处理,提高网络的灵活性和可用性。在信息资源整合过程中,负载平衡技术实现了连接的分配与调试,当用户通过资源访问地址请求时,根据各目标服务器的性能和网络运行状况,选择性能最佳的服务器响应用户的请求,并将所有流量均衡地分配到各个服务器,有效地避免了不均衡现象的发生。应用负载平衡技术,农村农业信息化综合服务平台明显地获得了高性能、高安全性和可扩展性。
3.2 软件关键技术
XML(Extensible Markup Language)是一种用于描述数据的标记语言,主要使用文档类型定义(DTD)或者模式(Schema)来描述数据,与描述Web页面的HTML有相似的格式。它可以利用Web浏览器进行数据确认,还具备易于生成数据的优点,因此,利用它可以很方便地在部门间和部门内部进行数据交换和利用。XML独立于平台,有利于跨平台的信息交流,完全可以充当网际语言,不仅可以降低应用程序的负担,也使智能工具的开发更为便捷。
Web是一种超文本信息系统,可以使文本从一个位置跳到另一个位置,有利于用户从中获取更多信息;还可以转到别的主题上,如:想了解某个主题的内容,只要在这个主题上点一下,就可以跳转到包含这一主题的文档上。另外,Web具有的图形化、易于导航、与平台无关、分布式、动态和交互式的特性,让信息资源整合的共享机制建设、适时更新和与用户互动机制建设等问题都能得到很好的解决。Web中的图形化显示功能,可将图形、音频、视频信息集于一体,从而使整合后的农业信息资源以非常形象、易懂的形式呈现在农户面前。
Web Service独立于平台和软件供应商的标准,是创建可互操作的、分布式应用程序的新平台,且具有跨平台的可互操作性能,能够将运行在不同平台上的各程序进行集成,为用户提供一个统一的界而,甚至允许重用代码,从而重用代码背后的数据。另外,Web Service还可通过Web进行互操作或远程调用。
4 结论
农村农业信息资源整合是个系统性的工程,包括支撑平台的软硬件系统、数据资源、应用系统等。本文介绍了数据整合的分析、评价、筛选、类聚、标引、著录、排序、建库、存储等过程,以及实现数据整合的软硬件关键技术,以期为其它省份的农村农业信息资源整合提供技术借鉴。endprint