APP下载

《长江水利科技网》的数据组织与运行维护

2013-12-03周力峰

长江科学院院报 2013年3期
关键词:数据源科学院网页

周力峰,王 奔

(长江科学院科技成果推广及信息中心,武汉430010)

《长江水利科技网》(简称院网站,备案序号为鄂 ICP 备 05012336,http://www.crsri.cn)是长江科学院的对外网站,其功能定位为对外宣传窗口、文献交流平台及异地办公工具。围绕这3个功能,进行数据组织并常年开展运行维护。

网站建设主要包括网站开发与数据组织2部分。《长江水利科技网》由长江科学院自主开发,根据需要,于2002年、2007年、2010年3次进行了网站升级,持续对网站的结构进行了优化[1]。在10余年的网站建设运行过程中,笔者体会很深的是,数据是网站的生命,数据组织是网站运行维护的核心工作。基于此认识,本文不谈网站开发,而重点讨论网站数据组织问题,其中主要有数据规划、数据管理、数据安全等。

1 网站的数据规划

数据规划是在网站建设前期应该解决的关键技术问题,主要包括数据源分析、确定数据格式及数据平台选型等。数据规划要相对独立于网站开发平台,总体要求是全面、系统、准确、关联。合理的数据规划可以简化程序代码开发,可以保证数据长期有效的使用,还可以使得数据在更大的范围内被共享。

1.1 数据源分析

网站建设首先要摸清网站需要哪些数据、数据源于何方,这属于网站开发需求分析的组成部分[2]。数据源是由网站的用途所决定的,院网站需要的数据来源于新闻稿、文献资料、办公与交互等3方面,建立相应的数据源统计表。

数据源统计表要罗列所有需要用到的数据来源。网站数据可以分为自产数据、他引数据2大类。对于自产数据,要在表中确定每一种数据的数据类型、数据提供责任者,数据提交时限(或数据刷新频度);对于他引数据,要确定稳定数据获取渠道,并确认数据引用的合法性,保护原产数据的知识产权。在完成了数据源统计过程中,最好还要估算各类数据容量,以便为数据库平台选型提供依据。

1.2 数据格式

数据格式是指数据在数据库中的存储格式,即保存在文件或记录中的编排格式。要采用数据字典,在描述网页基本信息及数据提取方式的同时,确定网站数据表和字段基本信息的元数据[3]。

数据库数据也可以分为结构化数据与非结构化数据。结构化数据即可以存储在数据库中、并能用二维表结构来逻辑表达实现的行数据;非结构化数据主要指办公文档、文本、图片、XML、HTML、各类报表,以及图象、声音、影视、超媒体等信息等大文本文件。院网站数据表格式如表1所示(表1只选取了部分主要字段进行单项与关联说明)。

采用行业(单位)统一确定的数据格式也叫数据标准。网站数据格式是单位数据标准的子集。它要保障网站数据的产生、处理、使用的规范性,并能保证网站数据与单位数据中心数据的共享。有了标准的数据格式,既可以保证数据录入的规范性、满足数据表的合理性,也可以为数据在新闻、资料、专题等栏目中的多重调用与复用创造条件。

表1 院网站数据表格式Table 1 Formats of various data sheets

1.3 数据库平台选型

要选择合适的数据库平台,以承载所需所有类型的数据,保证有足够大的存储空间,提供快速的数据提取能力,并有健全的数据安全机制。

数据库选型的原则是稳定可靠、可扩展、安全性,并支持丰富的开发工具[4]。院网站数据库比选在Oracle与SQL Server之间进行,两者都是目前的主流数据库管理系统。Oracle是目前的主流数据库管理系统,在提供完备数据管理能力同时,对数据备份保护、数据恢复等方面都有独到之处;而SQL Server作为微软在Windows平台上开发的数据库,一经推出就以其易用性得到了广大用户的青睐。区别于FoxPro、Access小型数据库,SQL Server功能完备,它支持开发的引擎、标准的SQL语言、扩展的特性(如复制、OLAP、分析)等功能,并具备像存储过程、触发器等大型数据库才拥有的特性;且相对Oracle,SQL Server性价比高,轻便且功能强大,因此,我们选用了SQL Server 2000。

2 网站的数据管理

数据管理是在网站运行维护阶段的主要工作,其管理对象是数据实体。本节结合院网站运行维护的实际情况来具体论述数据管理,主要包括数据组织制度、数据处理、数据表现、数据检索,以及多网站之间的数据共享等。

2.1 数据组织制度

我们在实际工作中认识到,网站数据源渠道多,涉及各个责任单位,需要有一个统一的制度来保障数据的有效提供。为了保障院网站的正常、高效运行,颁布了《长江科学院网站管理实施细则》①长江科学院.长江科学院网站管理实施细则,科[2010]55号。,在明确网站建设、网站运行维护责任要求的同时,重点提出了“内外网资料性信息的更新要求”,见表2。

表2 长江科学院内外网资料类信息的更新要求Table 2 Requirements for document information update on the external and internal websites of YRSRI

表2明确了各方职责,很好地保障了数据的提供与更新。而对于一些外引数据,我们要求必须是公开网站发布的,在转载时要准确注明出处。

2.2 数据处理(数据生成问题)

数据处理包括材料加工、数据录入与编辑等。

材料加工主要针对文档、图片、声音、影视文件而言。对图片文件,院网站允许发布的格式包括GIF/JPG/PNG/BMP等。在一般的新闻稿中,推荐使用JPG格式;在文献资料中,必要时可以使用其他3种格式。为了有效利用存储容量,院网站要求的单张图片大小限制为300 kB。其他类别文件(WORD,EXCEL,PDF,WAV,MPEG)精简到必要大小以后都可以作为附件编辑入库供使用。

院网站提供可视化的后台编辑平台,保证数据录入与编辑审核(信息发布流程)正常进行。为了保障信息发布责任制得以落实,采用统一的《新闻稿纸》提交稿件。在《新闻稿纸》中,除了要求提交规范的标题、正文、图片(含其他附件)以外,还要求撰稿人、审核人及编辑签字,并钩选编发转发的网站要求。《新闻稿纸》的使用,增强了撰稿人、审核人及编辑的责任感,提高了编辑的质量。

其实,除了新闻稿件编辑之外。还有大量的资料性数据要处理,如文献专题、单位资质、项目成果数据库等,其中有些需要批量导入。对于这些需求,院网站均提供相应的数据接口。他引新闻或文献在院网站中也占相当比重,多采用编辑转发形式,而对一些时效性强、篇幅大的稿件有时也采用网页直接链接方式。

2.3 数据展现

院网站以静态网页文件(HTML/CSS)、动态网页文件(ASP/JSP/PL/PHP)2类方式完成数据展现。

静态网页是标准的HTML文件,不包含在服务器端运行的脚本,由开发人员编好后交给Web服务器运行,没有数据库的支持。由于静态网页可以包含文本、图像、声音、FLASH动画、客户端脚本和ActiveX控件及JAVA小程序等,会使得网页动感十足,很具表现力。

动态网页在确定的页面上,按要求提取数据库数据来实现信息发布。动态网页实际上并不是独立存在于服务器上的网页文件,只有当用户请求时,服务器才返回一个完整的网页。动态网页的特征是以数据库为基础,可以大大降低网站维护的工作量;网站采用动态网页技术的优势很多,可以实现大量服务器与用户之间的信息交互,如用户注册、用户登录、在线调查、用户与网站互动等;还可以大大降低网页日常维护的工作量。

院网站的数据展示以动态网页为主,静态网页为辅。静态网页主要显示院基本情况介绍(院简介、组织机构、资质证书、质量管理、文明单位等),并实现首页与专题中的动画渲染表现;院网站大量使用动态网页去显示新闻、文献、数据图表,并用于公益性开放项目申报、研究生报名考试登记、人员招聘、项目质量反馈等交互式的查询处理栏目。“动静结合”有效地保证了数据展示的准确生动、丰富与灵活。

2.4 数据检索

当网站达到一定的数据规模时,就需要有方便的数据检索。院网站运行10余年,数据已经积累到了一定程度,逐步在重视检索技术应用。在分栏目检索时,新闻性数据与文献性数据检索一般是分开进行的。但是在实际使用中,两类数据的内容有些相互渗透。这就需要网站首先实现全站题录级数据检索,有条件的情况下实现全文检索。目前,院网站在提供网站导航的基础上,重点做了基于栏目的题录级数据检索,满足基本检索需要。由于我们大量使用动态网页,全文检索需要专用工具,现在也在开展相关软件选型技术调研。

2.5 多网站之间的数据共享

如表2所示,长江科学院开发的网站群包括院内外网站、重点实验室(工程研究中心)网站、研究生教育网站、挂靠长江科学院的学会(协会)网站、院属企业网站等。在院网站之中,每年又要建设若干个网站专栏。网站群及网站专栏产生了大量的数据,在网站规划中统一了数据表及数据格式,使得一份数据可以多处共享。内网信息经审核后,可以跨越防火墙“摆渡”进入外网数据库;基于院网站数据库的稿件(含文献)可以一稿多发,也实现了一稿的栏目(网站)转移、复制功能。这样,既大大减轻了编辑工作量,也有效降低了数据容量。

3 网站数据安全

网站安全的“先天不足”,需要注重网站数据的安全防范。院网站主要通过设备配备、权限限制、数据备份等措施来保障网站数据安全。

当前,黑客对网站破坏的主要手段是SQL注入攻击,它利用Web应用程序或网页中编码缺陷进行攻击,例如,黑客可能在某个字段后输入一小段SQL代码来收集邮件地址,如果应用程序对输入的内容未作安全验证,服务器就可能执行黑客输入的SQL命令,让黑客获得服务器的控制权。院网站服务器配备了网页防篡改软件天融信TopIDP,有效防范了SQL 注入攻击[5]。

院网站在文献资料访问方面注意内外有别。对于内部专业文献(含中外文期刊文献数据库)应用,使用VPN通道及用户密码。对于安全性要求更高文件访问,使用网络文件加密方式,需安装专门的加密软件客户端才能查阅,并且不允许拷贝、拷屏、打印。

数据备份是网站数据保护的常规措施。院网站每月、季、年定期统计数据增长情况,为数据存储提供依据。首先,充分利用SQL Server数据保护机制实现系统内的安全防护。在此基础上,院网站数据纳入院数据中心,一起进行每天的增量备份、每月的全备份,并在院网络存储设备中实现了大容量的数据异地备份。

4 结语

10余年来,《长江水利科技网》功能不断完善、数据日益丰富、运行比较稳定,这些得益于良好的数据规划、有效的数据管理。随着网络通讯技术、网站技术的发展,院网站也需要提高与发展。在功能方面,希望增加视频文件的播放、开发基于WAP协议的手机版网站;在数据方面,争取大力加强文献资料性数据的网站共享,引进集成文献全文检索软件,以使长江科学院60年丰富的治水治江成果能够更好地为国家、为社会服务。

[1]周秋菊,周力峰,徐洪林.长江科学院Internet网站开发[J].长江科学院院报,2001,(6):59 -61.(ZHOU Qiu-ju,ZHOU Li-feng,XU Hong-ling.Development of YRSRI’s Internet Site[J].Journal of Yangtze River Scientific Research Institute,2001,(6):59 - 61.(in Chinese))

[2]郑 艳.关于网站开发项目的需求分析[J].今日科苑,2009,(18):282 - 283.(ZHENG Yan.Demands of Website Development[J].Modern Science,2009,(18):282 -283.(in Chinese))

[3]邓铁清,王 恺,李德彩.网站建模与网站开发通用平台的研究[J].军事运筹与系统工程,2003,(3):30-33.(DENG Tie-qing,WANG Kai,LI De-cai.Universal Platform for Website Modelling and Website Development[J].Military Operations Research and Systems Engineering,2003,(3):30 -33.(in Chinese))

[4]阿里西西网站.数据库的选型原则[EB/OL].(2008-02 -09)[2012 -10 -12].http://www.alixixi.com/program/a/2008020938072.shtml.(Web Development Team.Principle of Database Selection[EB/OL].(2008-02 -09)[2012 -10 -12].http://www.alixixi.com/program/a/2008020938072.shtml.(in Chinese))

[5]张 敏.基于ASP的网站开发安全问题及漏洞防范研究[J].价值工程,2011,(13):183.(ZHANG Min.ASP-based Website Development Security and Vulnerability Prevention[J].Value Engineering,2011,(13):183.(in Chinese))

猜你喜欢

数据源科学院网页
咸宁市农业科学院情况简介
咸宁市农业科学院农机所简介
《河北省科学院学报》稿约
一位科学院院士的文学人生
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
Web 大数据系统数据源选择*
基于URL和网页类型的网页信息采集研究
基于不同网络数据源的期刊评价研究
网页制作在英语教学中的应用