APP下载

水产种质数字档案管理平台建设的研究

2022-08-19

信息记录材料 2022年6期
关键词:种质水产基因

于 喆

(辽宁省海洋水产科学研究院 辽宁 大连 116023)

0 引言

国际社会高度重视生物多样性和种质资源的保护工作。联合国教科文组织、国际生物联盟、环境问题科学委员会在1991 年联合启动了国际生物多样性计划(An International Programme of Biodiversity Science,DIVERSITAS),旨在保护生物多样性和相关复杂的科学问题。2004 年国际生物多样性计划中国委员会成立[1],科技部、各省市地方获批立项了一系列的种质资源保护类的科技项目,相关的科研和调查工作也在全国范围内得到有序开展。

水产种质是决定水产遗传性状并将遗传信息由亲代传递给子代的遗传物质的总称,是水产物种进化、遗传学及育种学研究的物质基础。水产种质资源是培育高产、抗病新品种的物质基础,是提高渔业生产能力的保证,是我国重要的战略资源。近年来,我国渔业科研人员搜集了大量的标本,建立了标本库,同时也获取了大量的种质资源数据。

水产种质数字档案的存档工作,本质上是各类数据的存档。科研数据的存档的重要目的之一在于科研工作的可追溯性,同时还要兼顾数据档案的开放和共享。因此,与传统的纸质档案相比,采用电子档案的模式显然更适合此项工作的开展。随着信息技术普及和发展,科研数据的管理更受到重视,2020年,国家档案局、科技部共同颁布了《科学技术研究档案管理规定》,旨在加强科学技术研究档案管理,有效保护和利用科研档案。档案管理工作应该与时俱进,赋予科研成果档案的属性,对于水产种质档案的管理,建立数字化的管理平台是发展的必然趋势。

辽宁省高度重视水产种质资源工作,辽宁省海洋水产科学研究院于2014 年开始承担辽宁省水产种质资源基因平台的建设工作,此项工作是对全省水产种质资源的一次摸底和整理,该工作的完成不仅使水产养殖和渔业生产品种的种质信息得以较深入的认识,也为辽宁省水产生物相关研究和开发利用提供了名录、形态以及分布和种质状况等重要信息。平台的数据不仅包括辽宁省原良种场的保留原良种,也覆盖了省内现存的野生水产物种,这些信息的取得和保存为水产养殖业的良种保存和优良水产品种培育提供了基础信息资源。数据的共享也为省内原良种场及养殖从业人员全面了解养殖信息提供了平台。由于本项目所采取的样本都是辽宁省境内采集,其基因序列可能带有地方特异性,这些特异性可以为水产品追溯产地来源提供证据,为水产品质量安全检测提供基础数据。此项工作所获得的数据信息和DNA 样本,不仅为研究辽宁省自然水产物种的遗传多样性研究打下基础,同时也为将来进行物种遗传多样性的恢复提供物质和信息的准备。水产种质数字档案管理平台为水产种质资源基因平台的重要分支,该平台的建设不仅要有信息化的网络做支撑,实现高效的信息共享,同时也要有规范化的数字档案管理模式,长期保障数据存储的安全,合理地开发和利用。

1 存档内容和流程解析

水产种质资源的调查工作,主要围绕着以下内容完成:(1)基本信息:包括生物学分类、生活习性、形态特征、营养价值等。(2)地理位置分布:包括自然分布、原良种场分布、自然保护区分布。(3)繁育信息:包括生长繁殖规律,基因条形码信息、基因序列信息等。(4)影像信息:物种及其标本的照片、视频等。以上信息的表现形式主要为:文字描述、基因序列片段、图片、地理信息等。各字段数据所占存储空间大小不一,从Byte 级到MB 级到GB 级。

档案存在的价值之一是可以高度还原所做的工作,某一水产种质的存档内容就是种质资源调查数据和相关信息的存档。当完成了某水产种质的调查工作后,需要以每一个“种”作为单位完成存档。首先由调查员完成信息的系统录入,而后,由项目负责人查验并确认录入信息,最终由档案管理员完成档案的归档。对服务器的蓝光设备的刻录操作是完成存档工作的标志,蓝光存储技术具有容量大、能耗低、成本低、只读、保存时间长等优点,在金融、军工行业已经有了广泛的应用。通过蓝光存储,数据可长期存储在蓝光光盘上,且不能更改,这就保证了档案的原始性[2]。存档流程一定程度上保证了数据的存档质量和审查痕迹。如后续出现问题,可提出申请,在保持原数据条目不变,新增条目,重新录入。

2 系统架构和功能设计

2.1 系统架构

水产种质数字档案属于数据档案的一种,该档案管理平台在系统架构上属于科研机构的数据档案管理平台的子平台。本平台采用C#语言开发,数据库采用My SQL。前台Web 采用HTML+CSS,运行环境为IIS。系统运行网络为科研机构内部专网,同时保留互联网端口,平台采用B/S(浏览器/服务器)架构,通过浏览器对服务器进行访问。服务器部署包括水产种质在内的各类数据档案管理平台,连接有数据库,配备蓝光存储系统,见图1。

2.2 功能设计

水产种质数字档案管理平台具备物种查询、基因查询、标本档案查询、地理信息查询等功能[3]。

2.2.1 物种查询

根据生物学分类,进行“门纲目科属种”的查询。可进行大类的查询,也可进行小类的查询以及名称关键字的查询,见图2。点击某个物种,会直接进入其数字档案,显示其详细信息,包括生物学分类、地理分布、生活习性、生长繁殖特征、基因片段、照片等。

2.2.2 基因查询

本功能是通过输入基因片段查询与档案库中物种的相似度,根据得分,给出参考结果,见图3,该功能通过水产生物基因序列相似度算法来实现。算法的总体思路是对数据库中的目标序列进行预处理,生成空间向量。然后,将待查基因序列向量化,通过计算相似度找出待查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,确定数据库中与待查基因样本序列最相似的序列,在满足特定阈值条件下,判断与样本序列最相似的基因序列,从而得到结果[4]。

该算法的计算参照两个指标:(1)DNA 比对打分:原理是根据两条DNA 链的不同碱基进行直接比对,计算实际得分,找出最相似的DNA。这种方式的优点是能够区分不同碱基(嘌呤,嘧啶)并进行打分,同时综合考虑了DNA的碱基的差异性,不足之处是打分结果为一个整数,不能通过具体的值来反映具体的相似程度。因此,本算法提出了修正方式,通过数据映射到0 ~1,以解释两条DNA 链相似程度。(2)相似度:通过考察碱基关联方式所出现的频率进行比对,确定连接方式的步长,然后按步长对两条DNA 链进行整理,以碱基关联方式为基底生成两个多维向量,最后计算两个向量余弦相似度指标,即相似度的值。该算法的优点是所得到的相似度能够在一定的步长下计算出DNA 相似程度,整体波动范围在0 ~1 之间,但存在的缺点是没有考虑DNA 空间结构,更多是基于频率的思想,会造成整体比对相似度偏高,解决方法是对较长的DNA 链需要设置更高的阈值来提高相似度的准确性,提高相似度参考价值。考虑5%的容错机制下,以样本长度为600,数据长度600 为例:步长=2,必须保证相似度在99%以上;步长=3,必须保证相似度在96%以上;步长=4,必须保证相似度在91%以上。

2.2.3 标本档案查阅

水生生物标本是自然界各种水生生物最真实、最直接的表现形式和实物记录,可以真实形象地还原种质调查的工作成果,是调查结果的凭证,也是重要的实物档案[5]。此类实物档案具有易损特征,对保存环境有着严格要求,需要使用专业技术手段进行保存。本平台可远程查阅标本实物档案,提高了档案查阅的效率,减少了标本室的维护成本[6]。系统在标本室连接有多台在线、高清、广角、长焦距、可摆动摄像头,根据物种标本的摆放标签信息,通过遥控转动摄像头的角度以及调整焦距,可随时多角度查阅存放标本的影像资料(图4)。基于硬件成本考虑,目前还无法达到现场查阅的效果,但随着AR(Augmented Reality)技术、高清影像技术的发展,远程的标本档案查阅将会越来越逼近现场查阅的效果[7]。

2.2.4 地理信息档案查询

国家测绘地理信息局和国家档案局在2017 年联合印发了《测绘地理信息档案管理规定》,规定中强调了地理信息档案的重要性,指出了各单位应加快推进传统载体档案数字化和利用网络化,运用信息化手段对档案信息资源进行管理开发,以方便检索利用,实现资源共享。本平台保存了种质资源分布的地理信息数据,以百度地图为底图,见图5,通过百度API 接口实现地理信息查询展示的功能。用户可直观地查阅自然保护区、原良种场在电子地图上的分布情况,点击“详情”可直接查阅该场所的档案,包括场所简介、水产种质情况、联系人、联系方式等。未来,我们将通过更精确的测绘技术结合地理信息技术对各种质资源自然保护区、良种场进行测量、存储和展绘。

3 权限管理与信息安全

水产种质数字档案管理平台运行在机构专网中,平台的系统管理员、档案管理员、数据录入员、审核员、查阅人员分别设有不同权限,责任划分明确。根据数据的密级要求,开放权限,在互联网同步公开的种质资源数据供互联网用户查阅,从而最大化地利用好电子档案资源。在系统的权限控制层,按照用户管理和权限控制列表,审核用户的合法性和访问权限,保证系统和信息安全,并对用户进行个性化界面设置。加强文件访问控制管理,根据访问的用户范围,设置文件的读、写、执行权限;对重要资料设置被访问的时间和日期。建立数据库日志:使得系统发生故障后能提供数据动态恢复或向前恢复等功能,确保数据的可靠性和一致性。建立应用系统日志:通过记录应用系统中操作日志,通过事后审计功能为将来分析提供数据分析源,确保业务的可追溯性。

系统采用蓝光存储本身可保证数据的长期存储,同时采取定期磁盘备份的机制,提高数据的安全性,防止意外的发生;为了防止数据的泄露和恶意拷贝,平台采用了数字水印、防止截屏和复制的程序控制、限制数据下载等技术手段[8];采用HTTP+SSL 的HTTPS 协议,提高通信的安全性,保证数据的安全性,防止数据在传输过程中被窃取。

4 结语

信息技术的发展使无纸化办公走向成熟,得到了广泛应用,这种高效环保的方式也得到了高度的认可。随着互联网技术的飞速发展、4G 通信技术的普及和5G 通信技术的推广应用,信息的表现形式多种多样。新时代赋予了档案新的属性,档案的信息化和管理的智能化将是档案管理未来的发展趋势。水产种质数字档案管理平台就是利用信息技术实现高效管理的典型案例。

猜你喜欢

种质水产基因
华南地区最大农作物种质资源保护库建成
华南地区最大农作物种质资源保护库建成
当代水产 腾氏水产商务网
搞养殖,我们都看《当代水产》
搞养殖,我们都看《当代水产》
吉林省省级作物种质资源保护单位名单(第一批)
Frog whisperer
加油!水产人!
四川省桑树种质资源保存与应用
修改基因吉凶未卜