白绒山羊遗传育种数据库及综合管理平台的设计与实现
2014-09-23艾晓燕徐东升张永恒
艾晓燕 ,张 峰 ,吴 疆 ,徐东升 ,张永恒
(1.榆林学院 信息工程学院,陕西 榆林 719000;2.西安文理学院 软件学院,陕西 西安710065)
白绒山羊遗传育种数据库及综合管理平台的设计与实现
艾晓燕1,张 峰1,吴 疆1,徐东升2,张永恒1
(1.榆林学院 信息工程学院,陕西 榆林 719000;2.西安文理学院 软件学院,陕西 西安710065)
为了提高育种质量和繁殖性能,减少育种研究风险和成本,采集陕北白绒山羊资源参考家系的相关育种资料,设计了一种基于Web的育种数据挖掘及管理平台。重点研究了基于遗传算法的育种数据挖掘算法以及决策支持系统、系统数据库的构建、功能模块和物理结构。应用结果表明,该方案可有效地有效解决遗传育种过程中染色体组合无序的地杂交造成优秀基因率降低和种类质量下降等问题。
白绒山羊;遗传育种;数据挖掘;遗传算法;数据仓库
榆林市是陕北白绒山羊主产区,目前,全市白绒山羊存栏量397.4万只,饲养量826万只。在白绒山羊集中饲养的县区,养殖农户70%家庭收入来自白绒山羊养殖业。为了更发了的管理陕北白绒山羊的遗传资源,需要构建繁殖性能与遗传育种数据仓库,以便实现白绒山羊的养殖与繁殖过程中的饲料配方、生产管理,遗传参数的估测和遗传性能分析。
本文采用陕北白绒山羊繁殖育种资料作为遗传算法的研究对象,构建遗传数据库,把陕北白绒山羊历史数据集成到统一的分析操作环境中,构建成功一套具有分析性能、初步探索性能的数据仓库系统。为遗传参数的估测、选择效果预测、杂种优势预测和遗传进展预测等工作打造了研究平台[1]。陕北白绒山羊数据仓库建设遵循“统筹规划,分步实施,先易后难”的总体原则,不仅要满足当前陕北白绒山羊遗传育种数据的查询、增加、修改和删除等事务操作类型的需求,还要满足对数据的分类、汇总和统计分析等需求,供遗传育种实践作决策支持。
1 系统主要功能模块分析
1.1 系统总体结构
本信息管理系统由数据输入和育种分析两个子系统组成。系统主要实现白绒山羊基础生物信息的管理和分析,应用数据挖掘和知识发现模型实现白绒山羊遗传育种管理平台及决策支持系统,具体内容如图1所示。
1.2 育种数据库结构的构建
育种数据库所涉及的实体模型主要有产羔信息表实体、产绒信息表实体、断奶登记表实体、发情配种信息表实体、防疫登记表实体,疾病信息表实体、检疫登记表实体、结测信息表实体、品系信息表实体、品种信息表实体、体形外貌表实体、系谱信息实体、羊群信息实体、种羊信息表实体、种羊转群舍表实体。下面将详细介绍这些实体模型含义。
1)产羔信息表实体:代表了一个产羔信息表实体,主要属性包括种羊编号、种羊编号、胎次、胎次、情期、羊舍编号、配种日期、预产期、配种公羊、产羔日期、产羔难易度、分娩状态、产羔数、成活羔数、产死羔数、公羔数、畸形数、木乃伊数、平均出生体重等。
图1 功能组成图Fig.1 Functional components
2)产绒信息表实体:代表了一个产绒信息表实体,主要属性包括种羊编号、测定日期、测定日龄、剪毛量、净毛率、毛自然强度、被毛细度、长度、油汗度、油汗色泽、被毛密度、弯曲度、备注等。
3)断奶登记表实体:代表了一个断奶登记表实体,主要属性包括种种羊编号、胎次、情期、羊舍编号、产羔日期、成活羔数、断奶成活数、断奶成活率、断奶日期、断奶日龄、备注等。
4)发情配种信息表实体:代表了一个发情配种信息表实体,主要属性包括种羊编号、发情日期、首次发情、胎次、情期、羊舍编号、发情类型、发情状态、配种日期、配种方式、配种公羊、配种人员、预产期 备注等。
5)防疫登记表实体:代表了一个防疫登记表实体,主要属性包括个体编号、疫苗名称、防疫日期、技术人员 、疫苗批号、注射量、注射部位 、注射反映、备注等。
6)疾病信息表实体:代表了一个疾病信息表实体,主要属性包括疾病编号、疾病名称、疾病症状、治疗措施、病因、备注等。
7)检疫登记表实体:代表了一个检疫登记表实体,主要属性包括检疫名称、检疫日期、检疫方法、试剂名称、检疫结果、检疫员、备注等。
8)结测信息表实体:代表了一个结测信息表实体,主要属性包括种羊编号、个体识别号、耳号、同窝、性别、出生日期、出生重、六月龄重、体长 、体高、胸宽、胸深 、管围、胸围、备注等。
9)品系信息表实体:代表了一个品系信息表实体,主要属性包括品系编号、品种编号、品系名称、品系描述、备注等。
10)品种信息表实体:代表了一个品种信息表实体,主要属性包括品种编号、品种名称、品种描述、备注等。
11)体形外貌表实体:代表了一个体形外貌表实体,主要属性包括种羊编号、始测日期、始测日龄、始测体长、始测体高、始测胸围、始测胸深、始测胸宽、始测管围、始测尾型、始测尻宽、结测日期 、结测体长、结测体高、结测胸围、结测胸深、结测胸宽、结测管围、结测尾型 、结测尻宽、结测日龄、生殖器评分、肢蹄评分、瞎乳头数、睾丸周径、体况评分、品种头型、头毛、品种被毛、品种耳型、品种角型、备注等。
详细表结构如图2所示。
图2 育种数据库结构图Fig.2 Breeding database structure
2 基于遗传算法的育种数据挖掘及决策系统
数据仓库中的OLAP技术可以对数据进行汇总、合并、聚集以及从不同的角度观察数据的作用。数据挖掘通过从关系数据库、数据仓库中发现有潜在价值的数据。因此数据挖掘又称为数据库中的知识发现[2]。通过数据挖掘可以实现遗传数据的分析与管理。
遗传算法是不需要求导的随机优化方法,它以自然选择和演变过程为基础,但是联系又是不牢靠的。它们最早是由密歇根大学的John Holland在1975年提出并进行研究[3-4]。许多生物学家在用计算机对自然遗传系统进行仿真时,都揭示了遗传算法的基本思想。在这些遗传系统中,一个或多个染色体组合成了构造和运转有机体的总遗传法则。染色体由基因构成,基因可以取大量的值,叫做等位基因值。基因的位置根据基因的功能来独立地识别
通过遗传算法可以对种羊监测信息进行优化,假设所有优化问题都仅能分析为一个求最大值问题。如果优化问题是求函数f(x)的最小值,就等价于求函数g(x)=-f(x)的最大值。而且,还可假设目标函数f(x)在定义域内取正值。否则,就用某个正常量C将函数转化成正值,如
如果每个遗传参数变量xi都编码成长度为m的二进位串值,则初始值和编码信息的关系为:
式中变量xi的取值范围是Di=[parma,parmb],m是使二进位码具有所需精度的最小整数。例如,羊的体长取值范围为 [70,90]的变量x是一个二进位编码的串,其长度等于2,代码为10,代码的范围在00~11之间。相应的精度为:
这是两个连续xi的值之差,差值可以作为候选极值进行检验。最后,代码为10的属性的十进制值为:
把待优化问题中所有特征的二进位码串接起来,就表示一个遗传染色体,作为一个潜在解。染色体的总长m是所有特征的代码长度mi的总和为:
式中k是问题中特征或输入变量的个数。
1)遗传育种编码方案和初始化
遗传算法首先为所给问题设计其解的表述。在这里,解是指可以作为可评估的正确解的任何候选值。例如,要使羊的体长(T)函数f(t)最大,t=1是一个解,t=2和t=3也是一个解,t=3则是此问题的正确解,它使体长(T)最大。遗传算法的每个解的表述由设计者负责,它依赖于每个解的形式,以及哪个解的形式便于应用遗传算法。最常见的表述是一个字符串,也就是特征表述的一个代码串,串中的字符来自于固定的字母表。字母表越大,串中每个字符可表示的信息就越多。因此,要编码指定的信息量,串中的元素必须较少。但在大多数现实世界的应用中,遗传算法通常使用二进制编码方案。
编码过程把特征空间中的点转化成位串形式。例如,在四维特征空间中的点(1,3,2,1),其每一维的取值范围是[0,3],这个点可以用一个串接起来的二进位串表示:
其中,每个特征的十进制值通过二进制编码,成为一个四位的育种基因。所有特征的值编码成一个位串后,就代表一个染色体。在遗传算法中,处理的不是一个染色体,而是一个染色体集合,叫做群体。要对群体初始化,可以简单地随机设定染色体群体的大小。
2)遗传育种优化值的选择
通过从当前的遗传中建立一个新的群体,选择操作用来确定哪个父染色体会参与繁殖下一代。通常成员参与选择的概率与成员的适合度值成正比例。实现这种方法最常见的方式是设定选择概率p等于:
式中n是群体大小,fi是第i个染色体的适合度值。这种选择方法的作用是让适合度高于平均值的成员进行繁殖,并取代适合度低于平均值的成员。对选择过程来说,可使用根据每个染色体的适合度来决定其槽大小的轮盘赌。遗传育种轮盘的建立如下:
1 )计算每个染色体vi的适合度值f(vi)。
2 )求出群体的适合度之和。
(3)计算每个染色体vi的选择概率Pi。
(4)计算每个被选中的染色体vi的累积概率qi。
式中q取值从0到最大值1。取1表示群体中的所有染色体都包含在累积概率中。选择过程的基础是旋转轮盘的次数和群体数目相同。每次都为新群体选择一个染色体。群体数目多大,就重复执行步骤1)和步骤2)多少次:
1 )生成区间[0,1]内的随机数r。
2 )如果r<q1,选择第一个染色体v1;否则选择第 i个染色体 vi,使 qi-1< r≤ qi。
显然,一些染色体可能被选择多次。这与理论是一致的。遗传算法会维护一组潜在解,进行多维搜索,并促使生成优质解。群体在进行仿真演变—在每一代中“较好”的解会繁殖下去,而“较差”的解死亡。目标函数或评价函数可用来区分不同的解,这些函数担任着环境的角色。
3)遗传育种决策系统
以下是种羊监测信息表决策系统,其中,种羊监测信息分类决策表如表1所示,种羊监测信息离散标准化决策表如表2所示。在表1和表2中,条件属性为体长(T)、体高(S),体长取值范围为70~90,标准化后的值对应为90—2,80—1,70—0; 体高取值为 50~80, 标准化后的值对应为 80—3,70—2,60—1,50—0;六月龄重取值范围为 30~50,标准化后的值对应为 50—2,40—1,30—0;性别取值是 0,1。
3 系统综合管理平台功能模块
为了使用系统平中具有可扩展的功能,设计了系统基础数据管理平台,该平台主要实现组织机构信息、人员信息、功能模块信息、饲料配方管理、数据库分析管理、种羊信息管理 、日志管理,其功能模块如图3所示。当用户通过登录界面输入用户名,密码后,单击“登录”按钮,如用户名,密码无误后则可进入系统窗口。如图4就是一个典型的体型外貌测定界面。
表1 种羊监测信息分类决策表Tab.1 sheep monitoring information classification decision table
表2 种羊监测信息离散标准化决策表Tab.2 sheep standardized monitoring information discrete decision table
图3 系统总体布局Fig.3 The overall layout of the system
4 结论
图4 体型外貌测定界面Fig.4 Conformation determination
本文在构建数据库的基础上,采集陕北白绒山羊资源参考家系的相关育种资料,运用数据仓库以及数据挖掘技术构建一套基于遗传算法的育种数据挖掘及决策系统,管理陕北白绒山羊的遗传资源,以便实现白绒山羊的养殖与繁殖过程中的饲料配方、生产管理,遗传参数的估测和遗传性能分析,有效解决新育种过程中持续无序的地杂交等造成优秀基因频型率降低和种类质量下降等问题,减少育种研究风险和成本,提高育种质量和繁殖性能。
[1]童恒星,吴登俊.凉山半细毛羊遗传育种数据仓库研究[J].中国畜牧兽医,2008,35(8):150-152.
TONG Heng-xing,WU Deng-jun.Study of data warehouse system on liangshan semi wool sheep of genetics&breeding parameter [J].China AnimalHusbandry & Veterinary Medicine,2008,35(8):150-152.
[2]鲁绍雄,夏文财.肉羊信息管理与育种分析系统的研究[J].畜牧兽医杂志,2010,29(2):16-19.
LU Shao-xiong,XIA Wen-cai.Study and development of mutton goat informationm anagement and breeding analysis system[J].Journal of Animal Science and Veterinary Medicine,2010,29(2):16-19.
[3]马永杰,云文霞.遗传算法研究进展[J].计算机应用研究,2012,29(4):150-152.
MA Yong-jie,YUN Wen-xia.Research progress of genetic algorithm [J].Application Research of Computers,2006,29(4):1201-1205.
[4]HE Yao-hua,HUI Chi-wai.A binary coding genetic algorithm for multi-purpose process scheduling:a case study[J].Chemical Engineering Science,2010,65(16):4816-4828.
[5]TANG Ke-zong,SUN Ting-kai,YANG Jing-yu.An improved genetic algorithm based on a novel selection strategy for nonlinear programming problems[J].Computers and Chemical Engineering,2011,35(4):615-621.
[6] Jae-Jin Koh,Soon-Duir Kwon,Byong-Uk Kim,et al.Implementation of an interactive electronic technical manual based on web-multimedia technology[C]//The 4th Korea-Russia International Symposium on Volume 2,2007(7):21-24.
Design and implementation of Cashmere goat genetics breeding database and integrated management system
AI Xiao-Yan1,ZHANG Feng1,WU Jiang1,XU Dong-Sheng2,ZHANG Yong-Heng1
(1.School of Information Engineering,Yulin University,Yulin 719000,China;2.School of Software,Xi'an University of Arts and Science,Xi'an 710065,China)
In order to improve the quality of breeding and reproductive performance,reduce risk and cost,using of relevant information in Northern Shaanxi white Cashmere goat breeding pedigree reference resource and designed a Web-based data mining and breeding management platform.The mining based on genetic algorithm to distinguish breeding data matrix algorithm and decision support system,database structure,function module and the physical structure is designed.Application results show that the scheme can effectively solve the new breeding process for disordered hybrid caused problems outstanding gene frequency to reduce the rate of decline in the quality and variety.
Cashmere goat;genetics breeding;data mining;genetic algorithm;data warehouse
TN391
A
1674-6236(2014)13-0021-04
2014-03-21 稿件编号:201403247
陕西省教育厅科研项目(12JK0828);榆林市科技计划项目(2011SKJ07,2012cxy3-26,Gy13-12)
艾晓燕(1966—),女,陕西米脂人,硕士,副教授。研究方向:信息系统设计,智能数据挖掘。