APP下载

新的东北地区木本植物信息检索方法1)

2011-08-09王晓丽倪震东王力华

东北林业大学学报 2011年10期
关键词:木本植物检索物种

王晓丽 倪震东 王力华 刘 波

(中国科学院研究生院,北京,100049) (中国科学院沈阳应用生态研究所) (中国科学院东北地区植物与农业生态研究所湿地环境与生态研究重点实验室)

分类学研究的信息量是无限的,如果分类学工作者大量的时间和精力都花在繁琐的信息收集、整理、检索等手工操作中,将阻碍整个分类学科的发展。所以,急需一种工具让分类学家从传统的手工操作中解放出来[1]。近年来,计算机在植物分类与鉴定上的应用已取得了长足的发展[2]。

DELTA作为植物数据交换标准系统和交互式专家辅助鉴定系统在国际上享有盛誉,它可以规范分类学描述,对研究中所有常用性状进行识别和处理,对研究对象进行详尽的相似性和差异性比较[3],但其研究对象局限于某一科或属,且其复杂高深的检索项也几乎涵盖了植物各方面的信息,使其只适用于植物分类学家。在国内,中国数字标本(http://www.cvh.org.cn)由文香英翻译的电子检索表是一套综合的交互式检索系统,但其只能检索到某个科。另外,石红[4]对新疆的高等植物,王树森[5]等对内蒙古大青山地区植物,王彦勋[6]等对河北地区植物,马红梅[7]对山东省植物,马承慧[8]对哈尔滨主要木本植物和主要绿化栽培植物,都利用了计算机和数据库技术实现了植物电子检索,但他们的检索项大多是植物或其科属名称,很少或仅涉及几个简单的性状检索。由此可见,目前的研究多集中在电子检索表的编制方面,对于检索项的选取和检索策略的优化研究的较少。胡杨[9]根据每个植物特征出现的频率,并结合野外观测的特点,选取了若干关键词作为检索项来实现内蒙古自治区境内46种唇形科植物的检索,但是他的检索范围较窄,其检索项也包含“茎毛”等较难分辨的特征。

本研究以东北的木本植物为例,探讨了传统植物分类书籍在描写所有植物时普遍共同使用了植物哪些方面的特征,用这些特征是否可以完成对东北常见木本植物的检索,检索策略如何优化等问题,进而找到一种东北常见木本植物简单、快速、实用且有效的信息检索方法。

1 研究对象与方法

1.1 数据准备

选取4本最新版的东北常用植物分类学著作《中国植物志》、《东北植物检索表》、《辽宁植物志》和《黑龙江植物志》。将以上文本格式的植物描述内容扫描并识别后变成计算机可以处理的字符格式(共100多万字)。

各本著作对植物的描述涉及植物的各个方面,这些方面不仅涉及植物的器官或组成器官的形态特征(如“花颜色”、“子房附属物”等),也包含了植物的习性、生境、分布等方面的信息。从计算机信息检索的角度,这些方面都可以作为“检索项”来检索植物,对于任一“检索项”,任一著作中任一物种对其的一个描述称为一个“检索值”,如“灌木”是《中国植物志》中Exochorda racemosa(白鹃梅)“习性”这一检索项的检索值(表1),将物种的检索项和检索值分别提取出来组成一张二维矩阵表,每一植物的描述都来源于4本不同的著作,若检索值相同则重复计入,若无描述则检索值为0。

1.2 数据选取和处理

1.2.1 物种和检索项选取原则

主要研究东北地区野生木本植物,对于在分类上有细小形态差异的变种和变型,如果不是分布较广或有经济价值就不纳入;另外,对于引进种和栽培种,分布比较广的纳入,如果其分布只局限在很小的地区就不纳入。

表1 植物信息表

统计4本著作中所选取植物每一个检索项包含检索值的个数,将检索项按包含检索值个数的多少降序排列,并根据检索值的多少分成若干个区间,统计各区间内包含检索项的个数,计算各区间内检索项数占检索项总数的比例,观察各区间内检索项的特点,并据此按以下原则选则检索项:

第一,检索项应该容易观察和鉴别;第二,植物的生境、分布等检索项唯一性和排他性较差,只作为参考;第三,选取的检索项之间应无相互性,并保证每一种植物至少有一本著作对其有描述;第四,各著作都有描述的某些科属或某些类群所共同具有的特征也须考虑;第五,某一种或某几种植物很特殊的特征,用“特殊特征”统一概括;第六,叶形有一定的变化幅度,可用“叶长宽比”的变化区间辅助检索。

1.2.2 检索值归纳整理

以《中国高等植物图鉴》[10]和《东北木本植物图谱检索表》[11]为依据对检索值归纳整理,并将植物不同著作的4个检索值合并为一个,整理过程中还须遵循以下方法和原则:第一,植物性状未达到稳定状态的特征暂不考虑;第二,某些变异性较大的检索项,各本著作对其描述有差异,从检索的角度对其检索值进行简化。如叶形多是多个基本形状的组合,组合后的形状可达上百种,对于某一种植物,对其形状的记载也可达几种,表1中 Exochorda racemosa的叶形“长圆状倒卵形”,将其分解为“倒卵形、长圆形”,在检索时用“倒卵形”或“长圆形”都可以检索到 Exochorda racemosa,保证了查全率[12],同时简化的检索值方便了使用者选择和判断;第三,植物的一些很细微的特征,用肉眼很难看出其具体形态,为了降低鉴定的难度,将予以归纳合并,如植物的叶或枝上的硬毛、柔毛、伏毛等附属物都归结为“有毛”。

1.3 检索可行性检验及检索结果计算

因子分析是最常用的数据简化方法,用于考察多个变量间的内在关系,提取数据的主要信息,对选取的检索项做因子分析,研究各检索项之间相关性是否显著。用选取的检索项对所有植物种进行两两对比分析,查找相同项,若无相同项,则证明选取的检索项可以完成对植物的检索。检索项单独检索时,检索出的物种数等于检索项中不重复检索值的个数;检索项组合检索时,检索出的物种数为物种与选取的检索项矩阵中不重复检索值的行数。

1.4 检索项的权重

(1)多样性指数(D):多样性指数是反映物种丰富度和均匀度的综合指标。选用辛普森多样性指数(Simpson’s diversity index)[14]。

式中:Pi为检索项中不重复唯一检索值的个数与此检索项单独检索出的物种数的比值;S为检索项的个数。

(2)重要性指数(E):一般意义上,植物花和果的稳定性是鉴定植物的主要依据,其值赋予1,如“花序类型”“果实类型”等,其他的植物稳定性状(如“特殊特征”“习性”)赋予0.5,变异性较大的和数值型的检索项(如“叶形”“叶长度”),其值有一定的变化区间,赋予0。

(3)权重值(W):权重值W=(D+E)/2,式中:D为多样性指数;E为重要性指数。

2 结果与分析

2.1 物种选取

东北地区有记载的木本植物有812种,选取399种作为研究对象,其中362个为野生种,这些植物种共涉及48个科、130个属,基本涵盖了东北地区木本植物所有的科属。植物种选取后物种信息表是一个1596行、507列的二维矩阵,共有505个检索项和43 911个检索值。

2.2 检索项与检索值整理

检索项包含检索值个数在1 000~1 300之间的仅有4个,87%的检索项包含的检索值个数都低于100(表2)。各著作中植物描述多集中在“国内分布”“生境”“叶形”“叶边缘”“花序类型”等植物所共有的检索项上,“小苞片质地”、“花蕾附属物”等检索项则只是在某些种的描述中有涉及。结合检索项的选取原则共选取出了29个检索项,将其分为4组:第一组为一般特征组:习性、常绿性、高度、枝附属物;第二组为叶特征组:叶类型、叶排列、叶先端、叶基、叶边缘、叶形、叶表面附属物、叶背面附属物、叶长度、叶宽度、叶长宽比;第三组为花特征组:花序类型、花形状、花颜色、花瓣数目、花直径;第四组为果特征组:果实类型、果实形状、果实成熟后颜色、果实长度;第五组为特殊类群组:叶裂片数、复叶小叶数、复叶长度、双翅果夹角、特殊特征。

表2 检索项在检索值区间内的个数统计

数据处理后物种信息表缩小为400行、30列,且数据格式规范,数据规整,可以用于计算机处理、计算并检验。

2.3 检索项的检索检验

2.3.1 因子分析

KMO统计量用于比较各变量间的简单相关和偏相关的大小,取值范围在0~1之间,如果各变量间存在内在联系,则KMO值接近1,做因子分析的效果好。一般认为当KMO大于0.9时效果最佳,0.7 以上时效果尚可,0.6 时效果很差,0.5以下时不适宜做因子分析[13]。

对399个植物种的29个检索项做因子分析,KMO统计量是0.638,说明各检索项之间的相关性不显著,可以单独作为独立的检索项。

2.3.2 唯一性检验

用计算机对399个物种的29个检索项的检索值两两对比,没有发现重复项,由此可知,此29个检索项可以完成所有植物种的检索。检索项各组的指数和权重均值见表3。

表3 检索项各组的指数和权重均值

2.4 检索方案

任一检索项单独检索平均每个仅能检索出34个植物种,仅占总植物种数的9%,检索效率很低,其中“叶形”能检索出151个植物种,而“双翅果夹角”仅能检索出2个植物种,检索结果的变异系数很大[15],达到94%。

选取7种检索项组合模式,分别计算特征项组合内检索项个数,检索项组合检索出的物种数,乘以权重均值得到实际的检索效果(表4)。

表4 检索项组合及其检索结果

2.5 检索实例

随机选取5种植物,计算本系统检索和《东北植物检索表》传统二歧式检索使用的步骤数(表5)。

表5 检索实例

本系统通过C#开发的winForm程序实现,数据库选用Access数据库。软件的主界面如图1。界面的左上角是检索项的选择框,系统支持用植物的基本性状检索,如“习性”、“常绿性”、“叶形”、“叶先端”等,同时还支持用“科拉丁名”、“科中文名”、“属拉丁名”、“属中文名”、“种拉丁名”、“种中文名”等植物基本信息检索,本系统共有35个检索项。

图1 系统主界面

界面的左下角是检索用过的检索项和检索值,右击可以删除检索值,以撤销某次操作;界面的右半部分是检索结果,显示“符合条件的物种中文名和拉丁名”,并统计符合统计的物种个数,点击物种名称可以打开物种的图片和文本描述信息界面。对于数据库中不存在的物种是检索不到的,检索结果一栏为空。

3 讨论

本研究选取的399种木本植物涉及东北地区木本植物所有的科属,是一个综合的检索系统,这明显不同于DELTA系统的科或属等级的检索,但是本文仅选取了东北地区较为常见的木本植物,可以满足一般的检索需求,对于稀有种和分布区很小的植物种,本系统没有涉及,这将在以后的研究中进一步讨论。

本文的检索系统和传统植物分类的书籍和工具是不同的。传统植物分类为了增加分类的客观性,会选择植物相对稳定的性状作为分类的依据,这些性状大多和植物的生殖器官有关,且可观察时间短,基于这些性状编写的检索表在使用时有时间上的限制。DELTA系统和目前数量分类学[16]的研究也多选取这样的性状。本文的检索项与DELTA系统和现有的检索表的检索项有明显的不同,本文的检索项没有与植物生殖器官有关的复杂微小和难鉴别的特征,都是植物简单的基本信息,容易理解和把握,尤其适用于植物分类的初学者。另外,本系统较多地使用了植物叶的特征,由于其稳定性较差,所以检索结果会受到影响。因此,本系统可以作为检索工具广泛使用,但还不能完全替代传统植物分类书籍。

本文从检索的角度对检索值进行了归纳整理,将复杂的检索值给予简化,这在DELTA等国内外的软件中是没有的,整理后的检索值数据格式统一、规整,为交互式电子检索软件的编写提供了很好的数据基础。使用者可以根据植物的生长期和自身喜好随机组合检索项来检索植物,但是从检索的准确性和速率来说,选用权重值高的检索项可以更快地得到更准确的检索结果。虽然使用植物叶检索项可以达到99%的检索率,但由于其稳定性较差,检索结果会受到影响。在检索时推荐用花和叶的检索项组合或果和叶的检索项组合来检索植物,此种组合的检索率接近90%,虽然其结果会受到叶检索项的影响,但总体的检索效果还不错。由此可见,植物无论是在营养期、花期还是果期,适当的检索项组合都可以达到很好的检索效果。

经与传统的二歧式检索表比较,发现本系统仅用4~5个检索项就可以检索到目标种,有的植物种仅需输入一个检索项,这大大简化了检索的步骤;另外,本系统检索项的输入顺序是随意的,大大方便了使用者。由此可见,本系统研究的东北木本植物检索方法是一种简单、快捷、实用和有效的并行检索方法,它尤其适用于植物分类的初学者,同时也为植物分类学家检索植物提供了一种简单、快捷且有效的检索方法和工具。

[1]宋延龄,杨亲二,黄永青.植物种多样性研究与保护[M].杭州:浙江科学技术出版社,1998:151-158.

[2]钟扬.电子计算机在植物学中的应用[J].武汉植物学研究,1986,4(3):311-320.

[3]陈翔,陈训.新版DELTA系统在植物分类学中的应用:以羊茅属研究为例[J].广西植物,2008,28(6):759-763.

[4]石红.新疆高等植物检索和资源查询系统的研建[D].乌鲁木齐:新疆大学,2006.

[5]王树森,张学军,罗于洋.植物检索与查询技术的建立:以内蒙古大青山地区植物鉴定与检索系统为例[J].内蒙古草业,2002,14(4):26-28.

[6]王彦勋,孙宏凯,王利民,等.植物计算机检索系统的研究与开发[J].安徽农业科学,2008,30(22):9659-9660.

[7]马红梅,马玉强,杨卫军.UML在植物资源检索系统中的应用[J].计算机工程与设计,2009,30(15):3645-3648,3652.

[8]马承慧,王维芳,刘牧.木本植物分类检索软件的研制[J].东北林业大学学报,2007,35(8):74-77.

[9]胡杨.植物数字化检索系统初探:以内蒙古地区唇形科植物为例[D].呼和浩特:内蒙古农业大学,2010.

[10]中国科学院植物研究所.中国高等植物图鉴:第1册[M].北京:科学出版社,1972:1020-1039.

[11]董世林,白胜文,高恩柱,等.东北木本植物图谱检索表[M].哈尔滨:东北林业大学出版社,1993:4-37.

[12]邰晓英,北研二.信息检索技术导论[M].北京:科学出版社,2006:18-19.

[13]张文彤.SPSS11统计分析教程:高级篇[M].北京:北京希望电子出版社,2002:192.

[14]尚玉昌.普通生态学[M].北京:北京大学出版社,2002:275-277.

[15]杨持.生物统计学[M].呼和浩特:内蒙古大学出版社,1996:76.

[16]李晓东,咎艳燕,李建强,等.地黄属和崖白菜属的数量分类[J].植物分类学报,2008,46(5):730-737.

猜你喜欢

木本植物检索物种
河北环境工程学院校园木本植物多样性调查
回首2018,这些新物种值得关注
电咖再造新物种
武夷学院校园人工木本植物现状调查与分析
花序最大的木本植物
世界上的15个最不可思议的新物种
专利检索中“语义”的表现
木本植物花芽休眠中激素调节的分子机制研究进展
疯狂的外来入侵物种
国际标准检索