分子生物学文稿常见专业术语及编排格式问题探析
2022-11-10陈燕
陈 燕
(《南方农业学报》编辑部,广西 南宁 530007)
自沃森和克里克提出 DNA分子的双螺旋结构模型以来,人类逐渐意识到这支强大的“分子部队”在各种生物体中的强大指挥能力。人类根据“分子部队”的作战策略和规律建立了许多强大的生物技术,如基因工程、细胞工程、酶工程等,这些技术赋予人类改造生命,甚至创造生命的能力。近十几年来在我国高度重视生物技术发展,并从政策、环境方面采取了多项有效措施来推动生物技术及其产业的发展。随着现代生物技术快速发展,分子生物学研究已然成为前沿和热点,已在医疗、农业、食品加工等多个领域占据举世瞩目的地位,发表的相关论文如雨后春笋般席卷各大科技期刊杂志。笔者在编校过程中发现此类稿件常存在意思相近的专业术语误用的现象,如同源性、相似性、一致性3个术语常在描述基因(或蛋白)序列结果时出现混用;转化、转导、转染 3个术语在描述基因导入受体细胞时出现误用。此外,分子生物学稿件还存在基因符号和工具酶正斜体且大小写不规范、引物序列方向和酶切位点未标出、PCR反应体系和扩增程序信息不全、微生物学名未遵循物种命名原则规范表达;系统发育进化树缺少基因(或蛋白)编号(ID)信息等编排问题。经调查发现,这些问题广泛存在于生物学、农学、医学等科技期刊中,不利于研究成果的推广及学术交流。虽然部分问题已有相关研究报道,但近年来上述问题仍屡见不鲜。因此,文章对上述分子生物学文稿中的常见问题进行综述,并提出建议,以期为分子生物学文稿的撰写及编排提供参考。
1 易混淆的专业术语辨析
1.1 同源性、相似性和一致性
目前,分子生物学研究中常通过基因核苷酸序列或蛋白氨基酸序列比对衡量分子之间的相似性程度和同源的可能性,从而进行物种亲缘关系分析,主要使用同源性(Homology)、相似性(Similarity)和一致性(Identity)反映序列比对结果。三者表达意思相近,但用法存在本质区别。虽然宋亚珍等[1]于2008年对这3个词进行了辨析,但近年刊发的文献仍存在误用现象,尤其是对相似性和一致性的使用仍存在误区,因此笔者通过查阅近年分子生物学相关书籍,结合全国科学技术名词审定委员的术语在线,从理论和实例角度进行补充和完善。
首先,分析同源性与相似性、一致性的区别和联系。同源性是定性的推断(表示序列是否同源),没有程度之分,要么为同源的,要么为非同源性的,而一致性和相似性则是数量的推断(表示序列相关程度),均属于同源性的量化指标,不用考虑比对序列的起源[2]。如果两个序列的一致性和相似性较低,可初步推测两者是非同源的,但存在不确定性。即使两个序列核苷酸(或氨基酸)的一致性较低,两者也可能是同源的,例如球蛋白家族成员都是同源的,但部分成员如人类的β球蛋白和脑红蛋白在进化过程中发生了很大分化,两者的氨基酸序列相似性仅为22%,但它们仍是同源序列[2]。间接说明不能仅凭一致性和相似性的高低,判断序列是否同源,而且即使两个序列为同源序列也不代表两者具有相同的功能。由于同源性没有程度之分,故同源性不能用具体数据来表示,如“番茄SlGT-33基因与黄瓜CsGT-33基因的核苷酸序列同源性为50%”,为错误表述,也不可表述为“这些序列高度同源”。综上所述,判定两条序列为“同源基因(或蛋白)”,或者“有同源性”等结论,必须在共同祖先或共同始祖分子的前提下,不能仅凭一致性和相似性来判定,而同源性也不能判定序列的功能是否相同。
其次,分析相似性和一致性的区别和联系。研究者仅凭肉眼一一对应比对两条系列的核苷酸(或氨基酸)是不切实际的,且匹配成功率也会不高,必须借助计算机来完成比对,而且允许比对中有空位出现以表示序列中出现删除和插入,即通过调整两条序列的排列方式已达到最大程度一致性的过程[2],那么匹配成功率可能会大幅上涨。例如,对2个蛋白的200个氨基酸残基进行比对,结果发现有40个氨基酸残基匹配,即氨基酸残基相同,那么可以得出这两个蛋白的一致性为20%。因此,一致性是指相同氨基酸(或核苷酸)总数占比对序列的氨基酸(或核苷酸)总数的百分比,用于表示两条氨基酸(或核苷酸)序列发生变化的程度或简单一致程度,不考虑比对序列的起源和功能。序列比对的结果另一种计算方式是统计相同氨基酸和相似氨基酸总数占比对序列的氨基酸总数的百分比表示,称为相似性[2-3]。相似氨基酸是指分子结构和氨基酸相似,如天冬氨酸和谷氨酸均属于酸性氨基酸;丝氨酸和苏氨酸均属于羟基化氨基酸;色氨酸、酪氨酸、苯丙氨酸等均属于疏水氨基酸[2]。例如,对2个蛋白的200个氨基酸残基进行比对,结果发现有40个氨基酸残基相同,有60个氨基酸相似,那么可得出这两个蛋白的相似性为50%。该数值反映比对序列间生物学功能或特点的趋同程度,可不考虑序列的具体起源,一般来说序列相似性越高,说明序列的生物学功能或结构特点越相似[4]。综上所述,一致性和相似性均用具体百分数表示,不用考虑比对序列的起源,可间接衡量物种间的同一关系,但计算公式不一样,如果把每个氨基酸(或核苷酸)当做1个字符,计算公式表示如下:
1.2 转化、转导和转染
转化(Transformation)、转导(Transduction)和转染(Transfection)是分子生物学试验常用的专业术语。笔者在编校对过程中发现这3个词错误使用频率较高。①转化:是指外源遗传物质(如质粒DNA等)进入细菌,引起细菌遗传变化的现象,但外源DNA并不整合到宿主基因组上;用病毒、化学致癌物或X射线诱发培养的细胞发生遗传变异的现象,使细胞丧失接触抑制等特性[4-5],而在基因工程中是将携带目的基因的质粒或病毒载体导入感受态宿主细胞的一种重要手段,常用于DNA重组[6-7]。②转导:是指借助病毒、噬菌体或其他方法将外源DNA导入细胞并整合到宿主基因组上的方法,使其遗传组成发生相应的变化[2]。在基因工程中常通过病毒或病毒载体转导外源基因[6-7]。③转染:起初指外源基因通过病毒或噬菌体感染细胞或个体的过程,现在常泛指外源DNA(包括裸DNA)进入真核细胞或个体导致遗传改变的过程[7-8],转染的主要方法有电转、瞬时转染、稳转、磷酸钙转染等[6-7]。综上所述,三者的区别在于转化是向原核细胞中导入外源DNA,但不整合到宿主上;转导是通过病毒、噬菌体或其他方法将外源DNA导入真核/原核细胞并整合到宿主基因组;转染是主动或被动向真核细胞中导入外源DNA。三者存在本质不同,不可混用。
2 编排规范探析
2.1 基因符号用斜体且大小写应根据具体物种而定
目前学术界对表示某基因的字母符号用斜体,其表达产物(即编码的蛋白)符号用正体表示是比较认可的[9]。如玉木耳(Auricularia cornea)漆酶基因符号为Aclac,其编码的蛋白符号为AcLAC[10]。其中Ac为玉木耳拉丁名的英文缩写(即取属名和种加词的第一个字母),lac则表示漆酶基因(Laccase)的缩写。同理,朱红密孔菌(Pycnoporus cinnabarinus)漆酶基因表示为Pclac。因此,学术界为了区分同一物种相同基因,常使用“物种拉丁名属名和种加词的第一个字母+酶基因名称(缩写)”的命名方法,如黄独赤霉素受体基因表示为DbGID1。但目前对字母后的阿拉伯数字和罗马数字编排成正体还斜体尚存争议,也没有国家标准和行业标准可以遵循,造成目前国内期刊中基因符号编排格式不统一[11]。但国内外具有较大影响力的科技期刊中,大部分期刊将基因符号的所有组成部分用斜体表示。《TIG遗传命名指南》[12-13]规定不同物种基因符号字母的大小写应根据具体物种而定,并不是统一的,如微生物中的细菌和真菌基因用小写字母表示;植物物种不同,基因符号字母的大小写也不同。因此,判断基因符号大小写时,首先分析此基因的物种来源,然后查阅《TIG遗传命名指南》判断基因符号中字母大小写。此外,很多期刊中基因还存在重组载体(质粒)中基因符号用正体的现象。如“将重组表达载体pET28a-Aclac转化大肠杆菌BL21(DE3)感受态细胞”,pET28a-Aclac应改为pET28a-Aclac。
2.2 引物序列应标明其方向和酶切位点
引物是人工合成的两条寡核苷酸序列,其功能是作为核苷酸聚合作用的起始点,DNA聚合酶可由其3´端开始合成新的核酸链[14]。引物设计是PCR扩增成功与否的关键。在设计引物时,如果克隆的序列只用于序列分析,可不设计酶切位点,但如果PCR产物连接至载体,则须在5´端添加酶切位点[3,6-7,14-17]。因此,撰写论文时应标明正反引物的方向和限制性酶切位点,如克隆ARF21基因的引物可表示为 F:5'-GAATTCGAGCAGGGTGCTCCTGAG-3'(下划线为EcoR I酶切位点);R:5'-GCGGCCGCCAGCTGGGCCAGCTTCCG-3'(下划线为NotI酶切位点)。但目前很多已刊发的文献中未标明引物方向或酶切位点,仅表示为 F:GAATTCGAGCAGGGTGCTCCTGAG;R:GCGGCCGCCAGCTGGGCCAGCTTCCG。这样不能为读者提供更多参考信息,大大降低了参考价值,因此撰写论文时应标注引物方向及酶切位点。
2.3 PCR反应体系中应写明各组分浓度(或质量浓度)
PCR反应体系主要由缓冲液、脱氧核糖核苷三磷酸(dNTPs)、DNA聚合酶、引物和模板等构成。各成分的加入量直接影响试验的成败。如DNA模板和DNA聚合酶加入量过高,均会引起非特异性扩增,加入量过少则造成特异性产物较少,不易被检测出;dNTPs加入量过高,则会与Mg2+结合,降低Mg2+的浓度,加入量过少则造成特异性产物较少;Mg2+浓度过高,反应特异性降低,易出现非特异扩增,浓度过低,会降低DNA聚合酶的活性,使反应产物减少[18-19]。笔者在送稿件进行同行专家评审时,经常收到审稿专家提出PCR反应体系和扩增程序信息不全的反馈意见。笔者调查发现该问题也同样出现在很多科技期刊中。其中,反应体系的主要问题是未写清楚成分的浓度(或质量浓度),如 50.0 μL反应体系包括 10×KOD Neo Buffer 5.0 µL,MgSO43.0 µL,dNTPs 2.0 µL,正、反向引物各 1.5 µL,cDNA 模板 2.0 µL,KOD-PLUS-Neo 1.0 µL,ddH2O补足至50.0 µL。对于读者来说,这样写基本没有参考价值,无法推算出各成分在反应体系中的具体含量。编辑审稿时应提醒作者提供各成分的初始浓度(或初始质量浓度),如 50.0 µL 反应体系:10×KOD Neo Buffer 5.0 µL,25 mmoL/L 的 MgSO43.0µL,2 mmoL/L dNTPs 2.0 µL,10 µmoL/L 的正、反向引物各 1.5 µL,100 ng/µL 的 cDNA 模板2.0 µL,1.0 U/µL 的 KOD-PLUS-Neo 1.0 µL,ddH2O 补足至 50.0 µL[19]。也可直接标明各成分的终浓度(或终质量浓度),如 50.0 μL反应体系包括10×KOD Neo Buffer 5.0 µL,MgSO4终浓度15 mmoL/L,dNTPs终浓度0.08 mmoL/L,正、反向引物终浓度0.3 µmoL/L,cDNA终质量浓度4 ng/µL,KOD-PLUS-Neo终浓度0.02 U/µL,ddH2O补足至50.0 µL。但目前大多数期刊主要采用标明各成分的初始浓度(或初始质量浓度)和体积的方法,其原因是各成分的终浓度(或终质量浓度)需要换算,比较麻烦,直接标明各成分的初始浓度(或初始质量浓度)和体积更方便,不容易出错。
2.4 PCR扩增程序参数信息要完整
PCR扩增程序涉及预变性、变性、退火和延伸的温度和时间等参数,其表述方式在各期刊存在异同,主要依靠标点符号和文字进行表述,如普通PCR扩增程序表示为:98 ℃预变性5 min;98 ℃变性30 s,60 ℃退火30 s,72 ℃延伸60 s,进行36个循环;72 ℃延伸2 min,还有部分文献采用列表或绘图的方式表示。上述这些方式均可清楚反映PCR扩增程序。但还有部分文稿中仅提供了退火温度,其原因是认为退火温度是PCR扩增是否成功的关键因素,其他因素不重要,可写可不写。但事实并非如此,PCR扩增程序的各项参数设置与具体试验对象息息相关,不是一成不变的。如变性时间一般为30 s,如果模板GC含量较高,或用细胞为模板时,变性时间应适当延长;延伸时间由扩增目的片段的长度决定,目的片段越长,延伸时间也越长;循环次数则主要取决于模板的起始数量(即初始质量)[3,6-7,19],由于试验对象、人为试验操作或试剂等因素的差异均会造成获得模板的初始质量浓度不一致,添加的体积要根据模板的初始质量而定。因此,编辑审稿时应尽量让作者补充这些参数信息,以便提供给读者更多参考信息,毕竟科技论文的发表不仅是为了传播科技成果,还要为读者今后的深入研究提供参考。
2.5 工具酶正斜体和大小写应遵循其命名方法
工具酶是分子生物学研究不可缺少的工具,其中,使用频率最高的是DNA聚合酶、DNA连接酶和限制性内切酶。虽然张志钰[21]、王连芬等[22]、贺窑青[23]已进行研究报道,但笔者查阅的近期刊发现仍存在这些工具酶中外文字符的编排格式混乱的问题,其原因可能是部分编辑对专业领域的编排规范和标准关注较少,但相比2010年前有了明显改善,尤其是DNA聚合酶和DNA连接酶,大多数期刊对两者的表述形式和编排格式作了规范统一。常用的DNA聚合酶包括TaqDNA聚合酶、TthDNA聚合酶、PfuDNA聚合酶等[23]。常用的DNA连接酶包括T4 DNA连接酶、T7 DNA连接酶等。部分期刊将DNA聚合酶和DNA连接酶编排格式统一用正体或斜体,造成该问题的主要原因是编辑不了解DNA聚合酶和DNA连接酶的命名方法。
相比之下,限制性内切酶的编排格式问题较严重,主要有以下 3种编排形式:①字母和罗马数字用斜体,如BamH I、Hind Ⅲ;②4个字母用斜体,罗马数字用正体,如BamHⅠ、HindⅢ;③前3个字母用斜体,第4个字母和罗马数字用正体,如BamH I、Hind Ⅲ。由于限制性内切酶的命名是根据细菌种类和发现的顺序而定,如BamH Ⅰ是从解淀粉芽孢杆菌(Bacills amyloliquefaciens)H株首次发现的限制性内切酶(GB/T 35539—2017),故B代表Bacills(属名);am代表amyloliquefaciens(种加词),H 代表 H 株系;I为首先发现(在此类细菌中发现的顺序)[12,24]。物种拉丁名(又称学名)由属名和种加词(种小名)两个部分构成,属名由拉丁语法化的名词形成,首字母须大写;种加词是拉丁文中的形容词,首字母不大写,常以斜体表示,故表明第③编排格式为正确,即物种拉丁名缩写用斜体,其余用正体[11-12]。
2.6 微生物学名应遵循物种命名原则规范表达
在基因工程研究中,微生物既可以作为基因的供体(即提供功能基因),也可以作为基因的受体(即可扩增或表达功能基因)。因此,分子生物学研究中常涉及微生物学名(又称拉丁学名)的表述和编排问题。根据国际物种的命名原则[25],每一种微生物都有一个专门的学名,微生物的学名同其他植物、动物等物种一样主要采用林奈的二命名法,由两个拉丁化名词所组成,即“属名+种名”,用斜体表示,如酿酒酵母的学名为Saccharomyces cerevisiae;大肠杆菌(又名大肠埃希菌、大肠埃希氏菌)的学名为Escherichia coli;枯草芽孢杆菌的学名为Bacillus subtilis。当物种出现亚种、变种时,采用三命名法,即“属名+种名+subsp.(var.)+亚种(变种)名”,其中,“subsp.” “var.”用正体,亚种和变种名用斜体表示,如酿酒酵母椭圆变种的学名Saccharomyces cerevisiaevar.ellipsoides;脆弱拟杆菌卵形亚种的学名为Bacteroides fragilissubsp.ovatus。菌株为亚种以下的分类名词,其学名则为“属名+种名+菌株名称”,菌株名称不用斜体[26],如Escherichia coliK12。由于大肠杆菌可实现目的基因扩增,保证外源基因稳定于细胞受体内,因此,常被作为分子克隆的宿主(即受体),常用的菌株为 DH5α、BL21(DE3)、JM109、TOP1和HB101菌株。其中,DH5α菌株是一种能摄入外源DNA的受容菌,对外源DNA缺乏免疫,是基因工程中重要原核细胞表达系统。但较多科技期刊中常把大肠杆菌DH5α感受态细胞误写成“大肠杆菌DH5a感受态细胞”,即α误写成a。此外,为了避免表述累赘,当前后两个或更多的微生物学名连排在一起时,若它们的属名相同,首个属名用全称,则后面的一个或几个署名可缩写成一个、两个或者三个字母,其后面加上一个点[26],例如Bacillus(芽孢杆菌属)可缩写成“B.”或者“Bac”,曲霉属(Aspergillus)可缩写成“A.”或者“Asp.”,文中后续出现可直接用缩写形式。但目前仍有科技期刊中首次出现拉丁学名就简写,导致读者无法准确判断属名,或者二次或多次出现仍用全称的现象,导致文章显得很累赘。
2.7 系统发育进化树中应注明基因(或蛋白)编号(ID)
系统发育学主要是研究物种的形成或进化历史,以及物种之间的进化关系。物种进化的最根本原因在于生物分子(包括DNA、RNA和蛋白质)的进化,体现在生物分子序列上的核苷酸或氨基酸残基的变异,逐渐从一条序列变异成另一条序列,导致分子结构和功能发生明显改变[27]。虽然随着越来越多的物种的全基因组序列被测序,但生物分子的结构复杂,目前人们对其分子结构和功能信息不够全面和充分,因此利用分子结构和功能信息研究物种进化关系不是主要方法。目前用于系统发育分析的信息主要是生物分子的序列,尤其是基因核苷酸序列信息或蛋白氨基酸序列信息使用更普遍。目前主要采用多条序列比对的方法,再根据比对结果构建系统发育进化树(也称系统发育树),以此分析基因(或蛋白)功能及系统发育关系[28]。由于相似的序列可能起源于一个共同的祖先序列,它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与其序列相似的某些蛋白质的机构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。值得注意的是,物种基因组中存在的许多来源于同一个祖先且结构和功能相似或相关的一组基因,编码相似的蛋白质产物[3]。选取不同的同源基因(或蛋白)所得出的系统发育分析结果也不同[2],而不同基因(或蛋白)在数据库中的编号(ID)不同。因此,系统发育进化树中应该标明基因(或蛋白)ID,或者在系统发育进化树图下面注释 ID。但目前很多期刊刊发的文献中系统发育进化树只标明物种拉丁名,未标明基因(或蛋白)ID,致使文章缺乏严谨性。
3 结束语
由于我国生物技术发展起步较晚,缺乏相关国家标准和行业标准,是出现上述问题的原因之一。但目前较多书籍和文献可供分子生物学文稿的写作提供参考,如该研究领域口碑较高、认可度较高的参考书籍如《分子克隆实验指南》《TIG遗传命名指南》《生物信息学与功能基因组学》等,以及相关高等教科书如《现代分子生物学》等。此外,出现上述问题还与编辑自身息息相关:①编辑缺乏分子生物学相关专业知识背景,造成稿件有问题看不出,或发现问题不知道如何改,甚至无法和作者进行有效沟通的局面;②编辑标准化规范化意识不强,缺乏分子生物学稿件的编辑规范;③编辑自身只注重文字、标点等常规编校规范,而忽略分子生物学文稿的专业规范。作者自身也有较大责任:①作者平日更专注理论和试验研究,对论文写作规范知之甚少;②作者思想上依赖编辑,认为后续工作应有编辑负责完成,编辑会做好后续编校工作;③作者没有严谨的科研态度,认为论文能发表即可,不在乎文章的质量,未对编辑的加工修改内容进行认真斟酌,而是盲目认同。
针对上述问题,笔者提出如下建议:①对于分子生物学稿件较多的科技期刊,为保证编校质量,编辑部应尽量招录与分子生物学相关专业的贤人志士,确保编辑人员具备相关专业知识背景;②除做好本职工作外,编辑还要认真阅览与分子生物学论文编辑规范相关的文献,在工作中要认真执行有关科技书刊出版的标准和规范,对于把握不准的用语,应多查阅全国科学技术名词审定委员会公布的相关专业名词书籍;③编辑在工作中要有求真务实的精神,对把握不准的学术问题要及时应及时向相关研究领域的权威人士求证,寻求规范化的写作和编排方法。