植物DNA 条形码研究现状与核DNA 条形码筛选
◎汪小全
会议时间
2012 年 8 月 1 日下午
会议地点
昆明锦江大酒店三楼 2 号会议室
主持人
李德铢
新观点新学说学术沙龙今明两天将在此举行,我有幸与中国科学院植物研究所汪小全研究员和中国医学科学院陈士林研究员一起作为领衔专家来协调此次沙龙相关活动。我谨代表承办单位向应邀出席本期学术沙龙的省内外学术专家表示热烈的欢迎。同时,对《中国科学报》、《科技日报》、《云南日报》以及相关媒体朋友的光临表示衷心地感谢。
DNA 条形码是 2003 年由加拿大皇家学会会员 Paul Hebert 院士提出的。Paul 是一位昆虫学家,因此,DNA 条形码最初也主要运用于昆虫分类学的研究中。一直到 2005 年植物学家才开始介入这项研究。中国植物学家介入的时间相对较晚,但是从陈士林研究员今天上午在第七届西部地区植物科学与开发研讨会所做的大会报告中,我们可以看出其在中药鉴定方面的发展非常快。2009 年由中国植物条形码工作组提出的植物 DNA 的核心条码,也呼应了陈士林研究员前期的一些工作,即把核糖体 DNA 的 ITS 片段作为标准条形码的组成部分提出来。应该说,DNA 条形码是对传统物种鉴定的一个非常有力的补充,但不是唯一的办法,一定还要依赖其他各种手段。但它使标本鉴定的过程有可能实现自动化和标准化,极大地促进了人类认识、了解和利用生物多样性的能力,同时能在较短时间内建立易于利用的应用系统。植物 DNA 条形码在生命科学、法医学、流行病学、医药、食品卫生安全等方面具有广阔的应用前景。我国是植物资源非常丰富的一个国家,云南素有“植物王国”、“动物王国”之称,在生物多样性方面,在全国乃至世界都占有非常重要的位置。因此,依靠全国植物学家的学术优势,依托昆明植物所和相关研究单位以及大学的研究平台,以植物 DNA 条形码前沿探讨为主题,在云南昆明举办中国科协第 62 期新观点新学说学术沙龙,对深入研讨 DNA 条形码研究的最新进展及相关应用前景,促进新观点、新思维、新方法的交流、碰撞和融合,推动我国植物 DNA 条形码研究的发展,进一步提升我国在该领域的国际地位,具有十分重要的意义。
DNA 条形码最早用了一个线粒体基因 COI,但在植物中线粒体变异很大、保守性很强,较难运用于物种鉴定。直到 2009 年,植物学家才正式在美国科学院院刊上发表用叶绿体的两个基因 rbcL 和 matK 作为陆地植物的核心片段。实际上它们在大类群的分析上较有把握,但在小类群的分辨上尚有不足。此外,最近一期 Molecular Ecology 上提出 meta -barcoding 的概念,利用 ITS 及新一代测序仪测一两百个碱基的片段就能比较准确地鉴定出物种。此外,他们在动物的肠胃道中做食性的条形码,这样可以解决很多从前生态学家无法观测或研究的一些问题。陈士林研究员的报告也从中药的角度展现了一些非常好的案例。这说明,我们中国科学家有可能在这方面赶上甚至引领国际的学术潮流。这项研究在植物学界难度相对较大,起步也较晚,但是目前有一个相对较好的态势。今年 5 月 29 日,国际生命条形码计划( iBOL) 科学指导委员会主席 Pete Hollingsworth 教授专门到昆明来签订了下一期的合作协议,这也是对中国地位的一个高度认可。我们期望与会的各位专家学者充分利用此次沙龙平台,广泛深入地交流国际、国内在相关领域的最新进展以及各位的研究成果,从不同视角进行交流碰撞,激发出新的思想火花。可以说,DNA 条形码原本就需要在争论中成长。
2011 年 12 月到澳大利亚阿德莱德参加第四届国际 DNA 条形码大会时,与会代表普遍认为,DNA 条形码已经趋于成熟,但这也是相对于之前来说的,现在看来仍有不少问题值得深入探讨。希望本期学术沙龙能形成一个注重实效、成果丰硕的高水平学术会议。我们要以“敢为天下先”的创新精神促进我国 DNA 条形码领域的研究和应用。特别感谢各位老师和同学远道而来参加这个论坛,希望这次论坛能够取得圆满成功。
随着生物 DNA 条形码技术的快速发展,细胞质( 尤其是叶绿体) DNA 条形码已在植物界得到广泛尝试和应用。相信今天参加这个学术沙龙的专家学者对 DNA 条形码都比较熟悉,所以一些常识性的内容就不过多介绍了。我主要介绍植物核 DNA 条形码筛选的背景和应用的可行性。
由于植物的线粒体基因组结构变异频繁、基因序列保守,且在有些类群中存在横向基因转移,因而线粒体基因很难用作植物的 DNA 条形码。目前植物学家建议的 DNA 条形码候选基因主要来自于叶绿体基因组( 无论是几个片段的组合) ,并在一些类群中显示了较好的应用前景,但仍存在很大的局限性。我主要讲四点: ①植物界种间杂交频繁,约 11% ~ 25% 的物种是杂交起源的,杂交带更普遍,单亲遗传的叶绿体基因难以鉴定杂交起源的物种和杂交带个体的归属。②已有证据表明,在从苔藓植物到被子植物的陆生植物各大支系中,大部分现存物种源于新生代中晚期的快速辐射分化,很多是在晚中新世和上新世形成的物种,物种分化时间较短,种间常常不存在生殖隔离。已有的叶绿体 DNA 条形码候选基因的进化速率较慢,很难分辨这些近缘物种。若要建立这些物种的 DNA 条形码,需要从快速进化的核基因入手。③植物的叶绿体基因组是内共生起源的,虽然仍在光合作用等方面起非常重要的作用,但在进化的长河中丢失了大量基因或将一些基因转到了核基因组,变得非常简化。我们看到的植物形态性状( 包括分类鉴定利用的性状) 大多与核基因的表达和调控有关。也就是说,叶绿体基因难以反映绝大部分形态性状的遗传基础和物种的真正属性。尤其是叶绿体 DNA 渐渗发生时,会出现类似一个母本的“躯壳”承载父本核基因组信息的现象。在这种情况下叶绿体 DNA 条形码鉴定的是“躯壳”而非实质。④植物资源的利用和管理( 如道地药材和农作物种子鉴定) 在很多情况下涉及近缘物种,甚至不同品种,迫切需要高度灵敏的 DNA 条形码。
由于上述原因,作为中长期目标,在双亲遗传的核基因组中筛选高灵敏度的植物 DNA 条形码势在必行。近几年,我国学者提出核 rDNA 的 ITS2/ITS 作为植物 DNA 条形码候选基因,得到了国际上较广泛的关注,并在中药材鉴定中取得了显著成效。然而,rDNA 在基因组内一般有多个位点和非常多的串联重复拷贝,有时致同进化不彻底,在基因组内和基因组间存在序列多态性,加上PCR 扩增时易受内共生真菌 DNA 的“污染”等,这些问题又限制了 ITS2 /ITS 用作核心植物 DNA 条形码,尤其是在蕨类植物和裸子植物,以及很多被子植物多倍体物种中的应用效果不是很理想。
理论上讲,单拷贝核基因最适于作植物核 DNA 条形码。核基因外显子序列相对保守,可用于鉴定植物科、属; 内含子序列的进化速率快,可用于分辨不同物种。但总体而言,核基因条形码的引物通用性较差,通常需要基因克隆,工作量大,耗费多,有时近缘物种间共享等位基因,较难处理。虽然我们面临很多挑战,但大量植物物种的基因组序列已经或正在被测定,覆盖植物界各大代表类群,海量的基因组序列为单/低拷贝核基因条形码的筛选提供了便利条件。例如,Claude de Pamphilis 教授研究组2010 年在 BMC Evol. Biol. 上发表了一篇文章,通过比较基因组研究,鉴定出拟南芥、毛果杨、葡萄和水稻四个物种中共享的大量单拷贝核基因; 又如,马红教授研究组最近在 New Phytol. 上发表了一篇文章,通过对 7 个被子植物物种和小立碗藓的基因组序列比较,在被子植物中鉴定出了 1083 个高度保守的低拷贝核基因,并尝试用其中 5 个基因重建被子植物的系统发育,取得了很好的效果。这些单/低拷贝核基因是我们筛选植物核基因条形码很好的候选基因。此外,由于 LEAFY 基因在很多植物类群的种间关系研究中非常成功,特别是其内含子序列对近缘物种有很好的分辨率,我的研究组曾建议该基因作为植物核基因条形码的候选基因( Ran et al. ,2010,J Integr. Plant Biol. ) 。
总之,核基因条形码在植物物种鉴定中将发挥重要作用,通过外显子与内含子组合完全有可能在将来分辨更多的物种、更近缘的物种以及更多的种下等级。有些学者甚至认为新一代基因组测序( NGS) 技术会很快取代目前生物DNA 条形码的筛选模式,建议直接利用基因组序列作为物种的基因条码。这样的问题也值得我们深思。
李德铢:
DNA 条形码可以解决很多问题,但是并不能解决所有问题,不论是称为辅助手段还是有力补充,它都不是包打天下的,这是对条形码的一个相对准确的认识。本期沙龙的主题是“植物 DNA 条形码的研究现状”,请各位围绕这个议题从不同的视角和不同的观点,提出一些意见、建议甚至质疑。
刘吉开:
我是一个完全的外行。就 DNA 条形码本身来说,本质上还是个化学问题,DNA 也就是那几个碱基构成的编码。DNA 条形码作为一个迅速发展的技术,应该说是一个非常有用的工具。条形码本身的科学问题到底有多少,请大家考虑一下。我想强调的是,它更多的还是技术和方法学的问题。它作为一种工具来解决科学问题,刚才几位也讲过了。现在筛选出的几个有用的片段组合,鉴定率达到 70%、80%,甚至更高,是一个非常了不起的成就。这些片段也是从大量的片段中筛选出来的。这个筛选是盲筛吧? 有没有理论指导? 有没有理论假说作为指导,能够更有效地筛选出高效鉴别的片段? 还是像我们筛药物的那样就是盲筛?
李德铢:
有一定的理论指导。条形码是动物学家提出来的,当时用的是线粒体DNA,动物能量代谢比较快。植物线粒体基因的进化速率特别慢,所以在植物中没办法用线粒体。植物的系统发育研究中叶绿体用得比较多,进化速率较快,所以我们更多的是用叶绿体片段。叶绿体先是从 10 个或 8 个片段中筛选,也有一些是从叶绿体全基因组比较分析推测来的,但是总归会有一些盲筛的嫌疑。比如说韩国金基重教授( Ki - Joong Kim) 在通过对人参属几个种的叶绿体基因组做了测序的基础上,提出了 psbK - psbI,强烈建议用这个片段,但是没有得到欧美科学家的认可。经过国际 DNA 条形码植物工作组的协调,提出了rbcL 和 matK 作为一个初始片段,目前得到了大家比较广泛的接受。
刘吉开:
除了单一物种的鉴定,有无混合物种的鉴定方法?
陈士林:
关于混合品的鉴定,澳大利亚的一位学者最近在 PloS Genetics 发表了一篇文章,他从由中国进口到澳大利亚的中药材混合品中鉴定出有毒的、禁用的动植物药材,所利用的就是条形码技术。在该文章中就引用了我们课题组的 5 篇文章,说明我们的前期工作还是给他们提供了很好的基础,同时表明 Barcoding这个技术是可以应用到混合品鉴定、饮片的鉴定,甚至可以应用到一部分道地药材的鉴定中。目前第一步还是应用在种间鉴定,因为类似于饮片的鉴定容易引起争议,不过作为发文章是有可能的。
汪小全:
在坚实的理论基础上筛选标记是个很好的建议。植物界物种繁多,形态五彩缤纷,以往鉴定物种多需要花、果性状,但近年来的研究发现这种丰富的形态多样性的产生常常与转录因子的调控有关。我们现在筛选的 DNA 条码,比如某一物种在某一基因片段上固定了几个碱基差异,是长期进化的结果,未必与近缘物种间的形态分化直接相关,但是可以作为一个标记,鉴定物种和混合样品。
刘吉开:
基因标记是否有特异的 RNA 与之相关? 它们是否也可用于鉴定?
汪小全:
小 RNA 的变异还是非常复杂的,是否可用于物种鉴定,有待研究。
何新华:
在检疫和禁毒方面还是很有实用价值的。虽然用处很多,但并不是所有植物都是用光合作用的,也有很多低等植物和水生植物是异养的,还有混合型的,那么为什么只用叶绿体基因去鉴别? 没有叶绿体的植物怎么办呢?
汪小全:
这个问题很好。其实,一些异养和寄生植物仍具有质体( 叶绿体) 基因组,只不过基因组中基因的丢失程度不同。这些类群很多都有 rbcL 和 matK 基因,当然有些物种丢失了这两个基因( 如地下兰) 或其中一个( 如鸟巢兰) 。在列当科寄生植物 Epifagus virginiana( 白花蛇根竹) 中,叶绿体基因组仅约 70kb 长,大量的基因都丢失了。对于这些类群,需要筛选其他基因( 尤其是核基因) 作条形码标记。
高连明:
条形码并不是单独使用 ITS 或叶绿体片段,我们目前推荐的是用核基因和叶绿体基因的组合。目前利用的叶绿体基因就是原来的核心条码 matK 和rbcL,已经得到了国际生命条形码联盟的认可。2011 年 11 月份我们在 PNAS上发表的文章,提出把 ITS 作为种子植物的一个标准条码。如果说叶绿体的基因扩增不出来,还可以用核基因 ITS 来鉴定。
我再回应一下刚才刘吉开老师的问题。筛选 DNA 条码是有严格标准的。第一,就是通用性,即希望所用的条码在所有的生物类群中都能够扩增出来; 第二,序列的可读性,测序后得出的序列质量要好,不仅要能扩增出来,还要能够测序并可得到高质量的序列,用于条形码的获得; 第三,物种的分辨率,所用条形码必须要有一定的物种分辨率,能够把物种分开。这三个标准是必须考虑的,可读性还要考虑序列长度,一般在 300 ~ 800bp 之间。这样我们用常规的 Sanger 法测序的正反两个引物能够覆盖条形码的长度,保证获得高质量的条形码。
现在也有很好的方法来筛选 DNA 条码。如可以对不同科属的叶绿体全基因组测序,通过比较叶绿体全基因组相同片段的不同分化速率,从中找出进化特别快的条码,再按上述三个标准进行筛选。另外,核基因条形码的筛选也可以利用全基因组的信息来筛选,类似的工作也有报道。
第二代测序仪做混合品的鉴定是非常有优势的,虽然不知道样品来源,通过测序得到大量数据,分析数据能得到很多的 OTUs ( operational taxonomic unit,分类运算单元) 。通过这些序列分析,我们如果有一个很好的 DNA Bar-coding 参考库,就可以较容易知道混合品中包括哪些物种了。第二代测序仪的优点在于可以得到大量的数据。
汪小全:
在植物中用叶绿体基因和核基因组合有一个非常好的优势。植物与动物不一样,动物中虽然也有类群杂交等问题,但动物的多倍体要比植物少很多。植物中杂交和多倍化基本相伴随,杂交形成的物种至少占 10% 以上,多倍体系列也很复杂,种间形成的杂交带很常见。这种情况下的条形码鉴定结果是叶绿体基因代表母本、核基因代表双亲,二者的组合不仅可以把物种鉴定清楚,还有助于弄清该物种的进化历史。在将来,一种可能就是叶绿体基因做主码,先鉴定出科、属、孤立的物种和物种群,然后针对年轻的物种/物种群,在具体的类群中加 ITS 或一两个核基因条码。另一种可能就是在目前的基因组序列中筛选出很好的核基因,在外显子中设计较通用的引物,那么这个外显子序列就相当于 rbcL 和 matK,能够很容易地鉴定到科、属,PCR 直接测序就能获得外显子序列( 虽然有时可能会有杂合峰) ,然后利用内含子序列鉴定近缘物种。如果等位基因间没有插入/缺失差异,内含子也可以直接测序。其实,随着技术的发展,即便等位基因间存在插入/缺失,将来也未必要通过克隆的方式解决。
庞大的核基因组能提供海量的变异信息,个体间都能找到大量差异,这可能是未来 DNA 条形码发展的一个趋势,值得我们继续探索。
王红:
关于异养植物是否可用目前推荐的条码进行研究这个问题。马先蒿属由于其半寄生等特性已经从玄参科中移到了列当科中,列当科大部分植物是全寄生的,除了推荐条码,还有光敏色素 a、b 这些片段可以用作不同营养方式的一个补充。马先蒿这个半寄生的大属在整个北温带都有分布,全世界有 600 多种,中国有 350 多个种,我们最近通过利用核心条码对其中 100 多个种研究显示,其分辨率达到 95% 以上,接近完美。当然不同的类群会有不同的情况,但目前推荐的条码对解决马先蒿种间关系来说是很有效的工具。