时间:2020年01月07日 分类:农业论文 次数:
摘要:自国际千人基因组计划实施以来,伴随着测序技术的发展和成本的下降,几乎所有重要的动植物都拥有了参考基因组以及全基因组重测序数据。针对二代和三代测序技术产生的海量数据,准确和高效的组装是获得高质量基因组的关键。对于重复序列较多、杂合性较高的复杂基因组的组装尤其具有挑战性,基因组从头组装算法不断被更新,联合组装策略正在发挥强大优势。高质量的基因组不仅能提高精细定位效率,还能提高全基因组关联分析的准确性和精度,为动植物复杂性状的遗传机制解析奠定基础。同时,高质量的基因组对于比较基因组以及泛基因组的研究都具有重要的推动作用。
关键词:高质量基因组;组装;变异分析;复杂性状
相关论文投稿刊物:《基因组学与应用生物学》(ISSN1674-568X,CN45-1369/Q)是由广西大学主管和主办,公开发行的双月刊科学期刊。自创刊以来,以新观点、新方法、新材料为主题,坚持"期期精彩、篇篇可读"的理念。杂志内容详实、观点新颖、文章可读性强、信息量大。因此,该杂志被誉为具有业内影响力的杂志之一。
高质量的参考基因组在动植物遗传学和基因组学研究中有着极为重要的作用。解析复杂性状的遗传机制,首先需要在全基因组范围挖掘与该性状紧密相关的关键变异,在尚未实现群体基因组组装的物种中,变异的检测都是基于该物种的参考基因组。因此,参考基因组质量的高低决定了变异基因型鉴定的准确性,进而影响对复杂性状遗传机制的解析。
高质量参考基因组的获得需要高深度的测序结果以及合适的组装算法。相应地,使用准确率高的二代高通量测序数据和读长超长的三代测序数据进行联合组装,可提升基因组组装的完整性和重复序列组装的准确性。获得高质量参考基因组后,针对种内的其他个体,只需进行低深度测序就能准确鉴定相对于参考基因组的变异类型,为数量遗传学研究提供大量分子标记,并可提高性状变异位点的定位精度,同时提高了鉴定基因组上结构变异的准确性。
目前针对二代测序技术的重测序数据检测基因组结构变异的算法不断被开发出来,通过收集测序片段比对回参考基因组上的错配和不恰当比对的信息,就能在一定程度上判断测序目标相对于参考基因组的插入和缺失的结构变异。随着基因组学的发展,获得一个高质量的基因组难度不断降低,直接在多个基因组上进行比对,发现关键变异尤其是集中分布的关键变异的方法开始被更多地使用。
在此过程中,基因组学的研究范畴不断延伸。泛基因组成为真正意义上能够代表整个物种遗传物质多样性的“参考基因组”,因此基于群体水平的泛基因组也被越来越多地关注。本文回顾了基因组组装算法的发展,重点讨论了对于重复序列较多、杂合度较高的基因组组装新算法,分享了近5年来高质量基因组在动植物遗传机制解析中的成果,以及在比较基因组和泛基因组研究中的应用。
1基因组的从头组装(denovo)算法
随着测序技术的发展,不论从技术还是成本上获得高质量的基因组测序数据都变得具有较高的可行性,对于富集了大量重复序列和高度杂合的玉米[1]和小麦[2]基因组而言,对基因组从头组装算法的研究早已是新的挑战和研究焦点。针对最早的Sanger测序数据,早期开发的是OLC(overlap-layout-consensus)算法,即寻找两条Sanger序列之间的重叠区域并进行拼接。
随着高通量测序技术的出现,这样的算法则不再适用,原因是二代测序通量更高但片段更短(通常双端测序片段长度只有150bp),不能记录下所有重叠区域的信息,而且对于复杂基因组而言,寻找短测序片段(read)之间的重叠区域也更困难和不可靠[3]。在这样的背景下,针对二代测序数据进行基因组组装的DBGgraph(de-bruijn-graph)算法应运而生[4]。DBG算法的核心是k-mer,即将所有的短reads打断为更短的长度为k的序列,两个相邻的k-mer相差一个碱基,将一组相邻k-mer的最后一个碱基(edges)相连即成为一条组装结果。
K-mer组装解决了基因组测序覆盖深度带来的数据冗余问题,并且从理论上,要获得组装结果只需要记录k-mer之间相连的信息(readpath)。DBG算法相较于OLC不仅能更充分地利用高通量二代测序结果,还极大地减少了运算时间和成本。Soapdenovo[5-6]是利用DBGgraph算法开发的典型基因组组装软件,其组装过程分为以下四步。
(1)二代测序数据自纠错,相较于三代数据高达15%~40%的错误率,二代数据的准确性仍然具有强大优势[7]。虽然二代数据的错误率只有1%~2%,但是对于大型基因组组装而言,为了达到更准确的组装效果,正式组装前需要进行自纠错。
(2)选取合适的k-mer,组装contig。K-mer的选取非常重要,k-mer的值过小,不利于构建更长的contig以及利用reads本身的长度跨越一些小片段的重复区域,但如果k-mer的值过大,则会造成运算时间和消耗内存指数级别的上升。
同时,需要指出的是,为了避免回文序列造成的组装错误,一般不选取偶数k-mer。初步组装完成的DBGgraph非常粗糙,包含了大量的错误和不确定信息,首先要去除一些连接着两个独立contig的过短或者覆盖度过低的中间序列,其次由于基因组本身高度杂合的特性产生的一些相似度很高的中间序列(bubble),将由soapdenovo选择覆盖度更高的一条作为代表序列。
(3)组装scaffold。scaffold的实质是一条更长的,连续的contig,要达到这样的组装级别,只有二代数据是不够的,还需要插入片段大小(insertsize)更大的matepairreads,以提供锚定的信息,将在物理距离上相隔较远的数条contig连接在一起,matepairread的insertsize越大,最后能得到的组装效果也越好。
(4)缩小组装漏洞。在scaffold组装完全后,程序会收集一端落在scaffold内部,另一端没有被锚定的reads,作为修补组装漏洞的数据。从原则上来讲,这样的操作仍然是在延伸scaffold的长度,以期达到更好的组装效果。由于Soapdenovo在对亚洲和非洲人基因组组装中的优异表现,这款软件的核心算法DBG及其运算流程已经成为了组装大型基因组的代表。
除此之外,还有专门针对高杂合基因组组装的软件Platnus[8],其算法重点考虑了杂合基因组本身对基因组组装带来的影响,在构建contig的过程中不仅保留了所有相似度高的连接两个contig的中间序列(bubble),还将这些bubble重新锚定回scaffold上,保留与bubble相连的contig信息作为杂合区段。从这些软件的算法和运算流程我们可以看出,完善在复杂基因组中占有相当比例的重复序列的组装几乎是所有算法面临的问题和挑战[9]。
而三代测序技术(single-molecule,real-timesequencing)的超长读长,旨在从源头上解决复杂基因组组装面对的各种难题。平均10k以上的读长所带来的显著优势是原始reads可以轻易跨越一些中等长度的重复序列区段,甚至不需要组装即可获得完整的基因组序列(这一点已经在转录组转录本的测序中得到了证明)。也正因为如此,适用于二代测序数据的DBG算法不再适合于三代测序数据,因此OLC算法也再次回到人们的视野中。
早期针对三代组装开发的软件致力于寻找长reads之间的重叠区段,从而将两条reads相连。但对于三代测序超长读长,并且本身携带了较高测序错误的reads而言,OLC算法的使用面临两个挑战:一是用于组装的reads自纠错,即使是像HGAP这样成功的三代组装软件也不能回避reads纠错所带来的运算时间和内存消耗问题[10];二是由于寻找重叠区段必须进行多重比对,三代测序的超长读长带来的运算负担相较于一代数据而言早已呈指数级别的增长。
为解决上述问题,出现了DBG和OLC算法联合组装的策略[11]。同时对复杂基因组进行二代和三代测序,不仅能在OLC正式组装前,利用二代数据对三代数据进行高效率的校正,还能在由计算三代reads最佳重叠区域而得的组装骨架基础上,联合二代数据进行scaffold的延伸和补洞。联合组装的策略由于兼具了二代数据的准确性和三代数据的读长优势,已经被广泛运用到各类复杂的基因组,尤其是高度重复序列的基因组组装案例中[1,12]。即使各类算法和软件开发飞速发展,仍然没有一个大型基因组是完全没有瑕疵的。虽然现有的高通量测序技术极大地推动了人类对基因组的研究与理解,但对基因组复杂区域的组装与研究仍困难重重。
2高质量参考基因组在寻找功能基因和重要
变异位点中的重要作用由于测序技术和组装算法的改进,出现了越来越多高质量的参考基因组。一些长久以来因为基因区段或者序列的复杂性而没有办法解释的现象逐步得到了理解,如抗病基因簇[13-14]或者某些具有功能的转座子[15-16]。一个高质量的参考基因组不仅是了解自然群体变异形式的开端,更是解析功能基因和重要变异位点的前提。
2.1高质量参考基因组提高传统基因克隆手段——精细定位的效率
精细定位是克隆基因的传统遗传学手段之一,通过设计定位标记,筛选重组,将功能基因锁定在基因组的某一个区段内。在这个过程中,如果能同时得到定位群体两个亲本的高质量基因组,则能在很大程度上缩短定位的年限并加深对功能基因变异形式的理解。例如在对玉米单向杂交不亲和基因的精细定位中[17],借助参考基因组和组装另一亲本相应区段的BAC序列,确定了功能基因在其中一个亲本中发生了提前中止;而此前由于定位区段在两个亲本基因组中发生了重大变异,其中一个基因组在该区段完全未知而导致无法进一步缩小区段[18-19]。
2.2高质量参考基因组对GWAS(genome-wideassociationstudy)结果的影响
近十年来,得益于GWAS方法的迅猛发展,传统的寻找功能基因或者功能变异的遗传学方法中所体现出的缺点,如耗时长、工作量大及无法充分挖掘自然群体中的等位变异等都得到了明显的改善,但很少有人强调高质量基因组在获得准确的GWAS结果中所起到的作用。一方面,早期的GWAS多产生于芯片测序的结果;另一方面,人们对稀有变异的理解也没有今时今日那么深刻[20]。
2.3基于高参考质量基因组鉴定影响复杂性状的基因组结构变异
随着国际千人基因组计划的实现,人们对基因组变异的了解也越来越深入,一些从前未能被发现和认识到的大型变异开始逐渐被人们研究[34],基因组结构变异(structurevariation)一般是指大小超过1kb的插入、缺失或者倒位。鉴定结构变异不同于鉴定一般的SNP,主要原因是由于在二代测序技术被用于群体水平高通量测序时,其read读长过短,不足以跨越或者组装出基因组上一些较大的结构变异。
因此,越来越多针对检测大型结构变异,包括拷贝数变异(copynumbervariation)的算法和实验平台被开发出来,通过将实验对象的测序reads直接比对回参考基因组上,保留下比对结果中错配与不恰当比对的结果,鉴定不同个体中不同于参考基因组的结构变异。基于这样的原理,一个高质量的参考基因组几乎成为了所有检测结构变异算法的基础,参考基因组只有在保证组装正确的前提下才能正确鉴定出其他材料或者样本的结构变异。在此,我们讨论几种常见的鉴定结构变异(structurevariation)的方法[35],虽然这些算法基于不同的原理发展而来,但都必须依赖于一个高质量的参考基因组。
3基因组组装质量在比较基因组学研究中所起的作用
基因组学发展至今,人们对变异的挖掘和理解已经不再局限于一个基因或一种性状。从全基因组的角度出发,探究某一个物种在整个进化历史上所处的位置或某一类影响重要性状的基因在多个物种中的作用,更有利于我们理解每一个生命个体的由来和进化。基于这样的理念,比较基因组学应运而生。比较基因组学是基因组学发展到一定程度的产物,在比较基因组学的应用中,并不存在参考基因组概念。所进行比较的物种都有自身完整的基因组序列,通过最直接的序列比对,理论上可以检测到存在于多个基因组上所有的变异信息。因此,保证多个基因组组装的正确性往往决定了比较结果的可靠性。
坚持使用同一套组装标准,让所有基因组重测序数据基于同样的参数进行组装则是组装质量保持一致的前提。比较基因组学基于多个基因组之间的相互比较,最后讨论的问题往往离不开基因组之间一致且保守的区域以及各自特有的部分。利用这样的结论不仅可以构建更清晰的物种进化树,还可以发现那些在进化中至关重要的基因。
Zhang等[41]收集了48套已公布的鸟类基因组重测序数据,并且进行了统一的基因组组装与注释,随后在它们之间进行了相互比较,构建了一个清晰完整的鸟类进化树。同时,他们还发现鸟类虽然是最古老的哺乳动物之一,但相较于其他哺乳动物,鸟类的基因组大小却在相当程度上缩减了。通过进一步研究比较结果之后,作者发现鸟类,尤其是现代鸟类,与其他哺乳动物(海龟、鳄鱼)相比,经历了更多的染色体小片段丢失事件,但这样的丢失却没有对鸟类的生存造成重大的影响,其中关键的原因是由于这些经历了丢失的片段内所包含的基因大部分在基因组上都有同源基因,可以在一定程度上对丢失的基因进行功能互补。
Stein等[14]通过选取13个具有代表性的水稻品种,同时组装全基因组序列,并且在比较后发现,虽然水稻各品种间的差异已经很小,但是仍然有一些染色体重排事件只存在于某些品种内,这导致了转座子和一些新的非编码区序列的诞生。
同时,作者还比较了13个基因组之间抗病基因家族的一致性,发现虽然抗病基因由于偏向于形成基因簇而很难被研究清楚,但是基因的排布却有一定的规律可循,两个相邻的抗病基因更倾向于首对首(head-to-head)地分布,这可能是为了更好地形成抗病复合体。比较基因组学着眼于全基因组,在一定程度上为人们解释更宏观的科学问题提供了方法。不同基因组之间的比较往往适用于解释不同的问题。
自2017年PGA会议发展“重测序项目”以来,比较基因组学由于信息来源的广泛性和几乎覆盖所有重要动植物基因组的众多重测序项目而进入了一个黄金时代,但基因组和基因组之间参差不齐的质量仍然值得关注和改善。在比较基因组学探究具体的生物学话题和意义之前,保证基因组的质量和正确性,甚至保证由组装误差造成的错误都尽可能地一致,将所有基因组放在同样的水平上进行比较是比较的前提。
4基于高质量参考基因组获得涵盖物种内更多变异信息的泛基因组
随着基因组学的发展,更多的参考基因组被组装出来。在芯片测序和短序列比对的过程中发现了大量变异。人们开始思考,一个参考基因组是否真的能代表整个物种?一个基因组上的一种变异是否足够解释物种内所有表型变异?虽然有很多方法可以挖掘物种间变异,例如前文介绍的鉴定结构变异(structurevariation)的算法等,但是对于较为复杂的基因组而言,从头组装一个高质量基因组是最直接和简便的研究全新变异的办法。
5基于高质量基因组解析
生物复杂性状的遗传机制(casestudy)高质量的基因组究竟能对研究结果产生多大的影响?野生的葫芦科植物具有强烈的苦味(葫芦素),在自然界中可以保护植物。虽然葫芦素可以提高人体免疫力以及抑制癌细胞生长,但就适口度而言却是一种不利性状[48]。黄瓜作为一种被人类驯化的葫芦科植物,在基因组上仍存在着两个控制葫芦素合成的位点,其中Bi导致整个植株都带有苦味[49],而Bt只让植株果实带有苦味[50]。Shang等[51]通过对155个黄瓜重测序构建了一个高密度的黄瓜遗传图谱,检测到一个位于6号染色体上与苦味显著相关的位点,并且在该位点附近发现由于携带了一个非同义突变而导致葫芦素不能合成的基因,即为Bi基因。
同时,研究人员对一个带有苦味的黄瓜品种(XY-2)和一个不带苦味的黄瓜(XY-3)进行全基因组重测序后,比较了两个基因组上携带的变异位点,发现一个位于loop-helix转录因子上的变异可以显著影响Bi的表达量;并在蛋白质互作实验中验证了Bi与该转录因子结合的真实性,并推断这个在黄瓜叶片中特异表达的转录因子通过与Bi基因的结合间接地影响葫芦素的含量。
进一步分析GWAS显著位点附近的基因在两个基因组上的差异,研究人员惊奇地发现Bi附近、1号以及3号染色体上分别存在4个、1个和3个被注释为酰基转移酶的基因与它享有相同的表达谱,且在两个重测序的黄瓜基因组上也呈现一致的表达趋势。而酰基转移酶是在葫芦素合成途径下游中起到关键氧化和乙酰化作用的酶,进一步的RNAi实验显示在降低了任何一个酰基转移酶表达量之后,葫芦素的含量都有明显下降。因此,研究人员大胆推测,8个酰基转移酶与Bi基因共同作用,调控黄瓜中葫芦素的合成。
6前景展望
基因组学的发展不仅依赖于生物信息学的发展,更得益于测序技术的发展。自二代高通量测序平台投入使用以来,几乎所有重要的动植物基因组都有了重测序数据。本文虽然只着重于回顾基因组组装的方法及组装质量对解析动植物复杂性状所起到的作用,但高质量基因组的内涵并不仅止于此,还包括了基因结构与功能注释、转座子注释,甚至于染色体交互信息注释。
但这一切都需要基于基因组序列的正确性。迄今为止,还没有一个大型基因组可以完全做到没有组装漏洞。而在这其中复杂区域、转座子和重复序列的作用与影响也许远超过我们的想象,很多尚未得到解释的生物学现象也许就隐藏在我们无法获得的基因组漏洞背后,要获得这部分序列的正确组装结果仍然任重道远。