码迷,mamicode.com
首页 > 其他好文 > 详细

三代组装小基因组研究综述

时间:2019-05-13 20:13:36      阅读:215      评论:0      收藏:0      [点我收藏+]

标签:好的   存在   line   就是   lin   gen   受限   利用   结构   

三代组装小基因组研究综述

三代组装各种原理和方法都有。

近日illumina发布了新的测序仪NovaSeq系列,这个测序是相当的便宜,这个可能对于打开100美元人类基因组时代的大门有巨大的帮助。不过本篇文章小编不讲NovaSeq,感兴趣的自行百度就可以了。

 

小编目前主要是三代动植物基因组方向,今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章。今天看来这篇文章确实分析的对,可以认为是所谓的领路人吧。

 

今天分享给大家我的阅读理解,希望大家能有所收获。

 

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly

 

众所周知基因组组装类似将一幅画撕碎,然后再拼接起来,所以很容易理解这样一个道理--撕碎的片段越大越容易拼接起来。虽然现在二代测序价格越来越便宜,但是二代的短片段对于拼接可以说作用非常有限,尤其是对GC富集区、重复区等。相反,长片段测序可以产生Kb以上的片段这些对于小基因组的组装意义巨大。对于研究来说首先可以得到高质量的参考基因组,另外还可以做精度较高的变异检测。接下来我们简单介绍下所谓的长片段测序。

 

一、背景介绍

 

根据07年到11年的基因组数据表明0gap和每个碱基准确性都在99.99%以上的基因组所占比例不到35%,这样看来整体的基因组的质量都比较低。这种现状的出现更多的原因在于曾经我们利用的测序手段,短片段组装。另外短片段组装用来研究结构变异作用也很受限,尤其是对大尺度的结构变异。当然这里也不是否认小片段的作用,小片段在于菌株分型、疫情追踪、泛基因组研究上还是有很明显的精度和价格的优势。

针对短片段基因组组装而言,最大的障碍和挑战就是重复序列。重复序列在基因组上有两种类型,第一种就是全基因组分布的序列,另一种就是串联重复序列,这两种重复序列在利用传统图论方法组装的时候会引起较大的问题,很容易导致最后什么都没有组装出来。但是长的read可以简化组装,解决好这些重复区域,甚至直接跨过这些重复区域,因此这样就不存在重复序列干扰组装的问题。

技术图片

如果这个重复序列太长超过了长片段read的长度,同样还是解决不了基因组中高重复的问题,同样组装还是会有问题,这里大家不用担心,对于微生物的重复序列中rDNA operon 占比最高,大概在77%左右,但是其长度在5-7Kb。以pacbio测序片段为例其平均读长在10kb以上,解决这些重复没有任何压力。数据表明利用三代可以解决80%的微生物基因组。

 

二、现有的三代测序平台介绍

 

(1)PacBio

14年还没有sequel,重点介绍RS,RS和sequel除了通量上不一样,其他的小编认为都差不多。

RS测序的准确性平均在82%左右(2011年数据)刚开始RS由于其错误率较高,不能单独使用,只能和其他的数据结合相互补充进行使用。后来经过化学工艺和文库制备的提升,目前准确性在87%左右。另外由于其没有GC偏好,因此利用较高的深度通过统计学模型来提升测序深度是非常有效的,纠正之后准确性在99.99%以上。这些进步使得利用RS直接组装一个小基因组成为可能。

(2)IIumina synthetic long reads ,Moleculo

这个小编不是很了解,虽然其测序片段较长,但是其存在和二代测序同样的的问题------严重的GC偏好,所以基本不用于denovo assembly。

(3)Oxford Nanopore MinION

如果说传统的测序仪类似传统互联网,那么Nanopore就是今天的移动互联网。他开发的便携式的便宜的小测序仪真正的开启了移动测序、便携式测序的时代。虽然目前它的准确性较低,没有普及开。小编认为以后走进千家万户的测序仪就应该是这个样子的。到那个时候,测序就是很大众的事情啦。

技术图片

三、组装算法

 

组装这里其实有很多种方法,整体来说有如下几种情况。

 

技术图片1、直接利用OLG(重叠法)通过overlap进行组装的,代表软件是Celera Assembler,这种方法对原始的read的质量要求较高。

2、混合拼接,基本思路是利用二代数据对质量不是很高的read进行纠错提升其质量,然后再利用OLG进行组装。代表软件PBcR、LSC、ECTools等。

3、不借助其他数据进行纠错,通过三代自身进行纠错,然后再利用OLG进行组装。代表软件HGAP、Sprai等。

4、组装提升,组装提升部分分为补洞和重新对scaffold进行连接,排序等。

这里软件前者主要是PBjelly 后者主要是AHA。还有就是利用长片段对二代组装的de Bruijn graph的优化,主要的代表就是二代组装神器Allpaths-LG。

当然以上的方法和软件都有其好的一面和不好的一面,最重要的是要理解什么时候利用哪一个软件。

技术图片

技术图片

技术图片

 

四、讨论

 

建议在小基因组测序的时候三代测100x以上,这样对于得到一个高质量的小基因组最为保险,当然如果想利用RS进行甲基化检测另说。还有就是对于三代而言DNA提取和文库制备超级超级重要,一定要多加注意。最后不想说,但是文献中提及到了,数据的分析问题可以利用在线的一些商用的云系统,比如Amazon Web Service,价格5美元以下,WHY??

 

五、参考文献

 

One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.

三代组装小基因组研究综述

标签:好的   存在   line   就是   lin   gen   受限   利用   结构   

原文地址:https://www.cnblogs.com/wangprince2017/p/10858691.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!