标签:div ddn track ids deb structure oid visio 线性
最近学习了一下基因组的拼接原理,以下是我的学习笔记和一些思考。基因组的拼接原理是高通量测序技术的基础知识吧,我个人认为即使不做基 因组拼接工作,也可以学习一下几个主流拼接软件的算法和原理。我主要是学习了两个网上教程,其教程出处为https://github.com/ TGAC/361Division/tree/master/de_novo_2016和https://github.com/ lexnederbragt/INF-BIO9120_fall2013_de_novo_assembly/tree/master/presentations。
A hierarchical data structure that maps the sequence data to a putative reconstruction of the target.(Miller et al 2010,Genomics 95(6):315-327) 基因组拼接可以类比成一本书被碎纸机碎个稀巴烂,然后用胶水把他们一片片给拼回去的过程。
拼接的过程就像一个黑箱处理过程,reads序列输入,经过拼接黑盒,输出就是基因组拼接好的结果。正确的拼接应该是The right motifs,the correct number of times,in correct order and position。我个人认为是尽可能得还原真实的基因组是拼接的终极目的。
另外,拼接的算法分为试探型和穷举型两种,一般都用试探型算法,因为它更好更快更简单(在绝大多数时候)。穷举型算法局限性强、运行速度 慢、召回率低,并且数据类型不尽相同,因此没有很好的模型适合全部的数据类型。
在拼接之前,我们确保输入的数据是去除接头、污染等的good data,并且要大概知道拼接的原理。最后完成拼接后,要检查拼接结果的可靠性和完整性。
测序长度越长,覆盖度越高,带来的拼接结果也会越好。并且根据研究目的的不同,我们使用不同测序技术,产生不同类型的数据,得到不同的测序 信息。
None of which is assessed by length stats.
Overlap Layout Consensus 找到重叠区域并且定义他们是key。layout有点难度。这种方法tracks每一条read。Consensus是由reads构建而成的。
De Bruijn Graphs
OLC VS DE bruijn
(1)基因组大小的获取关系到对以后组装结果的大小的正确与否判断;基因组太大(>10Gb),可能会超出了目前denovo组装基因组软件的对机器存 的要求,从客观条件上讲是无法实现组装的。一般物种的基因组大小可以从公共数据库查到。如果没有搜录,需要考虑通过实验(流式细胞仪福尔根 染色/定量pcr/)或Kmer估计法来获得基因组大小。
(2)杂合度对基因组组装的影响主要体现在不能合并姊妹染色体,杂合度高的区域,会把两条姊妹染色单体都组装出来,从而造成组装的基因组偏 大于实际的基因组大小。一般是通过SSR在测序亲本的子代中检查SSR的多态性。杂合度如果高于0.5%,则认为组装有一定难度。杂合度高于1%则很难 组装出来。杂和度估计一般通过kmer分析来做,降低杂合度可以通过很多代近交来实现。杂合度高,并不是说组装不出来,而是说,装出来的序列不 适用于后续的生物学分析。比如拷贝数、基因完整结构。
(3)随着测序对质量要求越来越高和相关技术的逐渐成熟,遗传图谱也快成了denovo基因组的必须组成。
(4)实验设计需要考虑的问题:1.明确我们的生物学问题;2.设计数据处理方案;3.设置实验条件和生物/技术重复数;4.选择测序平台和覆盖度。
(1) kmer spectra,可用软件KAT、CEGMA; (2)使用生物学知识去进行评估验证
样本的准备和建库:样品未纯化,PCR偏差(没有化学反应是perfect、complete的)
N50并不是那么可靠、敏感,我们要注意。
https://www.cbcb.umd.edu/research/assembly_primer
标签:div ddn track ids deb structure oid visio 线性
原文地址:http://www.cnblogs.com/renping/p/7156251.html