标签:gem 目标 ant iss 设计 可靠性 机构 block strip
多机构合作,数据和利益共享。
考虑的因素:
基因组大小、倍性、杂合性、GC含量和重复。
数据库查询:
fungi (http://www.zbi.ee/fungalgenomesize)
animals (http://www.genomesize.com)
plants (http://data.kew.org/cvalues)
估计:
流式细胞仪和kmer频率分布(建议两种都用)。
高质量染色体水平的参考基因组是关键。
质控:reads长度、错误率、深度、覆盖度、文库等。
有钱:PacBio/ONT + Hi-C
没钱:Illumina/10X GC(genomics chrominum) + Hi-C
从头组装:一般是完全denovo。
参考基因组辅助:利用近缘物种作为参考和指导进行组装,该方法对数据和计算量较小,但是现有参考基因组可能有错误和重排。
目的:构建一致的单倍型或定相单倍型的染色体水平组装。一般的组装是将2条序列整合为1个单倍型,因此不能得到二倍体信息。
选择合适的工具和流程:考虑组装的质量和连续性,包括速度和敏感性。
三代组装工具网站:
LRS-DB https://long-read-tools.org/
常用的组装工具软件:
文库制备的两个考虑:目标基因组大小、测序样本数。
reads: 短(Illumina, 454, SOLiD, MGI, Ion Torrent),长(ONT and PacBio)或混合(hybrid) read
不含杂质。
最低量要求:
Illumina 和 10xGC > 3 ng, PacBio > 20 μg, ONT > 1 μg, BioNano > 200 ng, Dovetail > 5 μg 。
三代平均DNA长度>25 kb。
使用核与细胞器DNA比率更高的组织。
纯化DNA的测量/定量可使用分光光度法和基于荧光的方法。
数据量、基因组大小、杂合率和倍性等对内存
需求、CPU数量和计算成本成几何增加。
可选择云计算合理分配。
三种选择:
(1)最大化内部员工或协作
(2)从服务外包提供者
(3)模拟具有不同设置的数据
推荐的基因组组装和注释流程图:
强烈建议使用BioNano和Hi-C数据来达到染色体级组装,因为这两种方法可通过验证初始组装的完整性,纠正方向错误,排序scaffolds来完善结果。
在鸟枪法时代,denovo依赖于于算法和试验设计。reads长度、文库大小、reads准确性和基因组复杂性等决定了组装的准确性和连续性。
质量评估:
三个最重要的指标:连续性、准确性、完整性。
方法:三代/10XGC,BioNano,Hi-C数据;软件LR_Gapcloser。
注释内容:
注释的方法:
结合比对EST、RNAseq、蛋白序列作为外部基因组组装证据。
结合方法和结果(尤其是MAKER,BRAKER和String-Tie)可以有效地提高注释预测的数量和准确性(尤其是对孤儿基因和其他年轻基因)。
功能注释GO等。
在线基因组注释工具:
命令行注释工具:
非编码RNA注释:
重复序列注释:
公共数据库 or 自建数据库?
不同版本软件结果不同,为确保稳定,数据可重复,需持续维护和更新。
植物社区示例:
https://nbenth.com/annotator/index,
https://solgenomics.net
https://www.helmholtz-muenchen.de/pgsb
动物社区示例:
http://www.slimsuite.unsw.edu.au/servers/apollo.php
https://bovinegenome.elsiklab.missouri.edu
http://www.gmgi.org/genomics-fish-shellfish
https://www.sanger.ac.uk/science/data/vertebrate-genomes-sequencing
不建议纯二代组装。
纯三代或混合组装方法:
此文太多废话,慎读~~~
标签:gem 目标 ant iss 设计 可靠性 机构 block strip
原文地址:https://www.cnblogs.com/jessepeng/p/14359480.html