1.sam,bam的格式转换: 2.对bam文件进行排序 3.对bam文件进行简单的统计 4.筛选特定的区域 5.对read重复mapping 到基因组上多个区域时,只保留匹配度最高的 ...
分类:
其他好文 时间:
2017-07-21 00:05:34
阅读次数:
327
最近学习了一下基因组的拼接原理,以下是我的学习笔记和一些思考。基因组的拼接原理是高通量测序技术的基础知识吧,我个人认为即使不做基 因组拼接工作,也可以学习一下几个主流拼接软件的算法和原理。我主要是学习了两个网上教程,其教程出处为https://github.com/ TGAC/361Division ...
分类:
其他好文 时间:
2017-07-12 16:51:26
阅读次数:
1179
Original 2017-06-08 曾健明 生信技能树 这里选取的是 GATK best practice 是目前认可度最高的全基因组重测序分析流程,尤其适用于 人类研究。 PS:其实本文应该属于直播我的基因组系列,有两个原因把它单独拿出来, 首先,直播我的基因组阅读量太低了,可能是大家觉得错过 ...
分类:
其他好文 时间:
2017-07-02 10:29:54
阅读次数:
798
概述:tophat是以bowtie2为核心的一款比对软件。 tophat工作分两步: 1.将reads用bowtie比对到参考基因组上。 2.将unmapped-reads打断成更小的fragments,比对到参考基因组上,如果比对成功,建立剪切点。 用法:tophat [options]* <in ...
分类:
其他好文 时间:
2017-07-01 23:24:25
阅读次数:
362
bowtie2的功能:短序列的比对 用法:bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r>} [-S <sam>] -x <bt2-idx>:参考基因组的索引路径 {-1 <m1> -2 <m2> | -U <r>}:比对的reads ...
分类:
其他好文 时间:
2017-07-01 23:22:25
阅读次数:
374
线粒体基因组是一个环状的双链DNA分子,包括轻链 L 和 重链 H, 其基因结构在哺乳动物中保守, 以human 线粒体为例, 人类线粒体基因组全长 16,596 bp , 共有13个编码蛋白的基因,根据编码的蛋白可以分成3类: 共有22种tRNA的基因 2种 rRNA 基因: 在人类的线粒体基因组 ...
分类:
其他好文 时间:
2017-06-27 18:51:21
阅读次数:
414
# 估算测序深度、reads数目、N50等值: $ perl ~/TangerScript/fqStat -i sunset.raw.subreads.fastq -g 372m 结果如下: ...
分类:
其他好文 时间:
2017-05-16 21:39:41
阅读次数:
1992
原文摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在很多方面都带来了显著的改善,包含最先进的语音识别、视觉对象识别、对象检測和很多其他领域,比如药物发现和基因组学等。深度学习可以发现大数据中的复杂结构。它是利用BP算法来完毕这个发现过程的。BP算法可以指导 ...
分类:
其他好文 时间:
2017-05-16 20:45:54
阅读次数:
458
首先,进入千人基因组数据库的网站:https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/ 如下图所示,在数据库的框框里输入我们感兴趣的SNP,比如rs608139 搜索后出现如下界面,黄色区域是我们感兴趣的SNP,红色框框是不同国家和地区在 ...
分类:
数据库 时间:
2017-04-12 21:17:58
阅读次数:
669
很多时候,我们需要对取出的SNV进行注释,这个时候可能会在R上进行注释,通常注释文件都含有Chr(染色体)、Start(开始位点)、End(结束位点)、Description(描述),而我们的SNV文件通常是拥有Position(位置),因此我们可以先定位Chr,再用Postion去定位到Start ...
分类:
编程语言 时间:
2017-04-07 21:24:30
阅读次数:
332