标签:dup 基因突变 src 种类 方法 参考 capture mapped es2017
SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了。
一个普通黄种人的基因组,与hg19这个参考基因组序列相比,会有350万个左右的SNP。又有大概2万个是落在外显子上的,而非同义的SNP有大概9千个。
所谓非同义的SNP,就是这些SNP是会引起蛋白质的序列变化的。
indel:(insertion & deletion)是指小于50个bp以内的微小的插入、和缺失突变。一个普通黄种人的基因组和hg19相比,约有50万个Indel。其中落在外显子上的,大概在1千个左右。
那么Indel如果一旦落在外显子区域,它一定会引起蛋白质序列变化的。
如果它引起的是移码突变,那么在移码位点之后,所有氨基酸序列就和原来的序列完全不同。
如果它(基因)还能保持原来的阅读框,也会引起蛋白质中若干个氨基酸的增或者减。
SV: structure variation 染色体结构变异
1、 染色体内部的位移
2、 染色体之间的位移
3、 大片段的缺失
4、 大片段的插入
5、 大片倍的加倍
6、 大片段的倒位
CNV :copy number variation 拷贝数变异,是指染色体片段的拷贝数变异:包括拷贝数增加,也包括拷贝数减少。
实际上,CNV是和结构变异(也就是SV)紧密相关的。SV 中的大片段的增加、和大片段的缺失,会直接导致CNV的变化。
基因拷贝数异常:
例如:HER2基因,如果HER2基因的拷贝数增加到6个,或者更多,它就比较容易引发乳腺癌。
赫赛汀(Herceptin)这个药,可以抑制HER2蛋白的活性,所以赫赛洒就对于由HER2基因拷贝数异常增加引发的乳腺癌,有非常好的治疗作用。
染色体结构变异:
强启动子替换了弱启动子,改变了某个基因在天然条件下的表达量。
例如:EML4-ALK的融合基因。ALK是一个推动细胞生长、增殖的这样一个基因。在野生型的条件下,它的表达量是比较低的。还有一个基因叫EML4基因,这个基因有一个强启动子。
有一个药物,叫克里唑替尼(crizotinib)。这个药对EML4-ALK融合基因导致的肺癌有非常良好的疗效。
基因的点突变:
例如:BRAF基因的V600E突变。BRAF本身是个激酶,是打开下游细胞增殖通道的一个开关。当BRAF的第600个氨基酸,从缬氨酸被突变到了谷氨酸之后,它的酶活性就被持续地活化,它就持续地打开下游促进细胞分裂的这个信号通路。
维罗非尼(vemurafenib)这个药物正好能够抑制BRAF的这个激酶的活性,所以它能够有效治疗有BRAF V600E突变的肿瘤。
抑癌基因突变成无效基因
突变在大多数情况下,是使一个基因失去活性。只有在少数情况下,会增强一个基因的活性。
例如:TP53这个基因的最重要的一个功能,是在细胞受到伤害之后,TP53会引导细胞进行凋亡。
如果一旦TP53发生了突变,失去了功能,或者这个细胞彻底就把TP53这个基因搞丢了之后,细胞就不容易进入凋亡。 当它不容易进入凋亡呢,它也就有更大可能性变成肿瘤。 已经在很多的科学实验中发现,大概在50%的肿瘤里面,有TP53基因突变的情况存在。
RNA-seq目的、用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异。
比如:正常组织和肿瘤组织的之间的差异;检测药物治疗前后,基因表达的差异;检测发育过程中,不同的发育阶段,不同的组织之间的基因表达差异 等
在所有检测的差异类型中,最常用的一种检测就是:检测所有mRNA的表达量的差异。
还可以检测 RNA 的结构上的差异。例如:mRNA的剪接方式的差异,即“可变剪接”;还可以检测“融合基因”,同时还可以检测基因单点突变导致的SNP。
测序方法、步骤:人的细胞或组织,一般抽提到的总RNA当中,95%都是核糖体RNA。剩下的2%到3%是mRNA。还有2%到3%是Long non-coding RNA、或者tRNA、microRNA等
先把核糖体RNA先去掉。然后再进行建库测序。比如利用Poly(A)尾巴 抓出mRNA ,镁离子溶液打断,逆转录成cDNA ,再建库扩增,测序
表达量指标:目前最常用的是RPKM值,对基因表达量进行相对定量的一个指标。RPKM是 Reads Per Kilobase of exon model perMillion mapped reads。
除以这个外显子的长度,它的目的:是修正这个mRNA长度所引起的mRNA的Read数的偏差。
火山图:针对全转录组的分析,表达的是一次看到一个整体的样本(表达)差异的情况。
横轴表示某个基因的表达量是上升或下降。纵轴是表示这种差异的置信程度。这其中的每个点,就是两个样本当中同一个基因的mRNA表达量的变化。
聚类分析图:它是通过多个样本的全基因表达谱对比,来找到它们之间的相似性,和相近关系。
一张聚类分析的图,横轴是样本,纵轴是基因。
应用:我们可以分析疾病的亚型;还可以通过对多个基因在特定疾病当中的表达倾向性,来找出可能的、新的、诊断用的Biomark。
GO(gene ontology)分析:
GO主要描述基因的三个属性:
第一,是这个基因,它参与的生物过程
第二,是这个基因产物的功能
第三、是这个基因产物在细胞器内的空间定位
差异基因GO富集柱状图:可以直观的反映出在生物过程、细胞组分、和分子功能富集的差异基因的个数分布情况。 柱子越高,则表示这个亚类当中突变越多。
有向无环图,是差异基因GO富集分析的图形化展示方式,从上到下,它所定义的功能范围越来越小、越来越精准。 它的分支,表示包含关系。而这个圈圈的颜色越深呐,表示这个富集关系程度越高。
通路(Pathway)分析:在系统水平上完成生物的某一功能的基本单元、或者局部子网络。
散点图是KEGG富集分析结果的图形化展示方式。
在图中,KEGG富集程度通 Rich factor、Qvalue 和 富集到此通路上的基因个数 来衡量。
富集因子越大,则表示富集的程度越大。 qValue是校正之后的pValue,它越接近于0表示富集程度越显著。点面积越大呐,则富集的基因数越多。
RNA-seq中,可以测到mRNA上的各种结构上的变异,即RNA序列的变异。要求测序深度要更深。因为这样才能得到较完整的覆盖,更有把握判断 新的剪接点、一个断点、哪儿碱基发生了突变等。
结构变异分析:
可变剪接:一般一个人的组织样本当中,可以通过高通量测序,发现有5000个到20000个左右的可变剪接。
基因融合:融合基因的示意图,圆形 圆内弧线连接图
点突变(SNP):泡泡图,泡泡越大 突变频率越高,由大到小逆时针排列
外显子测序的核心技术,是这些针对人外显子序列设计的捕获探针库;这些探针的序列,都和人外显子的DNA序列相互补。
实验原理、步骤:
超声打碎,建成文库;
杂交,探针上有生物素;
用磁珠(其上有链霉亲和素与生物素结合)混合;
磁铁吸附磁珠,去上清液,把DNA文库从磁珠上洗脱
PCR,HiSeq测序
数据分析:比对 到人的基因组上;把比对到基因组的序列进行 突变分析
一般用Agilent SureSelect 50M的试剂盒进行外显子建库、捕获。再用HiSeq 2500 V4 PE125的方法进行测序,测10个G的数据量。
在外显子测序中,要扣掉4种因素引起的无效数据:
第一个是因为杂交捕获的过程它不是十分精确的。基因组中有许多序列有一定的同源性的。这些片段,在杂交过程当中,也会被杂交捕获下来,但不是基因的外显子。
第二个,是捕获下来的一个片段,很可能它只有一部分的序列是落在目标区域,还有一部分序列是突出在目标范围之外的。这个落在目标区的数据,占全部被测到的数据的比例,即“捕获效率”(capture efficiency)。那么AgilentSureSelect这个试剂盒呐,它的捕获效率,大约是65~70%。
第三个影响有效数据比例的因素,是Duplication。用Agilent SureSelect试剂盒进行建库、捕获,实测10个G的数据,发现duplication大约在5%左右。
第四个,是目前主流的测序方法是HiSeq V4 PE125这种方法。也就是:双端各测125个碱基,那么Agilent的建库方法中当呐
WES在肿瘤测序中的优势:
外显子测序,可测Germline突变(胚胎形成时就带有的突变),也可测体细胞突变(Somatic Mutation)
因为肿瘤中的突变呐,往往都是 low allele frequency(低等位基因频率) 的体细胞突变。所以,外显子组测序“深度测序”,显出比较明显的优势来。
外显子组测序,主要能够得到的信息是点突变和插入缺失突变,也就是SNP、Indel信息。
找到突变之后,就可以进一步地做GO和Pathway分析。
Panel,往往是指针对若干个基因设计一个捕获试剂盒。诊断公司为诊断特定的疾病,设计了许多特定的、针对性的Panel。
这一类的Panel,它的建库、捕获、和测序原理,与外显子组测序是完全一样的。
标签:dup 基因突变 src 种类 方法 参考 capture mapped es2017
原文地址:http://www.cnblogs.com/li-20151130/p/7462937.html