码迷,mamicode.com
首页 > 数据库 > 详细

Est数据库

时间:2019-11-20 12:51:04      阅读:434      评论:0      收藏:0      [点我收藏+]

标签:序列   图片   nbsp   mis   问题:   因此   cdn   标签   com   

Est--编码序列,gene 片段且具有标签

 技术图片

 

 

其中,est数据库中是类似测序1、测序2、测序3这样的序列。实验室测得的序列是cDNA,通过上图方法拼接,电脑克隆(dbest)。如果有overlap则认为两个序列来自于同一个geneoverlap的碱基数目是40(不建议低于30,不建议高于40),过少容易拼接乱,过多对碱基突变的容忍性差。就一条序列来说,将比对后延长的结果进行二次比对,以此类推,直到不能延长为止。

 技术图片

 

 

est数据库的覆盖率超过95%

先利用其他数据库(eg:引物数据库、末端数据库)过滤一遍。即因此在进行Contig电脑组装之前,需要探测并去除EST数据库中的污染序列。

拼接质检方法:Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,若将第一个ATG中的碱基ATG分别标为123位,则Kozak规则可描述如下:(1)4位的偏好碱基为G(2)ATG5’端约15bp范围的侧翼序列内不含碱基T(3)-3-6-9位置

 

挑战:

嵌合体问题:基因家族内的gene相似度高,电脑克隆的阈值不足以区分,miss之后将两个不同位置的gene弄混。这需要实验验证。嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。

 

发现SNP:对于某一个gene出现多个略有差别的序列,着多个序列中可能存在SNP

 

利用何种数据库发现新基因?

基因组序列数据库和EST数据库。

发现原理是什么?

基因组序列数据库是识别,识别编码序列特征和非编码序列有何差异,有多种算法。

EST数据库是拼接,归属于同一geneest拼接在一起,算法比较单一。

 

使用EST序列装载gene,可以帮助发现新geneSNP可变剪接和发现非编码RNA。

 

 

 

Est数据库

标签:序列   图片   nbsp   mis   问题:   因此   cdn   标签   com   

原文地址:https://www.cnblogs.com/yuanjingnan/p/11896670.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!