码迷,mamicode.com
首页 > 其他好文 > 详细

生物信息学题目整理: 陈润生

时间:2018-06-28 13:59:31      阅读:231      评论:0      收藏:0      [点我收藏+]

标签:bio   most   设计   prot   概率   自然科学   分布   过程   hang   

生物信息学题目整理:

陈润生:

一、什么是生物信息学?你怎么理解它的含义?

Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation.

1、生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

2、生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。

3、生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

对生物信息学理解的实例:怎样从新测得的DNA序列中找到编码区?非编码区与编码区的差别是什么?非编码区有什么具体功能?RNAi现象对于细胞来说有着很重要的意义,包括基因表达的调控等等,那么都有哪些具体机制可以诱导正常细胞产生RNAi现象?SARS病毒的比较基因组研究;治疗SARS的RNAi设计;SARS蛋白的结构预测和模拟。

怎么理解:

生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。

其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程的生理生化信息结合,阐明其分子机理,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

 

二、发现新基因的两种方法是什么?算法的本质是?

大部分新基因是靠理论方法预测出来的。

1、利用NCBI中EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs。

国际上现已出现了几个基于EST的基因索引如UniGene,  Merck-Gene,  GenExpress-index

数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略

主要步骤:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库

(1)构建若干数据库:总的纯化的EST数据库、种子数据库、载体数据库、杂质、引物数据库、蛋白数据库、cDNA数据库;

(2)用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;

(3)用种子和纯化的EST数据库比对;

(4)用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对。重复以上步骤,直到序列不能再延伸;

(5)判断是否为全长cDNA序列。

2、从大规模基因组测序得到的数据出发,经过基因识别发现新基因:利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因比对,从而确定是否为新基因。

可分为(1)基于信号,如剪切位点、序列中的promoter与terminator

(2)基于组分,即基因家族、特殊序列间比较,complexity analysis,neutral network

其本质是: : 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。

 

三、研究生物进化的步骤有哪些,当前面临的困难是什么?如何解决?

1、构建系统进化树。

主要步骤如下:

(1)序列相似性比较。可以找到和目标序列相似的序列,但无法确定序列间的同源关系。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;

(2)序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;

(3)构建系统进化树。一般单独一种方法是不够的,通常需要多种方法才能构建反映物种间进化关系的进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;

(4)分支的确定(稳定性检验)。只有稳定的分支才有意义,为了检验构建好的进化树的可靠性,通常构建过程要随机成百上千次,大概率(70%以上)出现的分支点才是可靠的,通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。

2、当前的主要困难是发现了基因的横向迁移(LGT)现象。即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。

3、解决方法:

(1)纵向思路:是在所有序列中筛选出有垂直进化关系的序列数据集,如COG数据库;

(2)横向思路:是用完整的基因组和蛋白质组比较:

A.以whole genome为单位,进行基因组水平上的比对

B.利用生物体的蛋白质组构建进化树

选取特征比对,不用长度的序列字符串进行比对后,对照其genome进行归一化

ORF对比,将all predicted ORF采用COG的分类规则进行分类,再构建进化树:进化树方法研究古生物时的问题:样品测序是在几千万年前被固定的,而对比库则是现存的,故两者时间差是无法避免的,所以必须采取方法使两者的时间差尽可能的缩短,可采用的方法有两种:1、建立与样品同时代的database;2、构建模型,使样品序列模拟进化。

 

四、1)什么是SNP,为什么研究SNP如此重要?请写出2~3个SNP相关的website。(2)什么是系统生物学?它对生物功能实现的理解的本质变化是什么?

(1)什么叫SNP?为什么SNP研究如此重要?举2-3个SNP相关的website。

SNP(single nucleotide polymorphisms,单核苷酸多态性):不同物种、人种、正常人和病人间在基因组上的差异,而这些差异往往表现为一个核苷酸的差异。随着研究进展,发现可能是多个核苷酸差异、部分序列缺失插入。SNP覆盖了上面所有内容,含义扩展。短小缺失也看作SNP。总的来说,SNP本意是单核苷酸多态性,泛指基因组上一个碱基的取代,现在有所扩展,也包括一些更广泛的变化,例如2-3个碱基的变化也叫SNP。

重要性:SNP是联系基因型和表现型之间关系的桥梁,是基因组领域理论成果和基础研究走向应用的关键步骤。

1、SNP在基因组中分布相当广泛,使人们有机会发现与各种疾病相关的基因组突变;

2、不直接导致疾病基因表达的SNP,与某些疾病基因相邻,成为重要标记,有助于发现疾病基因;

3、从实验操作来看,通过SNP发现疾病相关基因突变比通过家系容易;

4、基础研究中重要,如对Y染色体SNP分析有重要成果。

SNP相关的一些网站:

1、SNP Consortium‘s database(http://snp.cshl.org/index.html) 

2、NCBI SNP database将这些数据进行整理,去掉冗余,使每个SNP都是唯一的。此时的SNP被称为reference SNP或refSNP。((http://www.ncbi.nlm.nih.gov/SNP/overview.html)

3、The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。(http://hgbase.cgr.ki.se/)

4、The Human Gene Mutation Database(HGMD)(http://www.hgmd.org/)

5、The Protein Mutant Database(PMD),它不是核酸突变数据库,而是蛋白突变数据库。库中收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。(http://pmd.ddbj.nig.ac.jp/)

6、The Allele Frequency Database(ALFRED):它是人类群体等位基因频率数据库,http://alfred.med.yale.edu/alfred/index.asp

 

(2)什么叫系统生物学?系统生物学对生物功能实现的本质认识的变化?

系统生物学是一门学科,是分析整个基因和蛋白质系统所有信息的学科,有三个内涵:

1、整合从不同层次水平上得来的信息,整合以前的基因组研究各层次的知识,把基因组水平,蛋白质水平,蛋白与蛋白相互作用,pathway网络等各个层次整合起来。

2、基于整合的信息构建数学模型以描述生物体结构和功能,建立刻画生命活动的数学物理模型,以刻画一个活的生命最小基本功能单位。

3、用建立的数学模型来预测系统内外部存在环境刺激时系统结构如何变化,预测未来生命活动及外界因素变化对其产生的影响。

本质变化:系统生物学认为真正实现生物学功能的是一组相互作用形成网络的蛋白质集合,不仅有孤立存在的元件,还有元件间的关联和相互作用。

学术概念上的发展:

传统是从基因组序列到结构,再到功能,而他从各个层次的相互作用到网络,再到功能,与以往不同的是,一开始就考虑元件之间的相互作用,把整个生命活动作为网络考虑其相互作用

对生物功能实现的理解本质变化:

不仅全息的了解复杂生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。

他不仅考虑单个分子而且考虑其间相互作用,把整个生命活动作为一个相互作用的网络来研究其功能,基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能。

通过系统的整合生物过程不同阶段的分散数据,如基因组、转录组、蛋白组、代谢组,可以对复杂的生物过程如折叠、信号转导、代谢途径更好的模拟,研究生物过程的动态变化。

 

五、什么是非编码序列、非编码RNA和非编码基因?请以人类为例,回答以下问题:(1)非编码序列占人类基因组的比例是多少?(98%)(2)有多少非编码序列被转录?(50%?)(3)请举两个例子,说明非编码序列的重要性。(xist, SINE)

非编码序列是基因组中不编码任何蛋白质的序列;非编码RNA是非编码序列的转录产物;非编码基因是功能的非编码RNA在基因组中的位置。

(1)人类基因组中超过97%是非编码序列;

(2)大于90%的有转录产物,绝大部分的转录产物是非编码RNA,物种间的差别主要是非编码RNA。

按功能区分:功能蛋白质基因1.7%,功能RNA基因0.5%,总共大约1-3%

内含子:24%

Satellite DNA:12%(主要分布在中心粒和端粒)

Intergene DNA:60-70%

按序列特征分:

编码区(包括编码蛋白质的tRNA和rRNA的基因)占总基因组的2%

非编码区占到98%

其中,简单重复序列 12%

散在重复序列 45%

假基因 1%

非编码非重复序列 35—40%

(3)非编码RNA有很重要的功能,例如人与黑猩猩的比较研究发现主要的差别在于非编码区;SINE(短散在元件)可以作为调控元件,通过插入基因序列中调控邻近基因的转录活性;X-inactivation(X染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转录被抑制从而失活,抑制转录是通过一个2kb的非编码RNA(Xist RNA)实现的,xist RNA装配在失活X染色体的外侧,引起结构改变导致失活;RNAi研究:RNAi是由RNA(siRNA、机体的microRNA)导致的转录后基因沉默现象;一些小核RNA调控基因转录。

具体:

SINE作为调节源,调节基因重组、交换、丰富多样性、获得新功能;

鸡溶菌酶基因中,位于编码区上游的CR1元件起着转录沉默子的作用

Nc-DNA产物有重要生物学功能,如tmRNA介导错误翻译蛋白的降解RNAi导致基因沉默

Xist介导X染色体失活是通过其编码的一个大的剪接过的多聚A非编码产物进行的

人CD8a基因在T细胞中的表达受位于其最后一个内含子内的增强子的调控,该增强子使由Alu element构成的

 

陈小伟:

一、quantile 标准化

 

 

二、FDR

 

 

三、RPKM

 

 

四、表达谱数据分析流程

 

 

 

Normalization:

Goal: make multiple arrays comparable

Sources of variation between multiple high-density oligonucleotide arrays:

Biological

Disease VS. Control

Non-biological

Total RNA preparation, amplification

Sample labeling differences

Hybridization

Scanner differences

Image analysis

Normalization Assumptions

Changes in expression are independent of abundance

Most transcripts are not differentially expressed in response to a given stress

Normalization methods

Intra-slide normalization (within array).

Normalizes expression values to make intensities consistent within each array

Inter-slide normalization (between array).

Normalizes expression values to achieve consistency between arrays.

 

Differential gene expression analysis

No replicates

Fold change (FC)

Expression ratio between 2 groups

If FC>threshold, then differentially expressed

Replicates

Hypothesis testing

 

五、测序(NGS)数据分析流程

 

生物信息学题目整理: 陈润生

标签:bio   most   设计   prot   概率   自然科学   分布   过程   hang   

原文地址:https://www.cnblogs.com/wangprince2017/p/9238081.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!