标签:efs 基因组 大数据 数据质量 高度 二次 seq 就是 了解
生物医学大数据-组学数据资源
困境:
经过human genome project之后得到了Book of life,但是测得base仅仅是生物信息学分析的开始,因为发现了数据的几个重要特点。首先是数据量过大,虽然科学家想通过不同组学角度(组学也随着数据量的增多层层细化和深入)来简化和系统解读过程,但是由于生物数据所对应的生物个体本身的结构复杂和高度特异,所以数据量的增大并没有带来数据质量的提升,反而提高了解读难度(eg,蛋白质结构相同但基因组不同的概率小,但是genome基数大,所以依据E=Np可知会造成很大的期望,数据挖掘能力下降)。此时得到的数据库便是一次数据库,功能是collection。
其中,生物体的结构复杂使得碱基序列不能以语言学上的方法处理,并没有固定的基本单位,每一层组学上都有其自身的一套系统。本质上也是因为语言本就是人造的规律,因而符合人的逻辑思维,而自然科学是完全客观的,研究人员需要学习和解读自然。
解决方法:
因此,我们提出二次数据库,主要是用来annotation,提升数据质量,本质上是利用多层面数据库的整合版本将已知的模式从原始数据中去除,对数据去冗余处理。(Eg,NCBI的RefSeq(打通ome)和Gene)
标签:efs 基因组 大数据 数据质量 高度 二次 seq 就是 了解
原文地址:https://www.cnblogs.com/yuanjingnan/p/11468594.html