如何用python的ftplib模块批量下载NCBI数据库中的基因组数据 ...
分类:
其他好文 时间:
2018-05-02 22:21:30
阅读次数:
900
python 字典和列表的读取速度问题 最近在进行基因组数据处理的时候,需要读取较大数据(2.7G)存入字典中,然后对被处理数据进行字典key值的匹配,在被处理文件中每次读取一行进行处理后查找是否在字典的keys中,以下两段代码的效率差别非常大: 第一段: if(pos in fre_dist.ke ...
分类:
编程语言 时间:
2018-04-22 10:52:11
阅读次数:
249
参考: Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 前所未有!10篇《Cell》文章及封面聚焦人类伟大成就:癌症基因组图谱TCGA!改写教科书式突破! “癌症大地图 ...
分类:
系统相关 时间:
2018-04-11 18:07:39
阅读次数:
200
这是一个很细节也很实际的问题,到底用哪个版本? 参考: What Ensembl genome version should I use for alignments? (e.g. toplevel.fa vs. primary_assembly.fa) 大部分都推荐使用soft-mask版本的,也 ...
分类:
其他好文 时间:
2018-03-25 20:47:49
阅读次数:
549
http://www.htslib.org/workflow/#mapping_to_variant 分析流程:step0—安装相关软件 step1—下载参考基因组数据和分析数据以及原始测序数据sra格式转换为fastq格式 sratoolkit :https://trace.ncbi.nlm.ni ...
分类:
其他好文 时间:
2018-03-25 12:00:42
阅读次数:
230
Circos最初主要用于基因组序列相关数据的可视化,目前已应用于多个领域,例如:影视作品中的人物关系分析,物流公司的订单来源和流向分析等,大多数关系型数据都可以尝试用Circos来可视化。缺点:绘制的是图,不能进行操作,拖动 BirdEye是Decearative Visual Analytics, ...
分类:
其他好文 时间:
2018-02-07 15:09:52
阅读次数:
181
接着昨天的问题,如果把所有的假定蛋白的信息全都找出来并把所有的结构域信息提取出来该怎么弄呢? 方案: 1,从基因组数据库中找出所有的基因序列以及标注信息 2,提取所有假定蛋白以及序列号 3,把所有假定蛋白的结构域信息写入excel 前两步筛选后发现大约有7000多个基因组假定蛋白,用爬虫的话NCBI ...
分类:
其他好文 时间:
2018-02-03 23:11:16
阅读次数:
253
一、CNV 简介 拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显 微水平(microscopic)和亚显微水平(submicroscopic)。显微水平 的基因组结构变异主要是指显微镜 ...
分类:
其他好文 时间:
2018-01-24 19:46:06
阅读次数:
15042
3578: GTY的人类基因组计划2 第一次居然hash被卡了。改了改rd()就A了。 题解:咱给每个人都随机一个数,几个人就是把他们的数异或起来,用set判重。再开一个set记录合法的房间。 ...
分类:
其他好文 时间:
2018-01-08 18:35:15
阅读次数:
161
2015年,美国权威机构——美国医学遗传学与基因组学学会(ACMG)编写和发布了《ACMG遗传变异分类标准与指南》。为帮助我国医疗工作者和遗传咨询从业者更好地理解ACMG遗传变异分类标准、更加准确和规范地进行遗传变异解读,使遗传咨询更好地服务于临床,中国遗传学会遗传咨询分会在主任委员、中国科学院院士 ...
分类:
其他好文 时间:
2018-01-01 23:41:46
阅读次数:
279