标签:this 补齐 自动 markdown hot dep ted 多个 根据
本文关于如何在 NCBI
的 ftp
里下载需要的基因组数据。
原文提供的信息是:
This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.
我们获得的关键信息:
Escherichia coli ATCC 25922
;ASHD00000000
;ASHD01000000
。在All database
里搜索 Escherichia coli ATCC 25922
后发现在Genome数据库中有1条信息。开心的点开后发现是所有大肠杆菌的基因组信息,一共有9610个。进入list之后搜索25922没有任何结果。
问题:这里不支持模糊搜索,如果要得到结果,你需要精确的输入
Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1
。谁会知道这么详细的信息?
正确操作:输入25922之后按上下箭头,会自动补齐。
此时你应当在表中找到:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/
也就是 genomes->all->GCF->000->401->755,F代表这个地方的是reference sequences。
实际上在 genomes->all->GCA->000->401->755 中有一份一样的。
FileZilla
下载。如果下载多个genomes也能根据Assembly No写简单代码批量操作。
而 WGS
里面你可以单独的看到每个蛋白质,cotig等的信息,实际上就是把FTP里面能下的内容拆开了,并且是页面下载的。
NCBI 里面新旧命名系统,一个东西在不同的库里面有不一样的名字很是让新手头痛。
[1] WGS页面,此处应搜索ASHD01。
[2] 所有大肠杆菌基因组汇总,此次使用25922补齐信息搜索。
[3] NCBI提供的如何下载基因组说明。
标签:this 补齐 自动 markdown hot dep ted 多个 根据
原文地址:http://www.cnblogs.com/Xeonilian/p/genome-download-NCBI.html