如何从NCBI下载基因组数据

时间：2017-11-24 15:06:05 阅读：5506 评论：0 收藏：0 [点我收藏+]

本文关于如何在 NCBI 的 ftp 里下载需要的基因组数据。

例如：我想从NCBI上下载 Escherichia coli ATCC 25922。

已知信息

原文提供的信息是：

This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.

我们获得的关键信息：

物种和菌株名字：Escherichia coli ATCC 25922；
Accession number：ASHD00000000;
version：ASHD01000000。

理论

平时下载单条序列常常是直接从页面选择导出fasta文件，对于基因组应该找到其在FTP中的位置然后将整个文件夹下载下来。

实际操作

在All database 里搜索 Escherichia coli ATCC 25922后发现在Genome数据库中有1条信息。开心的点开后发现是所有大肠杆菌的基因组信息，一共有9610个。进入list之后搜索25922没有任何结果。

问题：这里不支持模糊搜索，如果要得到结果，你需要精确的输入 Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1。谁会知道这么详细的信息？
正确操作：输入25922之后按上下箭头，会自动补齐。

此时你应当在表中找到：

可以点进FTP的链接。
Assembly：GCA_000401755.1 。
WGS：ASHD01。

说明

其实我想找的就是这个Assembly No.，因为它直接对应基因组在FTP中的文件夹位置。
点开FTP链接，你会进入以下文件夹：

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/

 也就是 genomes->all->GCF->000->401->755，F代表这个地方的是reference sequences。
 实际上在 genomes->all->GCA->000->401->755 中有一份一样的。

如果原文提供的是Assembly No，你就不需要再去NCBI查找了，直接能通过FTP地址找到，我一般使用 FileZilla下载。
如果下载多个genomes也能根据Assembly No写简单代码批量操作。
而 WGS 里面你可以单独的看到每个蛋白质，cotig等的信息，实际上就是把FTP里面能下的内容拆开了，并且是页面下载的。
NCBI 里面新旧命名系统，一个东西在不同的库里面有不一样的名字很是让新手头痛。

参考

[1] WGS页面，此处应搜索ASHD01。
[2] 所有大肠杆菌基因组汇总，此次使用25922补齐信息搜索。
[3] NCBI提供的如何下载基因组说明。

如何从NCBI下载基因组数据

标签：this 补齐自动 markdown hot dep ted 多个根据

原文地址：http://www.cnblogs.com/Xeonilian/p/genome-download-NCBI.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行