实验条件或任何其他相关信息
发布时间:2025-06-24 19:10:19 作者:北方职教升学中心 阅读量:865
实验条件或任何其他相关信息。确定了所需的数据集,用户可以下载原始测序数据,使用喜欢的生物信息学工具和 pipeline 进行分析。可以包括基因、fastq-dump
、平台、GSE#开头的标识符
ACCESSION IDs的第一个字母表示数据库源 - 分别为SRA、
ToolKit 中包含的工具挺多的哈,包括:prefetch
、vdb-config
、疾病、研究详情、然后在页面顶部:点击 “Send to”,选中**“File”,从下拉菜单中选择“Accession List”**,点击 “Create File”下载文件,保存到要下载原始数据的位置(比如,运行 SRA Toolkit的位置),默认情况下,下载的文件名为Sra_Acc_List.txt
,包含一列:
SRR14567204SRR14567205SRR14567206SRR14567207SRR14567208...
B. SRA Run Selector
上图所示,在SRA数据库搜索了项目之后,最上方会有一行提示(红色框框),直接点击那个**“Send results to Run selector”**,后面操作也比较简单,可以下载 AccessionList 文件SRR_Acc_List.txt
,然后用 Sra-Toolkit 下载(比较建议)。超算上有,则直接用。这两种方法都提供了强大的搜索功能,用户可以根据关键词、生物信息或实验属性等找到特定数据集。
直接安装 (E-utilities)
安装和使用方法详见:https://www.ncbi.nlm.nih.gov/books/NBK179288/#chapter6_Getting_Started
用法:
esearch -dbsra -query"your search terms"|efetch -formatruninfo
例子:检索项目 PRJNA730495
esearch -dbsra -queryPRJNA730495 |efetch -formatruninfo >runinfo.csv
得到的结果大概:
Run,ReleaseDate,LoadDate,spots,bases,spots_with_mates,avgLength,size_MB,AssemblyName,download_path,Experiment,LibraryName,LibraryStrategy,LibrarySelection,LibrarySource,LibraryLayout,InsertSize,InsertDev,Platform,Model,SRAStudy,BioProject,Study_Pubmed_id,ProjectID,Sample,BioSample,SampleType,TaxID,ScientificName,SampleName,g1k_pop_code,source,g1k_analysis_group,Subject_ID,Sex,Disease,Tumor,Affection_Status,Analyte_Type,Histological_Type,Body_Site,CenterName,Submission,dbgap_study_accession,Consent,RunHash,ReadHashSRR14567204,2021-06-25 18:25:06,2021-05-17 12:50:50,22110877,4422175400,22110877,200,1750,,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-zq-24/SRR014/14567/SRR14567204/SRR14567204.lite.1,SRX10910477,,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 4000,SRP320091,PRJNA730495,3,730495,SRS9000934,SAMN19232003,simple,207648,Bombus terricola,GSM5319034,,,,,,,no,,,,,GEO,SRA1233078,,public,EEDE9E10B2038FD62970B54B892532EE,C9297792C29DD79798BDE466149A11C3SRR14567205,2021-06-25 18:25:06,2021-05-17 12:54:45,25106715,5021343000,25106715,200,1975,,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-zq-24/SRR014/14567/SRR14567205/SRR14567205.lite.1,SRX10910478,,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 4000,SRP320091,PRJNA730495,3,730495,SRS9000933,SAMN19232002,simple,207648,Bombus terricola,GSM5319035,,,,,,,no,,,,,GEO,SRA1233078,,public,179BB8F87C8E7AEA09AFD31EA47B17CB,15F09D8C96B02C734C1FD0701A5BACF9SRR14567206,2021-06-25 18:25:06,2021-05-17 12:54:14,21165129,4233025800,21165129,200,1624,,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-zq-24/SRR014/14567/SRR14567206/SRR14567206.lite.1,SRX10910479,,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 4000,SRP320091,PRJNA730495,3,730495,SRS9000935,SAMN19232001,simple,207648,Bombus terricola,GSM5319036,,,,,,,no,,,,,GEO,SRA1233078,,public,F59A9C00EED65826E0F40DF85CA0E512,F76970E0700A354530E7C0F28B0E0599SRR14567207,2021-06-25 18:25:06,2021-05-17 12:53:18,22777492,4555498400,22777492,200,1775,,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-zq-24/SRR014/14567/SRR14567207/SRR14567207.lite.1,SRX10910480,,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 4000,SRP320091,PRJNA730495,3,730495,SRS9000936,SAMN19232000,simple,207648,Bombus terricola,GSM5319037,,,,,,,no,,,,,GEO,SRA1233078,,public,9A865DAAC8CB2F9336A553C44D371CCB,509CFAFFD98F8877B09D19E31305F0EE...
当然也可以把其中的 SRR#标识符单独拎出来:
esearch -dbsra -queryPRJNA730495 |efetch -formatruninfo |cut-d","-f1>SRR.numbers
结果大概这样:
SRR14567204SRR14567205SRR14567206SRR14567207...
下载 SRA 数据文件
有了**SRR#**号之后,有三种使用命令行的下载方式:1. 使用 SRA ToolKit (推荐);2. 使用 Linux 命令行工具;3. 使用 Aspera Connect
使用 SRA ToolKit:
比较关键的就是安装,详见:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit 或者 Sra-ToolKit的安装使用,当工具安装好了,或者用的服务器、
Tip:搜索条件复杂或需要根据多个条件限制搜索时,高级检索很有用
高级搜索包括多个字段和过滤器,用户可以结合使用这些内容构建查询。fasterq-dump
。物种、
下载数据之前要搞清楚,作者上传的是什么格式,测序双端还是单端啊,等等
我大多数的时候,在获取 Sra_Acc_List.txt后,直接:
catSra_Acc_List.txt|whilereadsra;do(nohup fastq-dump --split-files $sra>sra.log 2>&1&);done
但是需要一定的计算资源
使用 Linux 命令行
我感觉前一种方式(SRA ToolKit)也算……
但是,接下来介绍的可能更存粹一些……
其实哈,在2019年10月11日的时候,NCBI团队就开始推荐大家使用 SRA ToolKit下载数据了,详见 Users of the SRA FTP site: Try the SRA Toolkit!,
所以哈…其实嗯……还是整理一下吧…
下载东西哈,Linux的内置工具,无非就是 wget
或者 curl
,只要提供正确的下载地址就可以。存储的数据带有重要的元数据注释,包括:实验详细信息,样本信息,测序平台,文库制备方法。仪器型号等,缩小搜索范围。可以点击搜索框下方的“advance”,即可访问高级搜索构建器。EBI或DDBJ
例如,刚读了个文章,挺有意思的,想下载它的数据,文章里写着,可以在项目PRJNA730495下获得数据,那么:
这一次,搜索结果显示与该 Project相关的所有项目。文库来源、在页面顶部,还会显示相关的数据集等等
小练习
- 搜索一个具体的研究:SRP006081 [solution]
- 使用通配符搜索一系列研究:SRP00608* [solution] ⤴
- 搜索两个特定的研究:SRP006081 OR SRP006083 [solution]
高级检索
SRA数据库提供高级搜索功能,允许用户构建更复杂和定制的搜索。数据库将返回与提供关键词匹配的结果。efetch
配合 -format runinfo
参数,将检索匹配数据集的信息,包括运行访问权限。(这东西不知道国内有没有限制…没用过)
这个东西下载数据的时候,默认是酷酷都怼到家目录,如果家目录空间不够还得这样:
cd~mkdir-p/project/storage/your_dir/ncbiln-s/project/storage/your_dir/ncbi
再这样:
prefetch --max-size 100G --transportascp --ascp-path "/path/to/aspera/3.6.2/bin/ascp|/path/to/aspera/3.6.2/etc/asperaweb_id_dsa.openssh"SRRNNNNNN
下咋好的目录结构大致:
ncbi└── public └── sra ├── SRR006189.sra └── SRR006190.sra
还得类似这样转换格式:
forsra filein~/ncbi/public/sra/*;dofastq-dump --split-files --origfmt--gzip${sra};done
所以哈,还是推荐 SRA ToolKit
一个现成的例子
全程使用命令行:
- 获取SRR:
esearch -db sra -query PRJNA730495 | efetch -format runinfo |cut -d "," -f 1 > SRR.numbers
- 下载:
parallel --jobs 4 "fastq-dump --split-files --origfmt --gzip {}" ::: SRR.numbers
或者整理成一个Script:
#!/bin/bash#SBATCH --nodes=1#SBATCH --cpus-per-task=8#SBATCH --time=01:00:00module load sratoolkitmodule load parallelproject='PRJNA730495'esearch -dbsra -query$project|efetch -formatruninfo >runinfo.csvcatruninfo.csv |cut-d","-f1>SRR.numberscatSRR.numbers |parallel fastq-dump --split-files --origfmt--gzip-X1000{}
运行:sbatch download_raw_samples.sh