下载提交帮助 SRA数据提交说明

SRA数据提交

我们只接受SRA的原始数据。请照步骤提交数据并按照SRA数据提交说明处理要提交的数据文件,生成指定格式后将subdesc.bch文件和指定格式的要提交的数据文件一同上传给我们。上传地址:ftp://upload:lsbi@lifecenter.sgst.cn:2121/SRA/批次号/ 用户名为:upload 密码为:lsbi

快速提交(subdesc.bch)将自动为你新建项目和批次,批次号可在标识文件中获得。

提交步骤

  • 请先确认您已是数据共享平台的注册用户,否则请先注册。
  • 登陆数据共享平台后,点击左侧菜单的mydata,选择已有项目或创建新项目。
  • 选择已有批次或创建新批次。在创建批次时,选择要提交的数据类型为“SRA”。
  • 在点击批次下的submit data按钮后,进入提交页面。
  • 选择离线提交(batch submission) ,下载标识文件(subdesc.bch)。
  • 按照指定格式处理生成数据文件,连同标识文件一起,通过ftp上传至服务器。

SRA文件格式说明

一个SRA study所包含的内容,应该在一个SDSPB的项目中提交。即SRA study和SDSPB项目为1对1关系。一个study的内容可以在一个项目下,分成几个批次提交,每次提交不同的内容。
一个批次的SRA数据,包括一个.info文件和一个名为DATA,装有提交原始文件的子文件夹。子文件夹中内容为描述metadata的xml文件或者sff等格式的数据文件。一个完整的study,包括一个或多个study.xml, experiment.xml, sample.xml和run.xml,以及一个或多个数据文件。但是一个批次的提交数据不一定包括所有的文件。
Run.xml和该xml中包括的所有数据文件,必须要在一个批次中提交。

数据格式

Info格式

Tag名称 内容描述 必填 备注
NAME: 提交人的姓名  
EMAIL: E-mail地址  
LAB: 实验室    
INST: 机构名    
FAX: 传真    
TEL: 电话  
ADDR: 地址  
COUNTRY: 国家  
FILENAME DATA子文件夹下的文件名称  
FILETYPE 该文件的类型 可取值: study | experiment | sample | run | data
CHECKSUM_METHOD   可取值:MD5
CHECKSUM    
COMMENTS 用户的说明    

Sff格式

sff文件格式是专门设计用来记录454原始数据的,以下以一个具体的sff文件中开头的一部分为例,对此格式进行简要的说明,红色文字为说明文字。
以下为Common Header Section:
magic_number:2e736666            固定:2e736666,表示sff文件
version            固定:0001,为sff目前的版本
index_offset:216448320
index_length:2540212            文件索引的length和offset
number_of_reads:127010            read的数目
header_length:440            header的长度
key_length:4            key长度,见key_sequence字段
number_of_flows_per_read :400
每个reads的flow数,一个flow测ATGC四种碱基的一种

flowgram_format_code :1
目前只有一种,所以固定为1。这种code把每个flowgram_value写成一个整数,实际数值为flowgram_value/100
flow_chars :TACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACG
TACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTAC
GTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTA
CGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACG
TACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTAC
GTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACG
每个flow测的碱基,该字段长度应等于number_of_flows_per_read的值

key_sequence:TCAG            key序列,即每个reads开始固定的序列
以下为Read Section,每个read一个
read0info----------------------------            标示0号read的开始
read_header_length:32            Read header section的长度
name_length:14            该read的Name的长度,见name字段
number_of_bases:158            碱基的数目
clip_qual_left:5
clip_qual_right:111
clip_adapter_left:0
clip_adapter_right:0

name:EM7LHVR02GV4ED            该read的名字
flowgram_values: 101 11 108 19 11 92 13 916 34 16 90 121 16 294 18 102 185 22 11 104 27 101 15 15 96 20 182 13 15 98 18 13 94 17 111 102 189 21 15 192 18 293 16 15 182 204 16 11 186 202 104 11 95 20 93 349 25 16 178 110 16 95 15 99 13 19 187 97 15 11 188 16 365 17 99 12 21 295 206 17 104 17 14 102 18 104 17 11 185 99 15 14 371 18 15 97 102 15 104 101 190 17 16 180 103 20 11 97 21 99 18 16 111 17 188 109 19 92 19 11 100 16 190 195 16 15 195 187 98 15 15 92 188 18 101 103 19 12 100 10 98 17 14 100 20 106 13 100 15 107 104 17 11 100 100 106 13 9 95 12 13 228 104 18 13 84 11 409 20 107 16 10 104 104 17 222 17 10 107 5 11 254 16 210 19 11 106 5 14 109 102 18 10 104 99 17 11 95 12 420 18 108 15 5 111 108 13 217 21 12 11 30 13 17 11 18 12 15 9 14 10 14 10 13 9 16 11 13 11 10 9 12 13 13 9 12 13 12 9 10 12 11 9 8 12 12 9 11 11 13 9 8 11 10 11 9 11 10 11 7 12 11 11 8 10 10 8 9 8 14 8 9 9 12 8 8 8 14 8 9 9 12 7 9 9 13 8 8 11 9 9 7 10 12 8 7 11 13 9 8 9 13 8 7 9 11 8 7 10 13 8 7 9 12 7 8 10 16 8 7 10 19 8 8 10 12 9 8 9 11 8 6 10 13 8 7 12 13 8 8 15 15 8 8 10 12 8 8 10 11 8 7 10 12 8 8 9 12 9 8 9 14 9 7 10 12 9 9 8 13 8 9 7 13 10 8 9 11 8 10 8 10 8 8 10 12 9 8 9 10 9 8 9 12 9 8 9 10 9 8
每个flow的读数,该字段应该包含number_of_flows_per_read个数字

flow_index_per_base:1 2 3 2 0 0 0 0 0 0 0 0 3 1 2 0 0 2 1 0 3 2 3 2 0 3 3 2 1 1 0 3 0 2 0 0 3 0 1 0 3 0 1 0 1 2 2 1 0 0 3 0 1 2 2 3 0 1 3 0 2 0 0 0 2 3 0 0 1 0 2 3 2 3 0 1 3 0 0 0 3 1 2 1 1 0 3 0 1 3 2 3 2 0 1 2 3 2 0 1 0 3 0 1 0 1 3 1 0 2 1 3 2 3 2 2 2 1 3 1 1 3 3 0 1 3 2 0 0 0 2 3 1 2 0 3 3 0 0 2 0 3 3 1 3 1 3 2 0 0 0 2 3 1 2 0 2 5
测出序列每个base在flowchart上对应的位置,比如该条数据的flow-chars为:TACGTACGTAC…
flow_index_per_base为:1 2 3 2 0 0 0 0 0 0 0 0 3…
则序列为第一位的T,第1+2=3位的C,第3+3=6位的A,第6+2=8位的G,第8+0=8位的G…即序列为TCAGG…


bases:TCAGGGGGGGGGCGAAAGTTGATCCATCGTTGGAAATTAATTAACTCGGGCCGA
GCCGCCTTTTCAAACCTGATTATTTTGTCGTTGGTGATCCGATCCGGCCGGTGTTCGCT
GAGACACGCAACAGGGGATAGGCAAAGGCACACAGGGGATAGGNN
测出的序列,长度应等于number_of_bases的数值

quality_scores:28 27 26 36 29 20 15 11 8 6 3 1 25 21 36 32 13 28 31 23 28 27 27 30 22 27 26 26 28 32 24 33 25 36 32 13 30 21 34 28 31 23 34 27 28 27 26 36 32 17 29 20 26 27 27 31 24 27 32 24 36 32 18 2 27 36 32 14 35 28 28 28 28 31 23 27 36 32 19 3 27 28 28 28 32 25 29 21 28 27 27 26 32 24 26 26 27 32 25 33 26 33 26 31 24 27 26 32 24 28 28 27 27 27 27 27 27 28 27 27 27 27 33 27 28 23 39 35 22 9 27 28 28 34 28 27 30 26 2 35 28 27 26 28 28 27 26 39 35 23 10 27 26 27 34 28 0 0
每个碱基的quality score,长度应等于number_of_bases的数值

Read1info----------------------------            标示另一个read,1号read的开始