下载提交帮助 GSS数据提交说明

GSS数据提交

我们只接受GSS的原始数据。请照步骤提交数据并按照GSS数据提交说明处理要提交的数据文件,生成指定格式后将subdesc.bch文件和指定格式的要提交的数据文件一同上传给我们。上传地址:ftp://upload:lsbi@lifecenter.sgst.cn:2121/GSS/批次号/ 用户名为:upload 密码为:lsbi

快速提交(subdesc.bch)将自动为你新建项目和批次,批次号可在标识文件中获得。

提交步骤

  • 请先确认您已是数据共享平台注册的用户,否则请先注册。
  • 登陆数据共享平台后,点击左侧菜单的“数据提交”,选择已有项目或创建新项目。
  • 选择已有批次或创建新批次。在创建批次时,选择要提交的数据类型为“GSS”。
  • 再点击“下一步”按钮后,进入提交页面。
  • 选择离线提交(batch submission),下载标识文件(subdesc.bch)。
  • 按照指定格式处理生成数据文件,连同标识文件一起,通过ftp上传至服务器。

GSS数据文件说明

GSS序列格式参考了NCBI dbGSS部分的相关规范,见网页:http://www.ncbi.nlm.nih.gov/dbGSS/how_to_submit.html

GSS数据文件必须为存文本文件,数据文件可以包括一个*.info文件和多个*.GSS文件。文件格式见以下说明:

*.info文件格式说明

*.info文件是GSS提交所必须的文件,内容包括参考文献、文库信息、提交者信息等GSS数据的共有信息,GSS序列注释引用该文件的信息。文件名可以任意,后缀名为info。
一个*.info文件由一个或多个数据块组成。每个数据块以一个标示行开始,以一个结束行结束。 标示行的格式为
TYPE:<数据类型>(参见表1)
结束行为双竖线
||
每个数据块内容为多个数据行,每个数据行的格式为:
<Tag>:<数据内容> (参见表2)

表1:*.info文件数据类型

数据类型 标示 数据块数量 说明
参考文献 TYPE:Pub 0个,1个或多个 存放文献信息
文库来源 TYPE:Lib 一个或多个 存放数据的文库信息
联系方式 TYPE:Cont 一个或多个 存放数据作者的信息

表2:*.info文件tag说明

Tag名称 内容描述 是否必填 备注
参考文献
MEDUID: Medline编码    
TITLE: 文章标题  
AUTHORS: 作者姓名 作者之间以;分开: Name,I.I.; Name2,I.I.; Name3,I.I.
JOURNAL: 刊物名    
VOLUME: 卷号    
SUPPL: 增刊号    
ISSUE: 刊号    
I_SUPPL: 增刊刊号    
PAGES: 页码    
YEAR: 发行年  
STATUS: 文章的状态 1=未发表, 2=已提交, 3=在印,4=已出版
文库信息
NAME: 文库名 不超过 48个字符
ORGANISM: 制作文库用的生物物种. 学名
STRAIN: 物种的品系(菌株,变种)    
CULTIVAR: 植物栽培变种    
ISOLATE: 提取序列的生物体的个体特征    
SEX: 生物体性别   female, male, hermaphrodite
ORGAN: 器官名    
TISSUE: 组织类型    
CELL_TYPE: 细胞类型    
CELL_LINE: 细胞株名称    
STAGE: 发育阶段    
HOST: 宿主    
VECTOR: 载体名称    
V_TYPE: 载体类型   Cosmid(粘粒), Phage(噬菌体),Plasmid(质粒),YAC, other
RE_1: 载体的限制性酶切位点1    
RE_2: 载体的限制性酶切位点2    
DESCR: 描述文库的准备方法,载体等   尽可能详细地描述mRNA/cDNA 的出处
联系方式
NAME: 提交EST的人的姓名  
FAX: 传真    
TEL: 电话    
EMAIL: E-mail地址  
LAB: 提取EST的实验室    
INST: 机构名    
ADDR: 地址    

*.GSS文件格式说明

*.GSS文件GSS提交的主体文件,文件名可以任意,后缀名为info。内容包括按照指定格式注释的GSS序列信息。每个*.GSS文件存放一条或多条GSS序列的数据,每条序列的数据组成一个数据块。每个数据块以标示行:
TYPE:GSS
开头,以结束行
||
结尾。
数据块中的内容见下表。该表内容参考NCBI提交格式,并进行了适当的增删改。

表3:GSS数据块tag说明

栏目名称 内容描述 是否必填 备注
CONT_NAME: 联系人姓名  
CITATION: 引用文献    
LIBRARY: 文库名称  
GSS#: Contact lab.分配的GSS id  
GB#: GenBank编号    
CLONE: 克隆号    
SOURCE:      
SOURCE_DNA:      
SOURCE_INHOST:      
OTHER_GSS: 这一克隆中包含的其他GSS    
DBNAME: 交叉引用的数据库名称    
DBXREF: 交叉引用数据库的编号    
PCR_F: 正向PCR引物序列    
PCR_B: 反向PCR引物序列    
INSERT: 插入长度(碱基数)    
ERROR: 预计的插入长度偏差(碱基数)    
PLATE:      
ROW: 行数或字母    
COLUMN: 列数或字母    
SEQ_PRIMER: 测序引物描述或序列    
P_END: 序列的哪一端,如5'    
HIQUAL_START: 高保真序列的起点碱基位点    
HIQUAL_STOP: 高保真序列的终点碱基位点    
DNA_TYPE: DNA的种类 cDNA, Genomic(基因组), Viral(病毒), Synthetic(人工合成),Other
CLASS: 测序方法分类,如BAC末端测序(BAC ends),YAC末端测序(YAC ends),外显子捕获等(exon-trapped)  
PUT_ID: 提交者对序列的推断    
COMMENT: GSS的注释    
SEQUENCE: 序列  

数据格式范例

*.info文件
TYPE: Pub
MEDUID: 92347897
TITLE: Expressed sequence tags and chromosomal localization of cDNA clones from a subtracted retinal pigment epithelium library
AUTHORS: Gieser,L.; Swaroop,A.
JOURNAL: Genomics
VOLUME: 13
ISSUE: 2
PAGES: 873-6
YEAR: 1992
STATUS: 4
||
TYPE: Lib
NAME: Rat embryonic day 17 post-fertilization Library
ORGANISM: Rattus norvegicus
STRAIN: Sprague-Dawley
SEX: male
STAGE: embryonic day 17 post-fertilization
TISSUE: aorta
CELL_TYPE: vascular smooth muscle
DESCR:
||
TYPE: Cont
NAME: Sikela JM
FAX: 303 270 7097
TEL: 303 270
EMAIL: tjs@tally.hsc.colorado.edu
LAB: Department of Pharmacology
INST: University of Colorado Health Sciences Center
ADDR: Box C236, 4200 E. 9th Ave., Denver, CO 80262-0236, USA
||

*.GSS序列数据
TYPE: GSS
STATUS: New
CONT_NAME: Sikela JM
GSS#: Ayh00001
CLONE: HHC189
SOURCE: ATCC
SOURCE_INHOST: 65128
OTHER_GSS: GSS00093, GSS000101
CITATION:
Genomic sequences from Human
brain tissue
SEQ_PRIMER: M13 Forward
P_END: 5'
HIQUAL_START: 1
HIQUAL_STOP: 285
DNA_TYPE: Genomic
CLASS: shotgun
LIBRARY: Hippocampus, Stratagene (cat. #936205)
PUBLIC:
PUT_ID: Actin, gamma, skeletal
COMMENT:
This is a comment about the sequence. It may contain features.
It may span several lines.
SEQUENCE:
AATCAGCCTGCAAGCAAAAGATAGGAATATTCACCTACAGTGGGCACCTCCTTAAGAAGCTG
ATAGCTTGTTACACAGTAATTAGATTGAAGATAATGGACACGAAACATATTCCGGGATTAAA
CATTCTTGTCAAGAAAGGGGGAGAGAAGTCTGTTGTGCAAGTTTCAAAGAAAAAGGGTACCA
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
TGTTAGGAAATGGCAAAGTATTGATGATTGTGTGCTATGTGATTGGTGCTAGATACTTTAAC
TGAGTATACGAGTGAAATACTTGAGACTCGTGTCACTT
||