GSS数据提交
我们只接受GSS的原始数据。请照步骤提交数据并按照GSS数据提交说明处理要提交的数据文件,生成指定格式后将subdesc.bch文件和指定格式的要提交的数据文件一同上传给我们。上传地址:ftp://upload:lsbi@lifecenter.sgst.cn:2121/GSS/批次号/ 用户名为:upload 密码为:lsbi
提交步骤
- 请先确认您已是数据共享平台注册的用户,否则请先注册。
- 登陆数据共享平台后,点击左侧菜单的“数据提交”,选择已有项目或创建新项目。
- 选择已有批次或创建新批次。在创建批次时,选择要提交的数据类型为“GSS”。
- 再点击“下一步”按钮后,进入提交页面。
- 选择离线提交(batch submission),下载标识文件(subdesc.bch)。
- 按照指定格式处理生成数据文件,连同标识文件一起,通过ftp上传至服务器。
GSS数据文件说明
GSS序列格式参考了NCBI dbGSS部分的相关规范,见网页:http://www.ncbi.nlm.nih.gov/dbGSS/how_to_submit.html
GSS数据文件必须为存文本文件,数据文件可以包括一个*.info文件和多个*.GSS文件。文件格式见以下说明:
*.info文件格式说明
*.info文件是GSS提交所必须的文件,内容包括参考文献、文库信息、提交者信息等GSS数据的共有信息,GSS序列注释引用该文件的信息。文件名可以任意,后缀名为info。
一个*.info文件由一个或多个数据块组成。每个数据块以一个标示行开始,以一个结束行结束。
标示行的格式为
TYPE:<数据类型>(参见表1)
结束行为双竖线
||
每个数据块内容为多个数据行,每个数据行的格式为:
<Tag>:<数据内容> (参见表2)
表1:*.info文件数据类型
| 数据类型 | 标示 | 数据块数量 | 说明 |
|---|---|---|---|
| 参考文献 | TYPE:Pub | 0个,1个或多个 | 存放文献信息 |
| 文库来源 | TYPE:Lib | 一个或多个 | 存放数据的文库信息 |
| 联系方式 | TYPE:Cont | 一个或多个 | 存放数据作者的信息 |
表2:*.info文件tag说明
| Tag名称 | 内容描述 | 是否必填 | 备注 |
|---|---|---|---|
| 参考文献 | |||
| MEDUID: | Medline编码 | ||
| TITLE: | 文章标题 | 是 | |
| AUTHORS: | 作者姓名 | 是 | 作者之间以;分开: Name,I.I.; Name2,I.I.; Name3,I.I. |
| JOURNAL: | 刊物名 | ||
| VOLUME: | 卷号 | ||
| SUPPL: | 增刊号 | ||
| ISSUE: | 刊号 | ||
| I_SUPPL: | 增刊刊号 | ||
| PAGES: | 页码 | ||
| YEAR: | 发行年 | 是 | |
| STATUS: | 文章的状态 | 是 | 1=未发表, 2=已提交, 3=在印,4=已出版 |
| 文库信息 | |||
| NAME: | 文库名 | 是 | 不超过 48个字符 |
| ORGANISM: | 制作文库用的生物物种. | 是 | 学名 |
| STRAIN: | 物种的品系(菌株,变种) | ||
| CULTIVAR: | 植物栽培变种 | ||
| ISOLATE: | 提取序列的生物体的个体特征 | ||
| SEX: | 生物体性别 | female, male, hermaphrodite | |
| ORGAN: | 器官名 | ||
| TISSUE: | 组织类型 | ||
| CELL_TYPE: | 细胞类型 | ||
| CELL_LINE: | 细胞株名称 | ||
| STAGE: | 发育阶段 | ||
| HOST: | 宿主 | ||
| VECTOR: | 载体名称 | ||
| V_TYPE: | 载体类型 | Cosmid(粘粒), Phage(噬菌体),Plasmid(质粒),YAC, other | |
| RE_1: | 载体的限制性酶切位点1 | ||
| RE_2: | 载体的限制性酶切位点2 | ||
| DESCR: | 描述文库的准备方法,载体等 | 尽可能详细地描述mRNA/cDNA 的出处 | |
| 联系方式 | |||
| NAME: | 提交EST的人的姓名 | 是 | |
| FAX: | 传真 | ||
| TEL: | 电话 | ||
| EMAIL: | E-mail地址 | 是 | |
| LAB: | 提取EST的实验室 | ||
| INST: | 机构名 | ||
| ADDR: | 地址 | ||
*.GSS文件格式说明
*.GSS文件GSS提交的主体文件,文件名可以任意,后缀名为info。内容包括按照指定格式注释的GSS序列信息。每个*.GSS文件存放一条或多条GSS序列的数据,每条序列的数据组成一个数据块。每个数据块以标示行:
TYPE:GSS
开头,以结束行
||
结尾。
数据块中的内容见下表。该表内容参考NCBI提交格式,并进行了适当的增删改。
表3:GSS数据块tag说明
| 栏目名称 | 内容描述 | 是否必填 | 备注 |
|---|---|---|---|
| CONT_NAME: | 联系人姓名 | 是 | |
| CITATION: | 引用文献 | ||
| LIBRARY: | 文库名称 | 是 | |
| GSS#: | Contact lab.分配的GSS id | 是 | |
| GB#: | GenBank编号 | ||
| CLONE: | 克隆号 | ||
| SOURCE: | |||
| SOURCE_DNA: | |||
| SOURCE_INHOST: | |||
| OTHER_GSS: | 这一克隆中包含的其他GSS | ||
| DBNAME: | 交叉引用的数据库名称 | ||
| DBXREF: | 交叉引用数据库的编号 | ||
| PCR_F: | 正向PCR引物序列 | ||
| PCR_B: | 反向PCR引物序列 | ||
| INSERT: | 插入长度(碱基数) | ||
| ERROR: | 预计的插入长度偏差(碱基数) | ||
| PLATE: | |||
| ROW: | 行数或字母 | ||
| COLUMN: | 列数或字母 | ||
| SEQ_PRIMER: | 测序引物描述或序列 | ||
| P_END: | 序列的哪一端,如5' | ||
| HIQUAL_START: | 高保真序列的起点碱基位点 | ||
| HIQUAL_STOP: | 高保真序列的终点碱基位点 | ||
| DNA_TYPE: | DNA的种类 | 是 | cDNA, Genomic(基因组), Viral(病毒), Synthetic(人工合成),Other |
| CLASS: | 测序方法分类,如BAC末端测序(BAC ends),YAC末端测序(YAC ends),外显子捕获等(exon-trapped) | 是 | |
| PUT_ID: | 提交者对序列的推断 | ||
| COMMENT: | GSS的注释 | ||
| SEQUENCE: | 序列 | 是 |
数据格式范例
*.info文件
TYPE: Pub
MEDUID: 92347897
TITLE: Expressed sequence tags and chromosomal localization of cDNA clones from a subtracted retinal pigment epithelium library
AUTHORS: Gieser,L.; Swaroop,A.
JOURNAL: Genomics
VOLUME: 13
ISSUE: 2
PAGES: 873-6
YEAR: 1992
STATUS: 4
||
TYPE: Lib
NAME: Rat embryonic day 17 post-fertilization Library
ORGANISM: Rattus norvegicus
STRAIN: Sprague-Dawley
SEX: male
STAGE: embryonic day 17 post-fertilization
TISSUE: aorta
CELL_TYPE: vascular smooth muscle
DESCR:
||
TYPE: Cont
NAME: Sikela JM
FAX: 303 270 7097
TEL: 303 270
EMAIL: tjs@tally.hsc.colorado.edu
LAB: Department of Pharmacology
INST: University of Colorado Health Sciences Center
ADDR: Box C236, 4200 E. 9th Ave., Denver, CO 80262-0236, USA
||
*.GSS序列数据
TYPE: GSS
STATUS: New
CONT_NAME: Sikela JM
GSS#: Ayh00001
CLONE: HHC189
SOURCE: ATCC
SOURCE_INHOST: 65128
OTHER_GSS: GSS00093, GSS000101
CITATION:
Genomic sequences from Human
brain tissue
SEQ_PRIMER: M13 Forward
P_END: 5'
HIQUAL_START: 1
HIQUAL_STOP: 285
DNA_TYPE: Genomic
CLASS: shotgun
LIBRARY: Hippocampus, Stratagene (cat. #936205)
PUBLIC:
PUT_ID: Actin, gamma, skeletal
COMMENT:
This is a comment about the sequence. It may contain features.
It may span several lines.
SEQUENCE:
AATCAGCCTGCAAGCAAAAGATAGGAATATTCACCTACAGTGGGCACCTCCTTAAGAAGCTG
ATAGCTTGTTACACAGTAATTAGATTGAAGATAATGGACACGAAACATATTCCGGGATTAAA
CATTCTTGTCAAGAAAGGGGGAGAGAAGTCTGTTGTGCAAGTTTCAAAGAAAAAGGGTACCA
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
TGTTAGGAAATGGCAAAGTATTGATGATTGTGTGCTATGTGATTGGTGCTAGATACTTTAAC
TGAGTATACGAGTGAAATACTTGAGACTCGTGTCACTT
||
