EST数据提交
我们只接受EST的原始数据。请照步骤提交数据并按照EST数据提交说明处理要提交的数据文件,生成指定格式后将subdesc.bch文件和指定格式的要提交的数据文件一同上传给我们。上传地址:ftp://upload:lsbi@lifecenter.sgst.cn:2121/EST/批次号/ 用户名为:upload 密码为:lsbi
提交步骤
- 请先确认您已是数据共享平台注册的用户,否则请先注册。
- 登陆数据共享平台后,点击左侧菜单的“数据提交”,选择已有项目或创建新项目。
- 选择已有批次或创建新批次。在创建批次时,选择要提交的数据类型为“EST”。
- 再点击“下一步”按钮后,进入提交页面。
- 选择离线提交(batch submission),下载标识文件(subdesc.bch)。
- 按照指定格式处理生成数据文件,连同标识文件一起,通过ftp上传至服务器。
EST数据文件说明
EST序列格式参考了NCBI dbEST部分的相关规范,见网页: http://www.ncbi.nlm.nih.gov/dbEST/how_to_submit.html#Library%20Files。 EST数据文件必须为存文本文件,数据文件可以包括一个*.info文件和多个*.EST文件。文件格式见以下说明:
*.info文件格式说明
*.info文件是EST提交所必须的文件,内容包括参考文献、文库信息、提交者信息等EST数据的共有信息,EST序列注释引用该文件的信息。文件名可以任意,后缀名为info。
一个*.info文件由一个或多个数据块组成。每个数据块以一个标示行开始,以一个结束行结束。
标示行的格式为
TYPE:<数据类型>(参见表1)
结束行为双竖线
||
每个数据块内容为多个数据行,每个数据行的格式为:
<Tag>:<数据内容>(参见表2)
表1:*.info文件数据类型
| 数据类型 | 标示 | 数据块数量 | 说明 |
|---|---|---|---|
| 参考文献 | TYPE:Pub | 0个,1个或多个 | 存放文献信息 |
| 文库来源 | TYPE:Lib | 一个或多个 | 存放数据的文库信息 |
| 联系方式 | TYPE:Cont | 一个或多个 | 存放数据作者的信息 |
表2:*.info文件tag说明
| Tag名称 | 内容描述 | 是否必填 | 备注 |
|---|---|---|---|
| 参考文献 | |||
| MEDUID: | Medline编码 | ||
| TITLE: | 文章标题 | 是 | |
| AUTHORS: | 作者姓名 | 是 | 作者之间以;分开: Name,I.I.; Name2,I.I.; Name3,I.I. |
| JOURNAL: | 刊物名 | ||
| VOLUME: | 卷号 | ||
| SUPPL: | 增刊号 | ||
| ISSUE: | 刊号 | ||
| I_SUPPL: | 增刊刊号 | ||
| PAGES: | 页码 | ||
| YEAR: | 发行年 | 是 | |
| STATUS: | 文章的状态 | 是 | 1=未发表, 2=已提交, 3=在印, 4=已出版 |
| 文库信息 | |||
| NAME: | 文库名 | 是 | 不超过 48个字符 |
| ORGANISM: | 制作文库用的生物物种. | 是 | 学名 |
| STRAIN: | 物种的品系(菌株,变种) | ||
| CULTIVAR: | 植物栽培变种 | ||
| ISOLATE: | 提取序列的生物体的个体特征 | ||
| SEX: | 生物体性别 | female, male, hermaphrodite | |
| ORGAN: | 器官名 | ||
| TISSUE: | 组织类型 | ||
| CELL_TYPE: | 细胞类型 | ||
| CELL_LINE: | 细胞株名称 | ||
| STAGE: | 发育阶段 | ||
| HOST: | 宿主 | ||
| VECTOR: | 载体名称 | ||
| V_TYPE: | 载体类型 | Cosmid(粘粒), Phage(噬菌体),Plasmid(质粒),YAC, other | |
| RE_1: | 载体的限制性酶切位点1 | ||
| RE_2: | 载体的限制性酶切位点2 | ||
| DESCR: | 描述文库的准备方法,载体等 | 尽可能详细地描述mRNA/cDNA 的出处 | |
| 联系方式 | |||
| NAME: | 提交EST的人的姓名 | 是 | |
| FAX: | 传真 | ||
| TEL: | 电话 | ||
| EMAIL: | E-mail地址 | 是 | |
| LAB: | 提取EST的实验室 | ||
| INST: | 机构名 | ||
| ADDR: | 地址 | ||
*.EST文件格式说明
*.EST文件EST提交的主体文件,文件名可以任意,后缀名为info。内容包括按照指定格式注释的EST序列信息。每个*.EST文件存放一条或多条EST序列的数据,每条序列的数据组成一个数据块。每个数据块以标示行:
TYPE:EST
开头,以结束行
||
结尾。
数据块中的内容见下表。该表内容参考NCBI提交格式,并进行了适当的增删改。
表3:EST数据块tag说明
| 栏目名称 | 内容描述 | 是否必填 | 备注 |
|---|---|---|---|
| EST#: | Contact lab.分配的EST id | ||
| CONT_NAME: | 联系人姓名 | 是 | 必须与.info文件中一个联系方式数据块中NAME相同 |
| CITATION: | 引用文献 | 是 | 必须与.info文件中一个参考文献数据块中TITLE相同 |
| CITATION: | 引用文献 | 可以重复出现 | |
| LIBRARY: | 文库名称 | 是 | 必须与.info文件中一个文库信息数据块中NAME相同 |
| CLONE: | 克隆号 | ||
| SOURCE: | 克隆来源 | Source providing clone e.g.ATCC | |
| SOURCE_DNA: | 克隆来源编号 | Source id number for the clone aspure DNA | |
| SOURCE_INHOST: | 克隆编号 | Source id number for the clone stored in the host | |
| OTHER_EST: | 同一克隆的EST编号 | ||
| DBNAME: | 数据库名称 | ||
| DBXREF: | 序列编号 | ||
| PCR_F: | 正向PCR引物序列 | ||
| PCR_B: | 反向PCR引物序列 | ||
| INSERT: | 插入长度 | 碱基数 | |
| ERROR: | 偏差 | 碱基数 | |
| PLATE: | 板编号 | ||
| ROW: | 行号 | 数或字母 | |
| COLUMN: | 列号 | 数或字母 | |
| SEQ_PRIMER: | 测序引物 | 描述或序列 | |
| P_END: | 序列的哪一端,如5' | ||
| HIQUAL_START: | 高质量序列起始点 | 默认为1 | |
| HIQUAL_STOP: | 高质量序列结束点 | ||
| DNA_TYPE: | DNA类型 | cDNA(默认), Genomic, Viral, Synthetic,Other | |
| PUBLIC: | 数据公布日期 | 马上公布则不填此项,格式:9/11/1994(MM/DD/YYYY) | |
| PUT_ID: | 序列的鉴定,功能描述 | ||
| TAG_LIB: | 文库的名字 | ||
| TAG_TISSUE: | 文库来源的组织 | ||
| TAG_SEQ: | 文库标签序列 | 如果尝试搜寻标签并没有找到,则填入'Notfound' | |
| POLYA: | 是否存在polyA | Y或N | |
| COMMENT: | 备注 | ||
| SEQUENCE: | 序列 | 是 |
数据格式范例
*.info文件
TYPE: Pub
MEDUID: 92347897
TITLE: Expressed sequence tags and chromosomal localization of cDNA clones from a subtracted retinal pigment epithelium library
AUTHORS: Gieser,L.; Swaroop,A.
JOURNAL: Genomics
VOLUME: 13
ISSUE: 2
PAGES: 873-6
YEAR: 1992
STATUS: 4
||
TYPE: Lib
NAME: Rat embryonic day 17 post-fertilization Library
ORGANISM: Rattus norvegicus
STRAIN: Sprague-Dawley
SEX: male
STAGE: embryonic day 17 post-fertilization
TISSUE: aorta
CELL_TYPE: vascular smooth muscle
DESCR:
||
TYPE: Cont
NAME: Sikela JM
FAX: 303 270 7097
TEL: 303 270
EMAIL: tjs@tally.hsc.colorado.edu
LAB: Department of Pharmacology
INST: University of Colorado Health Sciences Center
ADDR: Box C236, 4200 E. 9th Ave., Denver, CO 80262-0236, USA
||
*.GSS序列数据
TYPE: GSS
STATUS: New
CONT_NAME: Sikela JM
GSS#: Ayh00001
CLONE: HHC189
SOURCE: ATCC
SOURCE_INHOST: 65128
OTHER_GSS: GSS00093, GSS000101
CITATION:
Genomic sequences from Human
brain tissue
SEQ_PRIMER: M13 Forward
P_END: 5'
HIQUAL_START: 1
HIQUAL_STOP: 285
DNA_TYPE: Genomic
CLASS: shotgun
LIBRARY: Hippocampus, Stratagene (cat. #936205)
PUBLIC:
PUT_ID: Actin, gamma, skeletal
COMMENT:
This is a comment about the sequence. It may contain features.
It may span several lines.
SEQUENCE:
AATCAGCCTGCAAGCAAAAGATAGGAATATTCACCTACAGTGGGCACCTCCTTAAGAAGCTG
ATAGCTTGTTACACAGTAATTAGATTGAAGATAATGGACACGAAACATATTCCGGGATTAAA
CATTCTTGTCAAGAAAGGGGGAGAGAAGTCTGTTGTGCAAGTTTCAAAGAAAAAGGGTACCA
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
TGTTAGGAAATGGCAAAGTATTGATGATTGTGTGCTATGTGATTGGTGCTAGATACTTTAAC
TGAGTATACGAGTGAAATACTTGAGACTCGTGTCACTT
||
