下载提交帮助 EST数据提交说明

EST数据提交

我们只接受EST的原始数据。请照步骤提交数据并按照EST数据提交说明处理要提交的数据文件,生成指定格式后将subdesc.bch文件和指定格式的要提交的数据文件一同上传给我们。上传地址:ftp://upload:lsbi@lifecenter.sgst.cn:2121/EST/批次号/ 用户名为:upload 密码为:lsbi

快速提交(subdesc.bch)将自动为你新建项目和批次,批次号可在标识文件中获得。

提交步骤

  • 请先确认您已是数据共享平台注册的用户,否则请先注册。
  • 登陆数据共享平台后,点击左侧菜单的“数据提交”,选择已有项目或创建新项目。
  • 选择已有批次或创建新批次。在创建批次时,选择要提交的数据类型为“EST”。
  • 再点击“下一步”按钮后,进入提交页面。
  • 选择离线提交(batch submission),下载标识文件(subdesc.bch)。
  • 按照指定格式处理生成数据文件,连同标识文件一起,通过ftp上传至服务器。

EST数据文件说明

EST序列格式参考了NCBI dbEST部分的相关规范,见网页: http://www.ncbi.nlm.nih.gov/dbEST/how_to_submit.html#Library%20Files。 EST数据文件必须为存文本文件,数据文件可以包括一个*.info文件和多个*.EST文件。文件格式见以下说明:

*.info文件格式说明

*.info文件是EST提交所必须的文件,内容包括参考文献、文库信息、提交者信息等EST数据的共有信息,EST序列注释引用该文件的信息。文件名可以任意,后缀名为info。 一个*.info文件由一个或多个数据块组成。每个数据块以一个标示行开始,以一个结束行结束。
标示行的格式为
TYPE:<数据类型>(参见表1)
结束行为双竖线
||
每个数据块内容为多个数据行,每个数据行的格式为:
<Tag>:<数据内容>(参见表2)

表1:*.info文件数据类型

数据类型 标示 数据块数量 说明
参考文献 TYPE:Pub 0个,1个或多个 存放文献信息
文库来源 TYPE:Lib 一个或多个 存放数据的文库信息
联系方式 TYPE:Cont 一个或多个 存放数据作者的信息

表2:*.info文件tag说明

Tag名称 内容描述 是否必填 备注
参考文献
MEDUID: Medline编码    
TITLE: 文章标题  
AUTHORS: 作者姓名 作者之间以;分开: Name,I.I.; Name2,I.I.; Name3,I.I.
JOURNAL: 刊物名    
VOLUME: 卷号    
SUPPL: 增刊号    
ISSUE: 刊号    
I_SUPPL: 增刊刊号    
PAGES: 页码    
YEAR: 发行年  
STATUS: 文章的状态 1=未发表, 2=已提交, 3=在印, 4=已出版
文库信息
NAME: 文库名 不超过 48个字符
ORGANISM: 制作文库用的生物物种. 学名
STRAIN: 物种的品系(菌株,变种)    
CULTIVAR: 植物栽培变种    
ISOLATE: 提取序列的生物体的个体特征    
SEX: 生物体性别   female, male, hermaphrodite
ORGAN: 器官名    
TISSUE: 组织类型    
CELL_TYPE: 细胞类型    
CELL_LINE: 细胞株名称    
STAGE: 发育阶段    
HOST: 宿主    
VECTOR: 载体名称    
V_TYPE: 载体类型   Cosmid(粘粒), Phage(噬菌体),Plasmid(质粒),YAC, other
RE_1: 载体的限制性酶切位点1    
RE_2: 载体的限制性酶切位点2    
DESCR: 描述文库的准备方法,载体等   尽可能详细地描述mRNA/cDNA 的出处
联系方式
NAME: 提交EST的人的姓名  
FAX: 传真    
TEL: 电话    
EMAIL: E-mail地址  
LAB: 提取EST的实验室    
INST: 机构名    
ADDR: 地址    

*.EST文件格式说明

*.EST文件EST提交的主体文件,文件名可以任意,后缀名为info。内容包括按照指定格式注释的EST序列信息。每个*.EST文件存放一条或多条EST序列的数据,每条序列的数据组成一个数据块。每个数据块以标示行:
TYPE:EST
开头,以结束行
||
结尾。
数据块中的内容见下表。该表内容参考NCBI提交格式,并进行了适当的增删改。

表3:EST数据块tag说明

栏目名称 内容描述 是否必填 备注
EST#: Contact lab.分配的EST id    
CONT_NAME: 联系人姓名 必须与.info文件中一个联系方式数据块中NAME相同
CITATION: 引用文献 必须与.info文件中一个参考文献数据块中TITLE相同
CITATION: 引用文献   可以重复出现
LIBRARY: 文库名称 必须与.info文件中一个文库信息数据块中NAME相同
CLONE: 克隆号    
SOURCE: 克隆来源   Source providing clone e.g.ATCC
SOURCE_DNA: 克隆来源编号   Source id number for the clone aspure DNA
SOURCE_INHOST: 克隆编号   Source id number for the clone stored in the host
OTHER_EST: 同一克隆的EST编号    
DBNAME: 数据库名称    
DBXREF: 序列编号    
PCR_F: 正向PCR引物序列    
PCR_B: 反向PCR引物序列    
INSERT: 插入长度   碱基数
ERROR: 偏差   碱基数
PLATE: 板编号    
ROW: 行号   数或字母
COLUMN: 列号   数或字母
SEQ_PRIMER: 测序引物   描述或序列
P_END: 序列的哪一端,如5'    
HIQUAL_START: 高质量序列起始点   默认为1
HIQUAL_STOP: 高质量序列结束点    
DNA_TYPE: DNA类型   cDNA(默认), Genomic, Viral, Synthetic,Other
PUBLIC: 数据公布日期   马上公布则不填此项,格式:9/11/1994(MM/DD/YYYY)
PUT_ID: 序列的鉴定,功能描述    
TAG_LIB: 文库的名字    
TAG_TISSUE: 文库来源的组织    
TAG_SEQ: 文库标签序列   如果尝试搜寻标签并没有找到,则填入'Notfound'
POLYA: 是否存在polyA   Y或N
COMMENT: 备注    
SEQUENCE: 序列  

数据格式范例

*.info文件
TYPE: Pub
MEDUID: 92347897
TITLE: Expressed sequence tags and chromosomal localization of cDNA clones from a subtracted retinal pigment epithelium library
AUTHORS: Gieser,L.; Swaroop,A.
JOURNAL: Genomics
VOLUME: 13
ISSUE: 2
PAGES: 873-6
YEAR: 1992
STATUS: 4
||
TYPE: Lib
NAME: Rat embryonic day 17 post-fertilization Library
ORGANISM: Rattus norvegicus
STRAIN: Sprague-Dawley
SEX: male
STAGE: embryonic day 17 post-fertilization
TISSUE: aorta
CELL_TYPE: vascular smooth muscle
DESCR:
||
TYPE: Cont
NAME: Sikela JM
FAX: 303 270 7097
TEL: 303 270
EMAIL: tjs@tally.hsc.colorado.edu
LAB: Department of Pharmacology
INST: University of Colorado Health Sciences Center
ADDR: Box C236, 4200 E. 9th Ave., Denver, CO 80262-0236, USA
||

*.GSS序列数据
TYPE: GSS
STATUS: New
CONT_NAME: Sikela JM
GSS#: Ayh00001
CLONE: HHC189
SOURCE: ATCC
SOURCE_INHOST: 65128
OTHER_GSS: GSS00093, GSS000101
CITATION:
Genomic sequences from Human
brain tissue
SEQ_PRIMER: M13 Forward
P_END: 5'
HIQUAL_START: 1
HIQUAL_STOP: 285
DNA_TYPE: Genomic
CLASS: shotgun
LIBRARY: Hippocampus, Stratagene (cat. #936205)
PUBLIC:
PUT_ID: Actin, gamma, skeletal
COMMENT:
This is a comment about the sequence. It may contain features.
It may span several lines.
SEQUENCE:
AATCAGCCTGCAAGCAAAAGATAGGAATATTCACCTACAGTGGGCACCTCCTTAAGAAGCTG
ATAGCTTGTTACACAGTAATTAGATTGAAGATAATGGACACGAAACATATTCCGGGATTAAA
CATTCTTGTCAAGAAAGGGGGAGAGAAGTCTGTTGTGCAAGTTTCAAAGAAAAAGGGTACCA
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
GCAAAAGTGATAATGATTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGT
TGTTAGGAAATGGCAAAGTATTGATGATTGTGTGCTATGTGATTGGTGCTAGATACTTTAAC
TGAGTATACGAGTGAAATACTTGAGACTCGTGTCACTT
||