蛋白质数据库帮助

高级查询

在首页上点击“基础数据资源”按钮,选择“蛋白数据库”进入蛋白质数据库主页。在蛋白质主页的左侧栏点击“高级检索”,进入如下图的高级检索页面:

蛋白质数据库的高级检索可以最多使用三个限定词来进行更精确的检索,三个限定词之间可以用“AND”和“OR”相连接,其中“AND”表示查询的结果中必须包含它所连接的两个关键词,“OR”表示查询的结果中至少包含它所连接的关键词中的一个。

在左侧的限定词框中可以选择的限定词包括:CAC、AC、Entry Name、Description、Tax ID、Organism、Keywords、Gene Name、Organelle、Length以及Molecular Weight等十一个限定词。其中Length和Molecular Weight 可以进行范围查询。

限定词说明

蛋白质数据库中相关的限定词说明如下:

限定词 描述
CAC 国内用户提交的数据编号
AC SwissProt的序列或记录唯一的接收编号
Entry Name 录入名
Description 描述
Tax ID 物种分类号
Organism 与蛋白质有关的物种的学名和通用名
Keywords 与其它数据库专用词汇有关的索引名词
Gene Name 基因的标准名和通用名
Organelle 细胞器官
Length 序列的总长度
Molecular Weight 蛋白质的分子量,单位为道尔顿(Da)

显示格式说明

SDSPB蛋白质数据库的查询结果有三种显示结果:Summary、FASTA和SwissProt。

Summary显示格式

Summary格式显示了蛋白质条目的摘要信息,主要有两部分组成:

1)蛋白质的名称,AC号以及来源物种

2)对蛋白质的简要描述信息,如组成该蛋白质的亚基和生物功能等

FASTA显示格式

FASTA格式第一行显示信息包括蛋白质录入名、AC号以及来源物种。(下载保存后不保留)

第二行为序列的注释信息,以“>”开头,后跟蛋白质的来源数据库、AC号、录入名以及来源物种。

第三行为蛋白质序列数据。

SwissProt显示格式

SwissProt格式的每行由两个字符的Tags标识,后接三个空格,然后是具体的信息,有关的Tags如下表:

Tag Content 注释
ID Identification 蛋白质的标识符
AC Accession numbers 蛋白质的唯一标识号
DT Date 创建以及最后修改的日期
DE Description 对蛋白质的简要描述
GN Gene name(s) 基因的名称
OS Organism species 物种来源
OG Organelle 来源器官
OC Organism classification 物种分类信息
OX Taxonomy cross-reference 物种分类的参考信息
OH Organism host 只存在于病毒的条目中,指病毒宿主的信息
RN Reference number 参考号
RP Reference position 参考位置
RC Reference comment(s) 相关评论
RX Reference cross-reference(s) 相关交叉参考信息
RG Reference group 相关组
RA Reference authors 参考文献作者
RT Reference title 参考文献标题
RL Reference location 参考文献位置
CC Comments or notes 评论
DR Database cross-references 交叉参考数据库
KW Keywords 关键词
FT Feature table data 特征表
SQ Sequence header 序列
(blanks) Sequence data 序列数据
// Termination line 条目结束符

数据下载流程

SDSPB的蛋白质数据库提供如下两种数据下载方式:

1)下载打包的蛋白质数据

我们提供了蛋白质数据的FTP下载,点击蛋白质数据库页面的左侧栏中的“数据下载”,你就可以通过FTP来登录我们的下载中心,然后选择你需要的数据来进行下载。

2)下载查询到的蛋白质序列数据

在查询结果的页面,选择“Summary”、“FASTA”和“SwissProt”三种格式中的一种,然后点击“下载”按钮,即可下载你所查询到的结果中你选中的蛋白质序列数据,如果你没有选中,则下载当前显示页面上的的全部蛋白质序列数据。

数据提交

蛋白质数据库的提交请参见:数据提交

附录

蛋白质研究的历史

在18世纪,安东尼奥•弗朗索瓦(Antoine Fourcroy)和其他一些研究者发现蛋白质是一类独特的生物分子,他们发现用酸处理一些分子能够使其凝结或絮凝。当时他们注意到的例子有来自蛋清、血液、血清白蛋白、纤维素和小麦面筋里的蛋白质。荷兰化学家Gerhardus Johannes Mulder对一般的蛋白质进行元素分析发现几乎所有的蛋白质都有相同的实验公式。用“蛋白质”这一名词来描述这类分子是由Mulder的合作者永斯•贝采利乌斯于1838年提出。Mulder随后鉴定出蛋白质的降解产物,并发现其中含有为氨基酸的亮氨酸,并且得到它(非常接近正确值)的分子量为131Da。

对于早期的生物化学家来说,研究蛋白质的困难在于难以纯化大量的蛋白质以用于研究。因此,早期的研究工作集中于能够容易地纯化的蛋白质,如血液、蛋清、各种毒素中的蛋白质以及消化性和代谢酶(获取自屠宰场)。1950年代后期,Armour Hot Dog Co.公司纯化了一公斤纯的牛胰腺中的核糖核酸酶A,并免费提供给全世界科学家使用。目前,科学家可以从生物公司购买越来越多的各类纯蛋白质。

著名化学家萊納斯•鮑林成功地预测了基于氢键的规则蛋白质二级结构,而这一构想最早是由威廉•阿斯特伯里于1933年提出。随后,Walter Kauzman在总结自己对变性的研究成果和之前Kaj Linderstrom-Lang的研究工作的基础上,提出了蛋白质折叠是由疏水相互作用所介导的。1949年,弗雷德里克•桑格首次正确地测定了胰岛素的氨基酸序列,并验证了蛋白质是由氨基酸所形成的线性(不具有分叉或其他形式)多聚体。原子分辨率的蛋白质结构首先在1960年代通过X射线晶体学获得解析;到了1980年代,NMR也被应用于蛋白质结构的解析;近年来,冷冻电子显微学被广泛用于对于超大分子复合体的结构进行解析。截至到2008年2月,蛋白质数据库中已存有接近50,000个原子分辨率的蛋白质及其相关复合物的三维结构的坐标。

蛋白质组学与生物信息学

在一定时间内一个细胞或一类细胞中存在的所有蛋白质被称为蛋白质组,研究如此大规模的数据的领域就被称为蛋白质组学,与基因组学的命名方式相似。蛋白质组学中关键的实验技术包括用于检测细胞中大量种类蛋白质相对水平的蛋白质微阵列技术,和用于系统性研究蛋白-蛋白相互作用的双杂交筛选技术。此外,还有探究所有组分之间的可能的生物学相互作用的相互作用组学,以及系统性地解析蛋白质结构,并揭示其中的可能的折叠类型的结构基因组学。

目前各类数据库中含有许多种类的生物体的大量的基因组和蛋白质组数据,包括人类基因组的数据;要对这些数据进行分析已获得有用的信息,就需要用到近来来发展起来的新兴学科──生物信息学。生物信息学的发展使得现在研究者可以通过序列比对有效地鉴定相关生物体的同源蛋白质。利用序列信息推导工具(sequence profiling tool)可以对更特异地对序列进行分析,如限制酶图谱、针对核酸序列的开放阅读框架分析以及二级结构预测。利用特定软件,如ClustalW,可以从序列信息中可以构造出系统树并进行进化分析。生物信息学的研究领域包括集合、注释和分析基因组和蛋白质组数据,这就需要应用计算技术于生物学问题,如基因识别和支序分类。