普通核酸数据库帮助

高级查询

在首页上点击“基础数据资源”按钮,选择“普通核酸数据库”进入蛋白质数据库主页。在核酸数据库主页的左侧栏点击“高级检索”,进入如下图的高级检索页面:

核酸数据库的高级检索可以最多使用三个限定词来进行更精确的检索,三个限定词之间可以用“AND”和“OR”相连接,其中“AND”表示查询的结果中必须包含它所连接的两个关键词,“OR”表示查询的结果中至少包含它所连接的关键词中的一个。

搜索项在左侧的限定词框中可以选择的限定词包括:CAC、Comments、Accession、Definition、Keyword、Organism、Gene、Protein、Author、Title、Journal、Medline/Pubmed ID、Molecule和Sequence Length。其中Molecule和Sequence Length可以进行范围查询。

限定词说明

核酸数据库中有关的限定词说明如下:

限定词 描述
CAC 国内用户提交的数据编号
Comments 对该序列的简短注释
Accession 核酸数据库的序列或记录唯一的接收编号
Definition 描述了序列的生物特性,一般包括生物体,产品名称,基因标志,分子类型和是否为完成片段
Keyword 与其它数据库专用词汇有关的索引名词
Organism 与蛋白质有关的物种的学名和通用名
Gene 基因的普通名称和标准名称
Protein Name 蛋白质的标准名称
Author 所有参考信息中的作者名
Title 描述了序列的生物特性,一般包括生物体,产品名称,基因标志,分子类型和是否为完成片段
Journal 发表数据的杂志名称
Medline/Pubmed ID Medline的唯一编号或Pubmed编号
Molecule Type 包括4中类型:Nucleotide, CoreNucleotide, EST and GSS.
Sequence Length 序列长度

显示格式说明

核酸数据库的搜索结果显示有Summary、FASTA、GenBank和GenBank(full)四种格式,利用搜索结果页面上的“显示”按钮可以在这四种格式之间相互切换。

Summary显示格式

如上图所示,Summary格式显示信息包括两部分信息:
1)核酸序列的CAC号。如“CNUS0000000001”等。
2)对序列的简单描述信息:序列来源物种、基因名/蛋白质名或者序列的生物功能。如“Schistosoma japonicum strain Anhui(wildtype) SJC_C000001, whole genome shotgun sequence.

FASTA显示格式

FASTA格式第一行显示为该序列的CAC号(保存后不保留)。

第二行为描述行,以“<”开关,后跟该序列的AC号,然后是对该序列的简单描述(与Summary描述信息相同)。

最后是该序列的详细序列数据。

GenBank格式和GenBank(full)格式

GenBank格式包含了序列的详细说明和注释信息,如序列CAC号、描述信息、关键词、参考信息、来源物种、提交者和评论等信息,有关详细的说明请见NCBI的GenBank Flat File Format。

数据下载流程

SDSPB的核酸数据库提供如下两种数据下载方式:

1)下载打包的核酸数据

点击核酸数据库页面的左侧栏中的“数据下载”,你可以FTP下载我们发布的所有核酸数据。

2)下载查询到的核酸序列数据

在查询结果的页面,选择“Summary”、“FASTA”、“GenBank”和“GenBank(full)”四种格式中的一种,然后点击“下载”按钮,即可下载你所查询到的结果中你选中的核酸序列数据,如果空选,则下载查询结果中当前页面上的全部核酸序列数据。

数据提交

核酸数据库的提交请参见:数据提交

附录

基因结构和功能的探索

自1900年孟德尔定律重新发现后,“基因怎样控制性状”的问题引起了许多遗传学家的浓厚兴趣。经过他们的努力,又出现了一批重要成果。

美国实验胚胎学家、遗传学家摩尔根(Thomas Hunt Morgan 1866~1945)和他的学生们于1908年前后开始利用果蝇作了大量的潜心研究。他在1910年通过果蝇眼色突变性状的遗传实验发现了伴性遗传现象,第一次揭示出一种或多种遗传特性与某一特定染色体的明确联系;他和他的同事们进一步通过大量的果蝇杂交实验又发现了遗传学的第三个基本规律——连锁互换规律,从而继承和发展了孟德尔的遗传学说。他们为遗传染色体学说最终提供了更充分、直接、可靠的证据, 并认为染色体是盂德尔式遗传性状传递机理的物质基础。1926年他的巨著《基因论》出版,从而建立了著名的基因学说,他还绘制了著名的果蝇基因位置图,首 次完成了当时最新的基因概念的描述,即基因以直线形式排列,它决定着一个特定的性状,而且能发生突变并随着染色体同源节段的互换而交换,它不仅是决定性状 的功能单位,而且是一个突变单位和交换单位。

摩尔根等人还认为,基因是遗传的功能单位,它能产生特定的表型效应;基因又是一个独立的结构单位。在同源染色体之间可以发生基因的互换,但交换只能发生在基因之间而不是发生在基因之内;基因可以发生突变,由一个等位形式变为另一等位形式,因而基因又是突变单位。这就是20世纪40年代以前流行的所谓“功能、交换、突变”三位一体的基因概念。这种认识把基因 与染色体联系起来,说明了基因的物质性,基因存在的场所及排列方式,基因从此就不再是一个抽象的概念了。当然这时人们仍然不了解基因的化学本质以及基因是如何控制生物性状的。

从20世纪40年代起,人们开始注意基因与性状的关系,即开始研究基因如何控制性状的问题,1941年,比得尔和塔特姆以红色链抱霉为材料进行生化遗传研究。他们通过诱变获得了多种氨基酸和维生素的大量营养缺陷突变体。这些突变基因不能产生某种酶,或只产生有缺陷的酶。例如,有一个突变体不能合成色氨酸是由于它不能产生色氨酸合成酶。于是,研究者提出了“一个基因一种酶”的假说,认为基因对性状的控制是通过基因控制酶的合成来实现的。这一假说在20世纪50年代得到充分验证,后来发现有些蛋白质不只由一种肽链组成,如血红蛋白和胰岛素,不同肽链由不同基因编码,因而1941年比德尔(G.W. Beadle 1903~)和塔特姆(E.L. Tatum 1909~1975)提出一个基因一个酶学说,证明基因通过它所控制的酶决定着代谢中生化反应步骤,进而决定生物性状。又提出了“一个基因一条多肽链”的假设。“一个基因一种酶”和“一个基因一条多肽链”理论的提出,大大促进了分子遗传学的发展,人们急切期望能搞清楚基因的化学结构。1949年鲍林(L.C.Pauling 1901~1994)与合作者在研究镰刀型细胞贫血症时推论基因决定着多肽链的氨基酸顺序,这样20世纪40年代末至20世纪50年代初,基因是通过控制合成特定蛋白质以控制代谢决定性状原理变得清晰起来。 虽然DNA在细胞核中很早就被发现,但证明其为遗传物质的决定性实验是1944年艾弗里(O.T. Avery 1877~1955)的肺炎双球菌的转化实验。他和麦卡蒂(M.McCarty 1911~)等人发表了关于“转化因子”的重要论文,首次用实验明确证实:DNA是遗传信息的载体。1952年赫尔希(A.D. Hershey)和蔡斯(M.M. Chase 1927~)进一步证明遗传物质是DNA而不是蛋白质。

这一实验不仅证明了DNA是遗传物质,揭示了遗传物质的化学本质,也大大推动了对核酸的研究。1953年,美国分子生物学家詹姆斯•沃森(J.D. Watson)和英国物理学家佛朗西斯•克里克(F.H.C. Crick)根据威尔金斯(M. Wilkins)和富兰克林( Rosalind Franklin 1920-1958!)所进行的X射线衍射分析,提出了著名的DNA双螺旋结构模型,进一步说明基因成分就是DNA,它控制着蛋白质合成。进一步的研究证明,基因就是DNA分子的一个区段。每个基因由成百上千个脱氧核苷酸组成,一个DNA分子可以包含几个乃至几千个基因。基因的化学本质和分子结构的确定具有划时代的意义,它为基因的复制、转录、表达和调控等方面的研究奠定了基础,开创了分子遗传学的新纪元。

基因本质的确定为分子遗传学发展拉开了序幕。1955年,美国分子生物学家本泽(Benzer)对大肠杆菌T4噬菌体作了深入研究,揭示了基因内部的精细结构,提出了基因的顺反子(Cistron)概念。 本泽把通过顺反实验而发现的遗传的功能单位称为顺反子,1个顺反子决定一条多肽链,顺反子即是基因。1个顺反子内存在着很多突变位点——突变子,突变子就是改变后可以产生突变型表型的最小单位。1个顺反子内部存在着很多重组子。重组子就是不能由重组分开的基本单位。理论上每一核苷酸对 的改变,就可导致一个突变的产生,每两个核苷酸对之间都可发生交换。这样看来,一个基因有多少核苷酸对就有多少突变子,就有多少重组子,突变子就等于重组 子。这个学说打破了过去关于基因是突变、重组、决定遗传性状的“三位一体”概念及基因是最小的不可分割的遗传单位的观点,从而认为基因为DNA分子上一段 核苷酸顺序,负责着遗传信息传递,一个基因内部仍可划分若干个起作用的小单位,即可区分成顺反子、突变子和重组子。一个作用子通常决定一种多肽链合成,一个基因包含一个或几个作用子。突变子指基因内突变的最小单位,而重组子为最小的重组合单位,只包含一对核苷酸。所有这些均是基因概念的伟大突破。   关于基因的本质确定后,人们又把研究视线转移到基因传递遗传信息的过程上。在20世纪50年代初人们已懂得基因与蛋白质间似乎存在着相应的联系,但基因中信息怎样传递到蛋白质上这一基因功能的关键课题在20世纪60年代至20世纪70年代才得以解决。从1961年开始,尼伦伯格(M.W. Nirenberg)和科拉纳(H.G. Khorana)等人逐步搞清了基因以核苷酸三联体为一组编码氨基酸,并在1967年破译了全部64个遗传密码,这样把核酸密码和蛋白质合成联系起来。然后,沃森和克里克等人提出的“中心法则”更加明确地揭示了生命活动的基本过程。1970年特明(H.M. Temin)以在劳斯肉瘤病毒内发现逆转录酶这一成就进一步发展和完善了“中心法则”,至此,遗传信息传递的过程已较清晰地展示在人们的眼前。过去人们对基因的功能理解是单一的即作为蛋白质合成的模板。但是1961年法国雅各布(F. Jacob)和莫诺(J.L. Monod)的研究成果,又大大扩大了人们关于基因功能的视野。他们在研究大肠杆菌乳糖代谢的调节机制中发现了有些基因不起合成蛋白质模板作用,只起调节或操纵作用,提出了操纵子学说。从此根据基因功能把基因分为结构基因、调节基因和操纵基因。

结构基因和调控基因:根据操纵子学说,并不是所有的基因都能为肽链进行编码。于是便把能为多肽链编码的基因称为结构基因,包括编码结构蛋白和酶蛋白的基因,也包括编码阻遏蛋白或激活蛋白的调节基因。有些基因只能转录而不能翻译,如tRNA基因和rRNA基因。还有些DNA区段,其本身并不进行转录,但对其邻近的结构基因的转录起控制作用,被称为启动基因和操纵基因。启动基因、操纵基因与其控制下的一系列结构基因组成一个功能单位叫做操纵子(operon)。就其功能而言,调节基因、操纵基因和启动基因都属于调控基因。这些基因的发现,大大拓宽了人们对基因功能及相互关系的认识。

断裂基因:20世纪70年代中期,法国生物化学家查姆帮(Chamobon)和波盖特(berget)在研究鸡卵清蛋白基因的表达中发现,细胞内的结构基因并非全部由编码序列组成,而是在编码序列中间插入无编码作用的碱基序列,这类基因被称为间隔或断裂基因。这一发现于1977年被英国的查弗里斯和荷兰的弗兰威尔在研究兔β-球蛋白结构时所证实。1978年,生化学家吉尔伯特(Walter Gilbert)提出基因是一个转录单位的设想,他认为基因是一个DNA序列的嵌合体,同时包含两个区段:一个区段将被表达并存在于成熟的mRNA中,称为“外显子”;一个区段由虽然也同时被表达,但将在成熟mRNA中被删除,称为“内含子”。近年来的研究发现,原核生物的基因序列一般是连续的,在一个基因的内部几乎不含“内含子”,而真核生物中绝大多数基因都是由不连续DNA序列组成的断裂基因。断裂基因的表达过程是:整个基因先由DNA转录成一条信息RNA前体(precursor mRNA),其中的内含序列会被一种称为“剪接体”的RNA/蛋白质复合物所切除,两端再相互连接成一条连续的核酸顺序,以形成成熟的mRNA。DNA分子断裂基因的存在为基因功能的展现赋予了更大的潜力。

重叠基因:长期以来,人们一直认为在同一段DNA序列内是不可能存在重叠的读码结构的。但是,1977年,维纳(Weiner)在研究Q0病毒的基因结构时,首先发现了基因的重叠现象。1978年,费尔(Feir)和桑戈尔(Sangor)在研究分析φX174噬菌体的核苷酸序列时,也发现由5375个核苷酸组成的单链DNA所包含的10个基因中有几个基因具有不同程度的重叠,但是这些重叠的基因具有不同的读码框架。以后在噬菌体G4、MS2和SV40中都发现了重叠基因。基因的重叠性使有限的DNA序列包含了更多的遗传信息,是生物对它的遗传物质经济而合理的利用。

假基因:1977 年,G•Jacp在对非洲爪赡5SrRNA基因簇的研究后提出了假基因的概念,这是一种核苷酸序列同其相应的正常功能基因基本相同,但却不能合成出功能蛋 白质的失活基因。假基因的发现是真核生物应用重组DNA技术和序列分析的结果。现已在大多数真核生物中发现了假基因,如Hb的假基因、干扰素、组蛋白、α球蛋白和β球蛋白、肌动蛋白及人的rRNA和tRNA基因均含有假基因。由于假基因不工作或无效工作,故有人认为假基因,相当人的痕迹器官,或作为后补基因。

移动基因:1950年,美国遗传学家麦克林托卡在玉米染色体组中首先发现移动基因。她发现玉米染色体上有一种称为Ds的控制基因会改变位置,同时引起染色体断裂,使其离开或插入部位邻近的基因失活或恢复恬性,从而导致玉米籽粒性状改变。这一研究当时并没有引起重视。20世纪60年代未,英国生物化学家夏皮罗和前西德生物化学家西特尔分别在细菌中发现一类称为插入顺序的可移动位置的遗传因子,20世纪70年代早期又发现细菌质粒的某些抗药性可 移动的基因,到20世纪80年代已发现这类基因至少有20种。20世纪90年代之前,科学家终于用实验证明了麦克林托卡的观点,移动基因不仅能在个体的染 色体组内移动,并能在个体间甚至种间移动。现已了解到真核细胞中普遍存在移动基因。基因移动性的发现不仅打破了遗传的DNA恒定论,而且对于认识肿瘤基因的形成和表达,以及生物演化中信息量的扩大等研究工作也将提供新的启示和线索。

普通核酸数据库使用演示

点击查看 - 普通核酸数据库使用演示视频