作业帮 > 综合 > 作业

什么是Genbank,它的主要用途是什么?

来源:学生作业帮 编辑:拍题作业网作业帮 分类:综合作业 时间:2024/04/29 06:56:11
什么是Genbank,它的主要用途是什么?
GenBank序列数据库
GenBank是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列.每个纪录代表了一个单独的、连续的、带有注释的DNA或RNA片段.目前GenBank中所有的纪录均来自于最初作者向DNA数据库的直接提交.
蛋白质数据库:
60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是《蛋白质序列与结构图册》.这一蛋白质数据库后来成为蛋白质信息资源PIR.
核苷酸数据库:
1982年在欧洲分子生物学实验室(EMBL)诞生,随即就开始了一个数据库爆炸的时代.后来NIH搞了GenBank.日本的DNA数据库(DDBJ)加入了数据收集的合作.国际DNA序列数据库合作计划.规定了数据记录和更新的规则.
国际核苷酸序列数据库合作成员GenBank--DDBJ--EMBL.GenBank指的是DDBJ/EMBL/GenBank
编码序列(CDS):
大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的.这种方法需要进行大量的实验、计算以及相似性比对工作.他也赋予一个产物名称,或者功能说明(通过主观的对相似性比对的分析).
数据库的格式与内容:
数据库被用来存放原始数据和一系列附加的信息.不同的检索工具和程序利用了这些信息中的不同部分.
FASTA 格式:广泛应用于许多分子生物学软件包之中.作为最简单的情况,大于号(>)表示一个新文件的开始.通常60个字符一行.
>gb|AF150991|AF150991 Trichoplusia ni single capsid nuclear polyhedrosis virus.ensures greater occlusion body stabilityproduct--p10 / p10 protein
aatcgtttaacatatcgcgatctacctagaaatattgccatttttcacaataaaaaagagagaaagccatctctttggtggaaggcgaatacgaaatacacagatttagattggacggctccgttgattgtccctcaataaaattacatataataagtataaatccatttatcgtataaatattaaaaaaaattaaaacatg
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.complementproduct--e66-like protein (partial DNA sequence)
ctaatgtacgtatggaatgctggcaactatcaacgtctcagcaaaaatctcgaacccagtgtgatcaactactacggcgatgttaaaccttggcaaatcgtggacgataataaaatattgtacatggatctgttcatttggaagtattttagaatgctaatggaaagagacatgaaataagtattatacgcgaatacattatg
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.complementproduct--p13
tggatcttttcgttcgaaacgagccgtaatattttgctaataattaattcatgccacacccaaattatattatatgagataacattgtaacttcatgacatcatttgtttgaaaaggtccgggcaacatttgataaattacaaaaaagtgcgggcaaagtttgattggtattcgcgtacaattgttaaggagatatcggaatg
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.product--Orf50-like protein
attaaaaatatgatgcaataaaaaaaatgatgtcatctagttgacgttgctttggcgcaaattattttggtaattttccatgcatatttcgttatgatatcatcgttatatacgtgattgtctaaaatcgatctttgcggacaattttatatcaaaatgccggcaaatatcgattaactgaataagcaagcgtaccatcatg
ASN.1
Genbank flatfile:
头部:
始于LOCUS行---LOCUS名称,序列长度,生物分子的类型(ss或ds DNA,RNA,tRNA,rRNA,mRNA),GenBank分类码,数据公开日期
DEFINITION行---总结纪录的生物意义.
检索号---是从数据库中检索一个记录的主要关键词.格式:1+5或2+6.所有的GenBank记录都只有一个单独的ACCESSION行.
NID---行表示核苷酸序列的gi号码(geninfo identifier).一个gi号码对应于一个核苷酸序列.当序列改变时,gi号也改变,但检索号不变.
KEYWORDS---
SOURCS---
ORGANISM---
REFERENCE---
AUTHORS---
TITLE---
JOURNAL---