UniProt是Universal Protein的英文缩写,是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、TrEMBL和 PIR-PSD三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。
UniProtKB全称UniProt Knowledgebase(UniProt知识库)它是经过专家校验的数据集,主要由两部分组成:UniProtKB/Swiss-Prot(包含检查过的、手工注释的条目)和UniProtKB/TrEMBL(包含未校验的、自动注释的条目),在2010年8月是10日发布的版本中,UniProtKB/Swiss-Prot包含519,348条注释条目,UniProtKB/TrEMBL包含11,636,205条注释条目。
UniProtKB/Swiss-Prot
高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库。
UniProtKB/TrEMBL
该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。他能注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。
UniParc
UniParc全称是UniProt Archive,他是一个综合性的非冗余数据库,他包含了所有主要的、公开的数据库的蛋白质序列。 由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次。无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。该数据库只含有蛋白质的序列信息,而没有注释数据。