蛋白质组学数据分析软件 Progenesis QI 和 PLGS 中各种 fasta 格式的选项有什么区别？- WKB201722

最后更新
另存为PDF

文章编号: 201722点击此处访问英文版本文章

环境

ProteinLynx Global Server (PLGS)
蛋白质组学数据分析软件 Progenesis QI

答案

在 PLGS 的新建数据库和编辑数据库选项菜单中，需要从选项列表中选择 Fasta 格式。

同样，在蛋白质组学数据分析软件 Progenesis QI 的 Identify Peptides（识别肽）选项卡中，需要选择 fasta 文件和该 fasta 文件的格式。

这些选项之间有什么区别，对于本应为标准氨基酸序列库的文件格式，为什么有几个选项？

所有选项都遵循基本的 fasta 格式；区别在于它们在 fasta 文件每个序列的标题中排列数据的方式。FASTA 格式由一个描述行组成，以“>”符号开头，后面是多行，其中包含氨基酸字符序列（包含在 60 个字符块中）。“>”符号后面的内容和序列前面的内容可能在内容及其顺序上有所不同。其中许多内容使用管道符号“|”、冒号或分号来分隔字段。PLGS 和蛋白质组学数据分析软件 Progenesis QI 都需要“知道”正在使用哪个版本的 fasta 格式，以便从标题中正确读取有关每个标识的信息并将其显示在结果中。如果您选择的 fasta 变化格式不适合您使用的 fasta 文件，结果可能看起来有点奇怪。PLGS3.0.3 库导入/编辑器工具有一个测试按钮，将 fasta 文件导入序列库时，您可以使用该按钮确认是否选择了正确的 fasta 格式。

一些常用的 fasta 变化格式说明：

标准 FASTA

描述行：NAME|ACCESSION_NUMBER|DATABANK_OF_ORIGIN: DESCRIPTION

示例：

>IF3_AQUAE|O67653|SPT: Translation initiation factor IF-3.

MSKLKEYRVNRQIRAKECRLIDENGQQIGIVPIEEALKIAEEKGLDLVEIAPQAKPPVCK

IMDYGKFKYELKKKEREARKKQREHQIEVKDIRMKVRIDEHDLQVKLKHMREFLEEGDKV

KVWLRFRGRENIYPELGKKLAERIINELSDIAEVEVQPKKEGNFMIFVLAPKRKK

FASTA NCBI_EXPASY_STANDARD

这种格式有两种不同的形式：2 管道版本和如下所示的 4 管道版本。这种特定数据库格式的描述行没有进行任何方式的缩短。PLGS 和 PQIP 中的 Fasta NCBI EXPASY 标准选项接受 2 管道和 4 管道版本。

描述行（2 管道）：>NAME|ACCESSION_NUMBER|DATABANK_OF_ORIGIN: DESCRIPTION

描述行（4 管道）：>gi|NUMBER|DATABANK_OF_ORIGIN|ACCESSION_NUMBER|LOCUS_OR_NAME DESCRIPTION

2 管道版本示例：

>SP|PLASM_FALCI|(P08978) metal binding protein (DHHC domain) [Plasmodium falciparum 3D7]

MIIWCHIKCLCTNPGFLNETFHFVSDNTTEYDNNVQMCKKCNLLKIKRSHHCSVCDKCIMKMDHHCFWIN

SCVGLYNQKYFILLNFVRTKGKYNTNIIKHL

4 管道版本示例：

>gi|3845261|gb|AAC71934.1| metal binding protein (DHHC domain) [Plasmodium falciparum 3D7]

MIIWCHIKCLCTNPGFLNETFHFVSDNTTEYDNNVQMCKKCNLLKIKRSHHCSVCDKCIMKMDHHCFWIN

SCVGLYNQKYFILLNFVRTKGKYNTNIIKHL

FASTA STANDARD_SPACED

序列标头中没有管道符号。描述行：>NAME ACCESSION_NUMBER DESCRIPTION

示例：

>IF3_AQUAE (O67653) Translation initiation factor IF-3.

MSKLKEYRVNRQIRAKECRLIDENGQQIGIVPIEEALKIAEEKGLDLVEIAPQAKPPVCK

IMDYGKFKYELKKKEREARKKQREHQIEVKDIRMKVRIDEHDLQVKLKHMREFLEEGDKV

KVWLRFRGRENIYPELGKKLAERIINELSDIAEVEVQPKKEGNFMIFVLAPKRKK

FASTA Uniprot

下面显示了一个示例 Uniprot 条目。在此示例中，一个编号 (Q4U9M9) 后跟一个管道符号“|”，然后是条目名称 (104K_THEAN) 和描述

>Q4U9M9|104K_THEAN 104 kDamicroneme-rhoptry antigen precursor (p104) - Theileriaannulata

MKFLVLLFNILCLFPILGADELVMSPIPTTDVQPKVTFDINSEVSSGPLYLNPVEMAGVK

YLQLQRQPGVQVHKVVEGDIVIWENEEMPLYTCAIVTQNEVPYMAYVELLEDPDLIFFLK

EGDQWAPIPEDQYLARLQQLRQQIHTESFFSLNLSFQHENYKYEMVSSFQHSIKMVVFTP

KNGHICKMVYDKNIRIFKALYNEYVTSVIGFFRGLKLLLLNIFVIDDRGMIGNKYFQLLD

DKYAPISVQGYVATIPKLKDFAEPYHPIILDISDIDYVNFYLGDATYHDPGFKIVPKTPQ

CITKVVDGNEVIYESSNPSVECVYKVTYYDKKNESMLRLDLNHSPPSYTSYYAKREGVWV

TSTYIDLEEKIEELQDHRSTELDVMFMSDKDLNVVPLTNGNLEYFMVTPKPHRDIIIVFD

GSEVLWYYEGLENHLVCTWIYVTEGAPRLVHLRVKDRIPQNTDIYMVKFGEYWVRISKTQ

YTQEIKKLIKKSKKKLPSIEEEDSDKHGGPPKGPEPPTGPGHSSSESKEHEDSKESKEPK

EHGSPKETKEGEVTKKPGPAKEHKPSKIPVYTKRPEFPKKSKSPKRPESPKSPKRPVSPQ

RPVSPKSPKRPESLDIPKSPKRPESPKSPKRPVSPQRPVSPRRPESPKSPKSPKSPKSPK

VPFDPKFKEKLYDSYLDKAAKTKETVTLPPVLPTDESFTHTPIGEPTAEQPDDIEPIEES

VFIKETGILTEEVKTEDIHSETGEPEEPKRPDSPTKHSPKPTGTHPSMPKKRRRSDGLAL

STTDLESEAGRILRDPTGKIVTMKRSKSFDDLTTVREKEHMGAEIRKIVVDDDGTEADDE

DTHPSKEKHLSTVRRRRPRPKKSSKSSKPRKPDSAFVPSIIFIFLVSLIVGIL

FASTA LONG_DESCRIPTION

描述行：>NAME DESCRIPTION

当描述很长时使用这种格式。在 ProteinLynx 屏幕中，描述会被截断，以适应查看区域。

示例：

>gp:AL034396_1 PID:5441319 Human DNA sequence from clone 1158B12 on chromosome Xp11.21-11.4 Contains the ZXDA gene for X-linked duplicated Zinc finger A, and MYCL1 (v-myc avian myelocytomatosis viral oncogenehomolog 1, lung carcinoma derived) and KRT8 (Keratin 8, Cytokeratin 8, CYK8, Keratin type II skeletal 8) pseudogenes. Contains ESTs, an STS, GSSs and a CpG island, complete sequence; match: proteins: Sw:P98168 Sw:P98169. (gb:AL034396)

MEIPKLLPARGTLQGGGGGGIPAGGGRVHRGPDSPAGQVPTRRLLLPRGPQDGGPGRRRE

EASTASRGPGPSLFAPRPHQPSGGGDDFFLVLLDPVGGDVETAGSGQAAGPVLREEAKAG

PGLQGDESGANPAGCSAQGPHCLSAVPTPAPISAPGPAAAFAGTVTIHNQDLLLRFENGV

LTLATPPPHAWEPGAAPAQQPRCLIAPQAGFPQAAHPGDCPELRSDLLLAEPAEPAPAPA

PQEEAEGLAAALGPRGLLGSGPGVVLYLCPEALCGQTFAKKHQLKMHLLTHSSSQGQRPF

KCPLGGCGWTFTTSYKLKRHLQSHDKLRPFGCPAEGCGKSFTTVYNLKAHMKGHEQENSF

KCEVCEESFPTQAKLGAHQRSHFEPERPYQCAFSGCKKTFITVSALFSHNRAHFREQELF

SCSFPGCSKQYDKACRLKIHLRSHTGERPFLCDFDGCGWNFTSMSKLLRHKRKHDDDRRF

MCPVEGCGKSFTRAEHLKGHSITHLGTKPFVCPVAGCCARFSARSSLYIHSKKHLQDVDT

WKSRCPISSCNKLFTSKHSMKTHMVKRHKVGQDLLAQLEAANSLTPSSELTSQRQNDLSD

AEIVSLFSDVPDSTSAALLDTALVNSGILTIDVASVSSTLAGHLPANNNNSVGQAVDPPS

LMATSDPPQSLDTSLFFGTAATGFQQSSLNMDEVSSVSVGPLGSLDSLAMKNSSPEPQAL

TPSSKLTVDTDTLTPSSTLCENSVSELLTPAKAEWSVHPNSDFFGQEGETQFGFPNAAGN

HGSQKERNLITVTGSSFLV

附加信息

id201722, SUPPLGS