跳转到主内容
Waters China

蛋白质组学数据分析软件 Progenesis QI 和 PLGS 中各种 fasta 格式的选项有什么区别?- WKB201722

环境

  • ProteinLynx Global Server (PLGS)
  • 蛋白质组学数据分析软件 Progenesis QI

答案

在 PLGS 的新建数据库和编辑数据库选项菜单中,需要从选项列表中选择 Fasta 格式。

clipboard_edeb6c2ac8f65e5308d4e32269ec68a6c.png

同样,在蛋白质组学数据分析软件 Progenesis QI 的 Identify Peptides(识别肽)选项卡中,需要选择 fasta 文件和该 fasta 文件的格式。

这些选项之间有什么区别,对于本应为标准氨基酸序列库的文件格式,为什么有几个选项?

所有选项都遵循基本的 fasta 格式;区别在于它们在 fasta 文件每个序列的标题中排列数据的方式。FASTA 格式由一个描述行组成,以“>”符号开头,后面是多行,其中包含氨基酸字符序列(包含在 60 个字符块中)。“>”符号后面的内容和序列前面的内容可能在内容及其顺序上有所不同。其中许多内容使用管道符号“|”、冒号或分号来分隔字段。PLGS 和蛋白质组学数据分析软件 Progenesis QI 都需要“知道”正在使用哪个版本的 fasta 格式,以便从标题中正确读取有关每个标识的信息并将其显示在结果中。如果您选择的 fasta 变化格式不适合您使用的 fasta 文件,结果可能看起来有点奇怪。PLGS3.0.3 库导入/编辑器工具有一个测试按钮,将 fasta 文件导入序列库时,您可以使用该按钮确认是否选择了正确的 fasta 格式。

一些常用的 fasta 变化格式说明:

标准 FASTA

描述行:NAME|ACCESSION_NUMBER|DATABANK_OF_ORIGIN: DESCRIPTION

示例:

>IF3_AQUAE|O67653|SPT: Translation initiation factor IF-3.

MSKLKEYRVNRQIRAKECRLIDENGQQIGIVPIEEALKIAEEKGLDLVEIAPQAKPPVCK

IMDYGKFKYELKKKEREARKKQREHQIEVKDIRMKVRIDEHDLQVKLKHMREFLEEGDKV

KVWLRFRGRENIYPELGKKLAERIINELSDIAEVEVQPKKEGNFMIFVLAPKRKK

 

FASTA NCBI_EXPASY_STANDARD

这种格式有两种不同的形式:2 管道版本和如下所示的 4 管道版本。这种特定数据库格式的描述行没有进行任何方式的缩短。PLGS 和 PQIP 中的 Fasta NCBI EXPASY 标准选项接受 2 管道和 4 管道版本。

描述行(2 管道):>NAME|ACCESSION_NUMBER|DATABANK_OF_ORIGIN: DESCRIPTION

描述行(4 管道):>gi|NUMBER|DATABANK_OF_ORIGIN|ACCESSION_NUMBER|LOCUS_OR_NAME DESCRIPTION

 

2 管道版本示例:

>SP|PLASM_FALCI|(P08978) metal binding protein (DHHC domain) [Plasmodium falciparum 3D7]

MIIWCHIKCLCTNPGFLNETFHFVSDNTTEYDNNVQMCKKCNLLKIKRSHHCSVCDKCIMKMDHHCFWIN

SCVGLYNQKYFILLNFVRTKGKYNTNIIKHL

 

4 管道版本示例:

>gi|3845261|gb|AAC71934.1| metal binding protein (DHHC domain) [Plasmodium falciparum 3D7]

MIIWCHIKCLCTNPGFLNETFHFVSDNTTEYDNNVQMCKKCNLLKIKRSHHCSVCDKCIMKMDHHCFWIN

SCVGLYNQKYFILLNFVRTKGKYNTNIIKHL

 

FASTA STANDARD_SPACED

序列标头中没有管道符号。描述行:>NAME ACCESSION_NUMBER DESCRIPTION

示例:

>IF3_AQUAE (O67653) Translation initiation factor IF-3.

MSKLKEYRVNRQIRAKECRLIDENGQQIGIVPIEEALKIAEEKGLDLVEIAPQAKPPVCK

IMDYGKFKYELKKKEREARKKQREHQIEVKDIRMKVRIDEHDLQVKLKHMREFLEEGDKV

KVWLRFRGRENIYPELGKKLAERIINELSDIAEVEVQPKKEGNFMIFVLAPKRKK

 

FASTA Uniprot

下面显示了一个示例 Uniprot 条目。在此示例中,一个编号 (Q4U9M9) 后跟一个管道符号“|”,然后是条目名称 (104K_THEAN) 和描述

>Q4U9M9|104K_THEAN 104 kDamicroneme-rhoptry antigen precursor (p104) - Theileriaannulata

MKFLVLLFNILCLFPILGADELVMSPIPTTDVQPKVTFDINSEVSSGPLYLNPVEMAGVK

YLQLQRQPGVQVHKVVEGDIVIWENEEMPLYTCAIVTQNEVPYMAYVELLEDPDLIFFLK

EGDQWAPIPEDQYLARLQQLRQQIHTESFFSLNLSFQHENYKYEMVSSFQHSIKMVVFTP

KNGHICKMVYDKNIRIFKALYNEYVTSVIGFFRGLKLLLLNIFVIDDRGMIGNKYFQLLD

DKYAPISVQGYVATIPKLKDFAEPYHPIILDISDIDYVNFYLGDATYHDPGFKIVPKTPQ

CITKVVDGNEVIYESSNPSVECVYKVTYYDKKNESMLRLDLNHSPPSYTSYYAKREGVWV

TSTYIDLEEKIEELQDHRSTELDVMFMSDKDLNVVPLTNGNLEYFMVTPKPHRDIIIVFD

GSEVLWYYEGLENHLVCTWIYVTEGAPRLVHLRVKDRIPQNTDIYMVKFGEYWVRISKTQ

YTQEIKKLIKKSKKKLPSIEEEDSDKHGGPPKGPEPPTGPGHSSSESKEHEDSKESKEPK

EHGSPKETKEGEVTKKPGPAKEHKPSKIPVYTKRPEFPKKSKSPKRPESPKSPKRPVSPQ

RPVSPKSPKRPESLDIPKSPKRPESPKSPKRPVSPQRPVSPRRPESPKSPKSPKSPKSPK

VPFDPKFKEKLYDSYLDKAAKTKETVTLPPVLPTDESFTHTPIGEPTAEQPDDIEPIEES

VFIKETGILTEEVKTEDIHSETGEPEEPKRPDSPTKHSPKPTGTHPSMPKKRRRSDGLAL

STTDLESEAGRILRDPTGKIVTMKRSKSFDDLTTVREKEHMGAEIRKIVVDDDGTEADDE

DTHPSKEKHLSTVRRRRPRPKKSSKSSKPRKPDSAFVPSIIFIFLVSLIVGIL

 

FASTA LONG_DESCRIPTION

描述行:>NAME DESCRIPTION

当描述很长时使用这种格式。在 ProteinLynx 屏幕中,描述会被截断,以适应查看区域。

示例:

>gp:AL034396_1 PID:5441319 Human DNA sequence from clone 1158B12 on chromosome Xp11.21-11.4 Contains the ZXDA gene for X-linked duplicated Zinc finger A, and MYCL1 (v-myc avian myelocytomatosis viral oncogenehomolog 1, lung carcinoma derived) and KRT8 (Keratin 8, Cytokeratin 8, CYK8, Keratin type II skeletal 8) pseudogenes. Contains ESTs, an STS, GSSs and a CpG island, complete sequence; match: proteins: Sw:P98168 Sw:P98169. (gb:AL034396)

MEIPKLLPARGTLQGGGGGGIPAGGGRVHRGPDSPAGQVPTRRLLLPRGPQDGGPGRRRE

EASTASRGPGPSLFAPRPHQPSGGGDDFFLVLLDPVGGDVETAGSGQAAGPVLREEAKAG

PGLQGDESGANPAGCSAQGPHCLSAVPTPAPISAPGPAAAFAGTVTIHNQDLLLRFENGV

LTLATPPPHAWEPGAAPAQQPRCLIAPQAGFPQAAHPGDCPELRSDLLLAEPAEPAPAPA

PQEEAEGLAAALGPRGLLGSGPGVVLYLCPEALCGQTFAKKHQLKMHLLTHSSSQGQRPF

KCPLGGCGWTFTTSYKLKRHLQSHDKLRPFGCPAEGCGKSFTTVYNLKAHMKGHEQENSF

KCEVCEESFPTQAKLGAHQRSHFEPERPYQCAFSGCKKTFITVSALFSHNRAHFREQELF

SCSFPGCSKQYDKACRLKIHLRSHTGERPFLCDFDGCGWNFTSMSKLLRHKRKHDDDRRF

MCPVEGCGKSFTRAEHLKGHSITHLGTKPFVCPVAGCCARFSARSSLYIHSKKHLQDVDT

WKSRCPISSCNKLFTSKHSMKTHMVKRHKVGQDLLAQLEAANSLTPSSELTSQRQNDLSD

AEIVSLFSDVPDSTSAALLDTALVNSGILTIDVASVSSTLAGHLPANNNNSVGQAVDPPS

LMATSDPPQSLDTSLFFGTAATGFQQSSLNMDEVSSVSVGPLGSLDSLAMKNSSPEPQAL

TPSSKLTVDTDTLTPSSTLCENSVSELLTPAKAEWSVHPNSDFFGQEGETQFGFPNAAGN

HGSQKERNLITVTGSSFLV

附加信息

id201722, SUPPLGS