Tartalomelemzés


Fehérjeszekvenciák elemzése

Egy fehérjeszekvencia jellemzésekor az első kézenfekvő lépés szintén a homológiavizsgálat  » 2.5.4 . Legjobb esetben találhatunk egy, a vizsgált szekvenciával teljes hosszában homológ fehérjét, aminek a funkciója bizonyított. Sokszor azonban csak részleges és gyengébb homológiákat mutat ki a BLAST- vagy FASTA-elemzés, ráadásul a legkülönfélébb funkciójú fehérjékkel.
 
   Ez a látszólagos zavar származhat abból, hogy sok fehérje több, jól körülhatárolható funkcionális doménből épül fel. Az elemzés ilyenkor a vizsgált fehérje egy doménjéhez talál hasonlót, egy alapvetően más szerkezettel és funkcióval rendelkező fehérjében. Ilyenkor lehet a vizsgálat folytatása az, hogy utánanézünk, mit tud a homológ szakaszról, a feltételezett doménról, az irodalom. Ennél sokkal célravezetôbb, ha különböző domének és fehérje motívumok szekvenciáit tartalmazó adatbázisokkal dolgozunk tovább a SWISS-PROT vagy a TrEMBL helyett, arra keresve a választ, hogy milyen jellegzetes részekből épül fel a vizsgált szekvencia » 7. táblázat .

A sokszoros illesztés (multiple alignment) lehetőséget ad arra, hogy a különböző szervezetekből származó, azonos funkciójú fehérjék szekvenciáinak konzerválódott, funkcionálisan fontos és jellemző részleteit felismerjük » 2.6.

A PROSITE pattern adatbázis volt az első próbálkozások egyike, mely funkcionális motívumokat gyűjtött össze » 7. táblázat . Ezek egyáltalán nem azonosak a doménekkel. Egy "pattern" sokkal rövidebb és jól konzerválódott szekvenciarészletet ír le, meghatározott szabályok szerint » 4.6.3.   A konzerválódott részek lehetnek katalitikus helyek, prosztetikus csoport vagy fémion kötésében részt vevő aminosavak, diszulfid hidakat kialakító ciszteinek, ATP- vagy DNS-kötőhelyek, fehérje-fehérje kölcsönhatásban részt vevő motívumok és más funkcionális egységek.



Egy hisztidint tartalmazó aktív hely körüli illesztésből

a következő egyszerű pattern állítható elő: ATH(D,E).

Természetesen ennél több rokon szekvencia illesztése és alapos tesztelés szükséges egy jól használható pattern kialakításához. Ilyen például az E1-E2 ATPáz jellegzetes motívuma :

DKTGT(L,I)(T,I)      

azaz  DKTGT után L vagy I és utána T vagy I .

 A Na+/K+ ATPáz béta alegységénél már bonyolultabb a konszenzus szekvencia formulája : 

(F,Y,W)x2(F,Y,W)x(F,Y,W)
(D,N)x6(L,I,V,M)GRTx3W

   De ennél még összetettebb definíciók is léteznek. Természetesen ezek mind "tapasztalati képletek", melyeket az eddig talált konzervatív szekvenciákból alakítottak ki, de alkalmasak olyan változatok felismerésére is, amelyek nem fordultak elő a létrehozásukkor.

A patterneket tartalmazó adatbázis segítségével jóval érzékenyebb hasonlóságkeresésre (felismerésre) nyílik lehetőség, mint egy egyszerű illesztésnél » 2.7. ábra .

A jelenlegi PROSITE pattern adatbázis 1568 motívum leírását tartalmazza (Release 17.21, September 2002.), melyekhez részletes dokumentáció is tartozik » 4.6.3.  



  2.7. ábra:  A cs proteinszekvencia Profil elemzésének eredménye (A) 
                     és a PROSITE pattern adatbázis rekord a talált ATP/GTP-binding motívumról (B).
A
 

normalized raw        from -   to Profile | Description
! 41.908 631040 pos.  102 -   424 PF01078 | MG_CHELATASE
                                            Magnesium chelatase, subunit ChlI

!  1.0000     1 pos.  119 -   126 PS00017 | ATP_GTP_A 
                                            ATP/GTP-binding site motif A (P-loop)

 

B
 

ID   ATP_GTP_A; PATTERN.
AC   PS00017;
DT   APR-1990 (CREATED); APR-1990 (DATA UPDATE); NOV-1990 (INFO UPDATE).
DE   ATP/GTP-binding site motif A (P-loop).
PA   [AG]-x(4)-G-K-[ST].
CC   /TAXO-RANGE=ABEPV;
3D   1EFM; 1ETU; 1Q21; 2Q21; 4Q21; 5Q21; 6Q21;
DO   PDOC00017;
//

   Sokszor az ilyen bonyolult képletek alkalmazása is túl merev korlátokat szab és — főleg a rövid patternek — nem hordoznak kellő információt ahhoz, hogy valóban csak a funkcionálisan fontos részleteket azonosítsák. Az elemzéseknél sok az "álpozitív" találat.

A másik véglet, hogy ha — akár csak egyetlen pozícióban is — a képlet által  meg nem engedett aminosav fordul elő, akkor az összehasonlítás negatív eredménnyel zárul.

    A problémák megoldására fejlesztették ki a PROSITE profile adatbázist » 7. táblázat . A "profilok" sok rokon szekvencia illesztésének segítségével azt összegzik, hogy egy adott pozícióban milyen gyakorisággal fordul elő egy meghatározott aminosav.

   A gyakoribb előfordulás több pontértéket eredményez, így a konszenzushoz jobban hasonlító szekvencia több pontot kap. Nem kizáró ok az értékelésből, ha egy adott pozícióban egy adott aminosav még sosem fordult elő. Az egymást helyettesíteni képes aminosavak hasonló értékűek.

A profilokat úgy állították össze, hogy lehetőleg komplett doméneket jellemezzenek. A patternek és profilok keresése más programmal történik, de a PROSITE honlapon mindkét elemzésre van lehetőség

  A Pfam (Protein families database) adatbázis a proteindomének nagyon pontos leírásait tartalmazza. Alapvetően kétféle eszközt biztosít számunkra a Pfam honlap » 2.8.ábra és 7. táblázat .  


 2.8. ábra:  A Pfam adatbázis honlapja. A kereső ablakába beilleszve a kérdéses fehérjeszekvenciát a program kijelzi a rajta található feltételezett doméneket » 2.9. ábra
a2_8

  Egyrészt egy regisztrált SWISSPROT szekvencia esetén megtaláljuk itt a számítógéppel elkészített doménszerkezet leírását, másrészt megvizsgálhatjuk, hogy milyen feltételezett doméneket képes felismerni egy új szekvenciában a program » 2.9. ábra . 

   A szekvenciát itt is FASTA formátumban kell beküldeni. A domén rekordokból kiindulva lekérhetjük azokat a fehérjéket, melyekben az adott domén előfordul » 2.10. ábra .
 




A Pfam honlapja
(kulcsszavas keresés)
 A sigma-54 CBD (core binding domain) motívumot tartalmazó  szekvenciák a Pfam adatbázisban.  
BLASTP és Pfam



Az illesztéstől kapcsolat van a Pfam
(Protein Families)  adatbázishoz.
Megkapjuk a hasonló doménnel rendelkező fehérjéket.
Utána nézhetünk a többi domén szerepének.



Példa a BLAST, Pfam és ClustalW elemzések kombinált alkalmazására.




Más példa:


 2.9. ábra: Egy  paired box protein elemzése a Pfam honlapon. 
  A felsorolt domének rekordjai a linkek segítségével lekérhetők, akár a táblázatokban lévő szövegre, akár a fehérje ábrájára klikkelve. A PAX domén rekordjában, a "Domain organization" mezőben a "View Graphic" gombra kattintva megkapjuk az adatbankban megtalálható és PAX domént tartalmazó összes fehérje szerkezeti sémáját. Ez az eredmény látható a 2.10. ábrán .

Results for UserSeq

Trusted matches - domains scoring higher than the gathering threshold

Domain Start End Bits Evalue Alignment
PAX 4 128 299.30 4.7e-86 Align
homeobox 211 267 93.00 5.8e-24 Align

 

Matches to Pfam-B

Domain Start End Evalue Alignment
Pfam-B_674 137 210 2.6e-37 Align
Pfam-B_1110 269 353 1.2e-41 Align
Pfam-B_883 366 422 2.1e-26 Align

 
PAX: 'Paired box' domain Pfam-B_674homeobox: Homeobox domain Pfam-B_1110sPfam-B_883
PAX 4-128
homeobox 211-267
 
 

Alignments of Pfam-A domains to HMMs

Format for fetching alignments to seed

Alignment of PAX vs UserSeq/4-128

                   *->gqgrvnqLGGvFvnGRPLPnaiRqkivElAhsGvRPCdisRqLrvsh
                      ++++vnqLGGvFvnGRPLP+++RqkivElAhsG+RPCdisR+L+vs+
     UserSeq     4    SHSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 50   

                   GCvsKiLaRyqEtGsirPgviGGsKPkvatPevvkkieeykrenPgiFaW
                   GCvsKiL+Ry+EtGsirP++iGGsKP+vatPevv+ki++ykre+P+iFaW
     UserSeq    51 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAW 100  

                   EiRdkLlkegvcdkdnvPsvssisRilR<-*
                   EiRd+Ll+egvc++dn+Psvssi+R+lR   
     UserSeq   101 EIRDRLLSEGVCTNDNIPSVSSINRVLR    128  

Alignment of homeobox vs UserSeq/211-267

                   *->RrkRTaftkeQLleLEkeFarnkYlsrqeReeLAqsLgLterqVKiW
                       r RT+ft+eQ+++LEkeF+r++Y+++  Re+LA++++L+e ++++W
     UserSeq   211    QRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQVW 257  

                   FQNRRmKwKR<-*
                   F NRR+Kw+R   
     UserSeq   258 FSNRRAKWRR    267  


Alignments of Pfam-B domains to best-matching Pfam-B sequence

Format for fetching alignments to Pfam-B families: 

Query UserSeq/137-210 matching Pfam-B_674

     PAX6_RAT 137 MGADGMYDKLRMLNGQTGSWGTRPGWYPGTSVPGQPTQDGCQQQEGQGEN 186
                  MGADGMYDKLRMLNGQTGSWGTRPGWYPGTSVPGQPTQDGCQQQEG GEN
      UserSeq 137 MGADGMYDKLRMLNGQTGSWGTRPGWYPGTSVPGQPTQDGCQQQEGGGEN 186

     PAX6_RAT 187 TNSISSNGEDSDEAQMRLQLKRKL 210
                  TNSISSNGEDSDEAQMRLQLKRKL
      UserSeq 187 TNSISSNGEDSDEAQMRLQLKRKL 210

Query UserSeq/269-353 matching Pfam-B_1110

      O42348 283 EKLRNQRRQASNTPSHIPISSSFSTSVYQPIPQPTTPVSSFTSGSMLGRT 332
                 EKLRNQRRQASNTPSHIPISSSFSTSVYQPIPQPTTPVSSFTSGSMLGRT
     UserSeq 269 EKLRNQRRQASNTPSHIPISSSFSTSVYQPIPQPTTPVSSFTSGSMLGRT 318

      O42348 333 DTALTNTYSALPPMPSFTMANNLPMQPPVPSQTSS 367
                 DTALTNTYSALPPMPSFTMANNLPMQPPVPSQTSS
     UserSeq 319 DTALTNTYSALPPMPSFTMANNLPMQPPVPSQTSS 353

Query UserSeq/366-422 matching Pfam-B_883

      O42292 377 GRSYDTYTPPHMQAHMNSQSMATSGTTSTGLISPGVSVPVQVPGSEPDMS 426
                 GRSYDTYTPPHMQ HMNSQ M TSGTTSTGLISPGVSVPVQVPGSEPDMS
     UserSeq 366 GRSYDTYTPPHMQTHMNSQPMGTSGTTSTGLISPGVSVPVQVPGSEPDMS 415

      O42292 427 QYWPRLQ 433
                 QYWPRLQ
     UserSeq 416 QYWPRLQ 422


If you think there is anything wrong with this script, please contact Pfam
 

2.10. ábra: PAX- (pair box) domént tartalmazó fehérjék a Pfam adatbázisból.
Az egyes doménekre kattintva megkapjuk a megfelelő Pfam adatbázis rekordot. Ebből kiindulva kiválogathatjuk azokat a fehérjéket, melyek tartalmazzák az adott domént  » 2.9.ábra .

All proteins with a PAX domain 

Pfam-A domains are large boxes; small three-colored boxes are Pfam-B domains.
Mouseover to see domain descriptions; click on box to enter family page.
(This page uses javascript for the mouseover functionality. Make sure you have javascript enabled in your browser)
 

GSBD_DROME   [Drosophila melanogaster (fruit fly)] gooseberry distal protein (bsh9)

s PAX: 'Paired box' domains homeobox: Homeobox domains [427 residues]

 

GSBP_DROME   [Drosophila melanogaster (fruit fly)] gooseberry proximal protein (bsh4)

sPAX: 'Paired box' domainshomeobox: Homeobox domains [449 residues]
 
 

PAX3_HUMAN   [Homo sapiens (human)] paired box protein pax-3 (hup2)

Pfam-B_4386PAX: 'Paired box' domainsPfam-B_3994shomeobox: Homeobox domainsPfam-B_4672Pfam-B_6392s [479 residues]
 
 

PAX1_MOUSE   [Mus musculus (mouse)] paired box protein pax-1

sPAX: 'Paired box' domainsPfam-B_8811sPfam-B_11639s [361 residues]
 
 

PAX2_HUMAN   [Homo sapiens (human)] paired box protein pax-2
 

sPAX: 'Paired box' domainsPfam-B_36465Pfam-B_585sPfam-B_1740Pfam-B_1739Pfam-B_1738s [416 residues]
 

PAX6_BRARE   [Brachydanio rerio (zebrafish) (zebra danio)] paired box protein pax[zf-a] (pax-6)

sPAX: 'Paired box' domainsPfam-B_674homeobox: Homeobox domainsPfam-B_1110Pfam-B_883 [437 residues]



   A BLOCKS és a PRINTS két másik motívum-adatbázis, melyben számos rövid, hézag nélkül egymáshoz illeszthető fragment képviseli a fehérje- vagy doméncsaládokat » 7. táblázat .  A Block Searcher, Get Blocks and Block Maker protein- vagy DNS-szekvenciából kiindulva keresi a kérdéses szekvencián a jellegzetes blokkokat vagy lekér blokkokat, illetve új blokkokat képes készíteni. A PRINTS dokumentációja a PROSITE-hoz hasonlóan nagyon jó. Sok rekord a PROSITE adatbázisból ered.

    Az SBASE 7.0 összesen 237.937 strukturális vagy funkcionális fehérjerészletet tartalmazó adatbázis, melyet a gödöllői Mezőgazdasági Biotechnológiai Központban tartanak fenn, az EMBnet keretében. Az adatbázissal szemben BLAST-keresést végezhetünk és lekérhetjük a különböző domének adatlapjait » 7. táblázat .
 
    Hiába van nagy átfedés az egyes adatbázisok között, érdemes mindegyik segítségével megvizsgálni a kérdéses fehérjeszekvenciát. A szignál transzdukcióval kapcsolatos doméneket inkább a PROSITE profiles vagy a SMART, az extracelluláris

doméneket a Pfam, míg a PROSITE patterns az egyes enzimcsaládokat képes azonosítani, az aktív helyre jellemző motívum alapján.

  Végül meg kell említeni néhány lehetőséget, melyek transzmembrán doméneket valószínűsítenek egy fehérjeszekvenciában. A TMHMM , ahogy a neve is sejteti rejtett Markov-modellekkel (HMM) dolgozik. További lehetőséget kínál a TopPred 2 és a DAS program » 7. táblázat .

Ezekre is igaz az, hogy érdemes a kérdéses szekvenciát  több programmal is elemezni, mert előfordulhat, hogy teljesen eltérő végeredményre jutunk. Természetesen az ellentmondások feloldása csak kísérletek segítségével lehetséges.
 
    A SignalP szerver a szignálpeptidek lehasítását meghatározó szekvencia meglétét és helyét valószínűsíti. Gram-pozitív és Gram-negatív baktériumokból és eukariótákból származó fehérjék analízisére egyaránt használható. A hasítóhely előrejelzése mellett szignálpeptid felismerésre is képes  » 7. táblázat .