Tartalomelemzés
Fehérjeszekvenciák
elemzése
Egy fehérjeszekvencia jellemzésekor az első kézenfekvő
lépés szintén a homológiavizsgálat
» 2.5.4
. Legjobb esetben találhatunk egy, a vizsgált szekvenciával
teljes hosszában homológ fehérjét, aminek
a funkciója bizonyított. Sokszor azonban csak részleges
és gyengébb homológiákat mutat ki a BLAST- vagy
FASTA-elemzés, ráadásul a legkülönfélébb
funkciójú fehérjékkel.
Ez a látszólagos zavar származhat
abból, hogy sok fehérje több, jól körülhatárolható
funkcionális doménből épül fel. Az elemzés
ilyenkor a vizsgált fehérje egy doménjéhez
talál hasonlót, egy alapvetően más szerkezettel
és funkcióval rendelkező fehérjében. Ilyenkor
lehet a vizsgálat folytatása az, hogy utánanézünk,
mit tud a homológ szakaszról, a feltételezett doménról,
az irodalom. Ennél sokkal célravezetôbb, ha különböző
domének és fehérje motívumok szekvenciáit
tartalmazó adatbázisokkal dolgozunk tovább a SWISS-PROT
vagy a TrEMBL helyett, arra keresve a választ, hogy milyen jellegzetes
részekből épül fel a vizsgált szekvencia
» 7. táblázat
.
A sokszoros illesztés (multiple alignment) lehetőséget
ad arra, hogy a különböző szervezetekből származó,
azonos funkciójú fehérjék szekvenciáinak
konzerválódott, funkcionálisan fontos és jellemző
részleteit felismerjük »
2.6.
A PROSITE pattern adatbázis volt az első próbálkozások
egyike, mely funkcionális motívumokat gyűjtött
össze » 7. táblázat
. Ezek egyáltalán nem azonosak a doménekkel. Egy
" pattern" sokkal rövidebb és jól konzerválódott
szekvenciarészletet ír le, meghatározott szabályok
szerint »
4.6.3.
A konzerválódott részek lehetnek katalitikus
helyek, prosztetikus csoport vagy fémion kötésében
részt vevő aminosavak, diszulfid hidakat kialakító
ciszteinek, ATP- vagy DNS-kötőhelyek, fehérje-fehérje
kölcsönhatásban részt vevő motívumok
és más funkcionális egységek.
|
|
Egy hisztidint tartalmazó aktív hely körüli illesztésből
a következő egyszerű pattern állítható
elő: ATH(D,E).
Természetesen ennél több rokon szekvencia illesztése és
alapos tesztelés szükséges egy jól használható
pattern kialakításához. Ilyen például
az E1-E2 ATPáz jellegzetes motívuma :
DKTGT(L,I)(T,I)
azaz DKTGT után L vagy I és utána
T vagy I .
A Na+/K+ ATPáz béta alegységénél
már bonyolultabb a konszenzus szekvencia formulája :
(F,Y,W)x2(F,Y,W)x(F,Y,W)
(D,N)x6(L,I,V,M)GRTx3W
De ennél még összetettebb definíciók
is léteznek. Természetesen ezek mind "tapasztalati képletek",
melyeket az eddig talált konzervatív szekvenciákból
alakítottak ki, de alkalmasak olyan változatok felismerésére
is, amelyek nem fordultak elő a létrehozásukkor.
A patterneket tartalmazó adatbázis segítségével
jóval érzékenyebb hasonlóságkeresésre
(felismerésre) nyílik lehetőség, mint egy
egyszerű illesztésnél » 2.7. ábra .
A jelenlegi PROSITE pattern adatbázis 1568 motívum
leírását tartalmazza (Release 17.21, September 2002.),
melyekhez részletes dokumentáció is tartozik »
4.6.3.
|
2.7. ábra:
A cs proteinszekvencia Profil elemzésének eredménye
(A)
és
a PROSITE pattern adatbázis rekord a talált ATP/GTP-binding
motívumról (B). |
A
normalized raw from - to Profile | Description
! 41.908 631040 pos. 102 - 424 PF01078
| MG_CHELATASE
Magnesium chelatase, subunit ChlI
! 1.0000 1 pos. 119
- 126 PS00017 | ATP_GTP_A
ATP/GTP-binding site motif A (P-loop)
|
B
ID ATP_GTP_A; PATTERN.
AC PS00017;
DT APR-1990 (CREATED); APR-1990 (DATA UPDATE);
NOV-1990 (INFO UPDATE).
DE ATP/GTP-binding site motif A (P-loop).
PA [AG]-x(4)-G-K-[ST].
CC /TAXO-RANGE=ABEPV;
3D 1EFM; 1ETU; 1Q21; 2Q21; 4Q21; 5Q21; 6Q21;
DO PDOC00017;
//
|
Sokszor az ilyen bonyolult képletek alkalmazása is túl
merev korlátokat szab és — főleg a rövid patternek —
nem hordoznak kellő információt ahhoz, hogy valóban
csak a funkcionálisan fontos részleteket azonosítsák.
Az elemzéseknél sok az "álpozitív" találat.
A másik véglet, hogy ha — akár csak egyetlen pozícióban
is — a képlet által meg nem engedett aminosav fordul
elő, akkor az összehasonlítás negatív eredménnyel
zárul.
A problémák megoldására
fejlesztették ki a PROSITE profile adatbázist »
7. táblázat
. A "profilok" sok rokon szekvencia illesztésének segítségével
azt összegzik, hogy egy adott pozícióban milyen gyakorisággal
fordul elő egy meghatározott aminosav.
|
|
A gyakoribb előfordulás több pontértéket
eredményez, így a konszenzushoz jobban hasonlító
szekvencia több pontot kap. Nem kizáró ok az értékelésből,
ha egy adott pozícióban egy adott aminosav még sosem
fordult elő. Az egymást helyettesíteni képes aminosavak
hasonló értékűek.
A profilokat úgy állították össze, hogy
lehetőleg komplett doméneket jellemezzenek. A patternek és
profilok keresése más programmal történik, de a
PROSITE honlapon mindkét elemzésre van lehetőség
A Pfam (Protein families database) adatbázis a proteindomének
nagyon pontos leírásait tartalmazza. Alapvetően kétféle
eszközt biztosít számunkra a Pfam honlap »
2.8.ábra
és 7. táblázat
.
|
2.8. ábra: A Pfam adatbázis honlapja.
A kereső ablakába beilleszve a kérdéses fehérjeszekvenciát
a program kijelzi a rajta található feltételezett
doméneket »
2.9. ábra
|
|
Egyrészt egy regisztrált
SWISSPROT szekvencia esetén megtaláljuk itt a számítógéppel
elkészített doménszerkezet leírását,
másrészt megvizsgálhatjuk, hogy milyen feltételezett
doméneket képes felismerni egy új szekvenciában
a program »
2.9. ábra
.
|
|
A szekvenciát
itt is FASTA formátumban kell beküldeni. A domén rekordokból
kiindulva lekérhetjük azokat a fehérjéket, melyekben
az adott domén előfordul »
2.10. ábra
.
|
|

|
|
A Pfam honlapja
(kulcsszavas keresés)
|
A sigma-54 CBD (core binding domain) motívumot tartalmazó szekvenciák a Pfam adatbázisban. |
BLASTP és Pfam
|

|

|

|
Az illesztéstől kapcsolat van a Pfam
(Protein Families) adatbázishoz.
|
Megkapjuk a hasonló doménnel rendelkező fehérjéket.
|
Utána nézhetünk a többi domén szerepének.
|
Példa a BLAST, Pfam és ClustalW elemzések kombinált alkalmazására.
Más példa:
|
A BLOCKS és a PRINTS két
másik motívum-adatbázis, melyben számos rövid,
hézag nélkül egymáshoz illeszthető fragment
képviseli a fehérje- vagy doméncsaládokat
» 7. táblázat
. A Block Searcher, Get Blocks and Block Maker protein- vagy
DNS-szekvenciából kiindulva keresi a kérdéses
szekvencián a jellegzetes blokkokat vagy lekér blokkokat,
illetve új blokkokat képes készíteni. A PRINTS
dokumentációja a PROSITE-hoz hasonlóan nagyon jó.
Sok rekord a PROSITE adatbázisból ered.
Az SBASE 7.0 összesen 237.937 strukturális
vagy funkcionális fehérjerészletet tartalmazó
adatbázis, melyet a gödöllői Mezőgazdasági
Biotechnológiai Központban tartanak fenn, az EMBnet keretében.
Az adatbázissal szemben BLAST-keresést végezhetünk
és lekérhetjük a különböző domének
adatlapjait » 7. táblázat
.
Hiába van nagy átfedés az egyes
adatbázisok között, érdemes mindegyik segítségével
megvizsgálni a kérdéses fehérjeszekvenciát.
A szignál transzdukcióval kapcsolatos doméneket inkább
a PROSITE profiles vagy a SMART, az extracelluláris
|
|
doméneket
a Pfam, míg a PROSITE patterns az egyes enzimcsaládokat
képes azonosítani, az aktív helyre jellemző
motívum alapján.
Végül meg kell említeni
néhány lehetőséget, melyek transzmembrán
doméneket valószínűsítenek egy fehérjeszekvenciában.
A TMHMM , ahogy a neve is sejteti rejtett Markov-modellekkel (HMM) dolgozik. További lehetőséget kínál
a TopPred 2 és a DAS program »
7. táblázat
.
Ezekre is igaz az, hogy érdemes a kérdéses szekvenciát
több programmal is elemezni, mert előfordulhat, hogy teljesen
eltérő végeredményre jutunk. Természetesen
az ellentmondások feloldása csak kísérletek
segítségével lehetséges.
A SignalP szerver a szignálpeptidek
lehasítását meghatározó szekvencia meglétét
és helyét valószínűsíti. Gram-pozitív
és Gram-negatív baktériumokból és eukariótákból
származó fehérjék analízisére
egyaránt használható. A hasítóhely előrejelzése
mellett szignálpeptid felismerésre is képes
» 7. táblázat
.
|

|