Elemzés szekvenciák összehasonlításával

 
Több szekvencia egymáshoz illesztése

  A funkcionálisan fontos helyeket, doméneket jellemző patternek vagy profilok kialakításában nagy jelentősége van az azonos funkciójú, de különböző eredetű fehérjeszekvenciák egymáshoz illesztésének  Ezenkívül a DNS- vagy fehérjeszekvenciák teljes illesztését a rokonsági fokok becslésére, populációgenetikai, illetve filogenetikai elemzésre is felhasználhatjuk.

   Az első nukleotid- és proteinszekvenciák meghatározásával elkezdődtek a kísérletek arra, hogy az azonos funkciójú, de különböző fajokból eredő gének és fehérjék összehasonlításával következtetéseket vonjanak le a vizsgált szekvenciák és az őket tartalmazó organizmusok rokonsági fokát illetően. Első megközelítésben helytállónak tűnik a gondolat, hogy két szekvenciát — és az őket tartalmazó fajokat — annál közelebbi rokonoknak tekintsünk, minél jobban hasonlítanak egymásra. Az ilyen összehasonlításoknak azonban számos buktatója lehet

   Nem mindegy, hogy milyen szekvenciákat választunk ki analízisre. Egy nem kódoló DNS-szakaszban vagy egy mutációkra kevéssé "érzékeny" kódoló régióban (lásd fibrinopeptidek, melyek a fibrinogén-fibrin átalakuláskor kivágódnak, így nem jelennek meg a funkcionális fehérjében) a közeli fajokban is jelentős különbségek halmozódhatnak fel, relatíve rövid idő alatt. Ezzel szemben más kódoló régiók (fehérjék) lényegesen lassabban változnak, azaz a látszólagos mutációs rátájuk sokkal kisebb. Ezekben az esetekben ugyanis a keletkező mutációk nagy többsége funkcionálisan fontos részeket ront el, így nem maradnak fent. Tehát távoli fajok rokonságának tisztázására, a nagyobb evolúciós távolságok elemzésére az erősen konzerválódott szekvenciák alkalmasak, míg a közeli rokonsági kapcsolatok elemzésére a gyorsan változó szekvenciák használhatók fel.




   A korrekt elemzés érdekében biztosnak kell lennünk abban, hogy a kiválogatott szekvenciákhoz valóban ugyanaz a funkció rendelhető minden vizsgált fajban. Az elemzés eredményét torzíthatja prokarioták esetén az is, ha véletlenül horizontális géntranszferből származó — tehát lényegében ismeretlen eredetű — szekvencia kerül bele az elemzésbe.

Mindíg hasznos egy szekvenciacsoport elemzéséből levont következtetéseket, a létrehozott "evolúciós fát" más szekvenciák elemzésének eredményeivel összevetni. Ha ellentmondás található az eredmények között, akkor valószínű, hogy az előbb felsorolt tényzők befolyásolták a kiértékelést.

   Számos program készült filogenetikai elemzésekre. Korrekt használatukhoz a kezdő szintnél jobb elméleti és gyakorlati felkészültség szükséges. A PAUP (Phylogenetic Analysis Using Parsimony) része a GCG-programcsomag legújabb kiadásának, de interneten keresztül is megrendelhető PC, Macintosh és UNIX változatokban. A Phylip-csomagnak (the PHYLogeny Inference Package) szintén három változata van, és nem elhanyagolható előnye, hogy ingyenesen letölthető » 8. táblázat .
   Sok szekvencia egymáshoz illesztésére alkalmas a GCG-csomaghoz tartozó PILEUP-program és az interneten elérhető ClustalW, mely  filogenetikai elemzést is tud készíteni » 4.8.4. fejezet és  8. táblázat



A BLAST elemzéstől a motívum és a domén adatbázisokig

 

Egy  fehérjeszekvencia elemzése - BLASTP
A BLASTP konzerválódott domént jelez: RpoN
Három különböző domén is található a fehérjén



Conserved Domain Database -
többszörös illesztés után láthatjuk  a legfontosabb (konzerválódott) pozíciókat.



2.6.1 ClustalW

   A ClustalW az általunk beküldött szekveciákat illeszti egymáshoz. Lényeges, hogy ezeket meghatározott formátumban kell az elemzéshez elôkészíteni. Legegyszerűbb, ha itt is a FASTA formát alkalmazzuk, ahogy a BLAST esetében. A különbség csak annyi, hogy a szekvenciákat közvetlenül egymás után kell tenni, ahogy azt a 2.17. ábra mutatja. A szekvenciákat beküldhetjük még NBRF/PIR, EMBL/SwissProt, GDE, Clustal, GCG/MSF és RSF formátumban is. A GCG/MSF forma leírása megtalálható a 4.8.3. fejezetben.



  
A szekvenciák elnevezésénél (fejléc) az első 30 karakter számít. Minden szekvenciát már az első karaktereknél egyedi névvel jelöljünk.
   A fehérjeszekvencia illesztéseket a program szintén egy választható "scoring matrix" (» 2.5.4.) segítségével végzi és számos más paramétert is megváltoztathatunk. Ha az eredmény megjelenítését interaktív módon kérjük és az "output format" opciónál a ALN vagy GCG módot választjuk, akkor a JalView nevű Java Applet-program segítségével tovább formázhatók az illesztések és a szekvenciákhoz meghatározott törzsfa is megjeleníthető.

2.17. ábra: A ClustalW program részére FASTA formátumban elkészített input fájl, mely három különbözô NuoA fehérjeszekvenciát tartalmaz.

>Eco-NuoA
MSMSTSTEVIAHHWAFAIFLIVAIGLCCLMLVGGWFLGGRARARSKNVPF
ESGIDSVGSGRLRLSAKFYLVAMFFVIFDVEGAVSVRMVLLIRESGWVGF
VEAAIFIFVLLAGLVYLVRIGALDWTPARSRRERMNPETNSIANRQR
>Th-NuoA
MAPIQEYVGTLIYVGVALFIGVAALLVGALLGPKKPGRAKLMPYESGNDP
AGEVKRFPVHFYVVAMLFILFDVEVAFLWPYAVSAGGLGLYGFLGVLAFT
LLLFVGFLYEWWKGVMRWH
>Parde-NuoA
MEYLLQEYLPILVFLGMASALAIVLILAAAVIAVRNPDPEKVSAYECGFN
AFDDARMKFDVRFYLVSILFIIFDLEVAFLFPWAVSFASLSDVAFWGLMV
FLAVLTVGFAYEWKKGALEWA