Elemzés szekvenciák összehasonlításával
,   homológiavizsgálatok.
 
  A nukleotid- vagy fehérjeszekvenciák adatbázisokkal való összehasonlítása során azt vizsgáljuk, hogy mennyire egyezik a kérdéses szekvencia bármely más, az adatbázisban megtalálható szekvenciával (BLAST, FASTA). Több, rokon szekvencia egymáshoz való illesztésénél (multiple alignment, sokszoros illesztés) pedig információt kaphatunk arról, hogy a konzerválódott, funkcionálisan fontos részek hol helyezkednek el, és a szekvenciák milyen rokonsági fokban állnak egymással.


A BLAST programcsalád

    A megfelelően frissített adatbázisok mellett a homológiakeresésre használt program is meghatározó tényzője az eredményes munkának. Ebben a részben csak a BLAST programról lesz szó részletesen, mert ez az egyik legjobban használható eszköz az általános homológiakeresésre, nagy sebessége és érzékenysége miatt »8. táblázat .

A BLAST (Basic Local Alignment Search Tool) programot legkönnyebben a weben keresztül érhetjük el.
Használatakor az első lépés a megfelelő változat kiválasztása. Öt különböző lehetőség áll rendelkezésre, attól függően, hogy az összehasonlítani kívánt szekvencia (input, query sequence) DNS vagy fehérje és, hogy ezt a szekvenciát DNS- vagy fehérje-adatbázisokkal kívánjuk-e összehasonlítani (blastn, blastp, blastx, tblastn, tblastx). Ez a választási lehetőség jelenti ennek a programcsaládnak ez egyik nagy előnyét » 2.11 ábra .
 Ha nukleotidszekvenciát (DNS, RNS) kívánunk elemezni, akkor három változat közül választhatunk: BLASTN, BLASTX, TBLASTX.
Fehérjeszekvenciák elemzésére alkalmas a:
 BLASTP és a TBLASTN.

   Az előbbiek a genomi szekvenciák exonjainak felderítésére, cDNS elemzésére, szekvenálási hibák megtalálására (elsősorban a BLASTX) alkalmasak, bizonyos előfeltételekkel, míg az utóbbi két program (elsősorban a BLASTP) akkor válik fontossá, ha a meghatározott DNS-szekvencia alapján a feltételezett géntermék pontos aminosavsorrendje is a kezünkben van.

 2.11. ábra: Az NCBI BLAST honlapja. 
Több lehetőség közül választhatunk a feladatnak megfelelően. Az egyes programok használatához segítséget is ad a honlap. A BLATX program kezdőlapja a 2.11b ábrán látható.


     A megfelelő BLAST program kiválasztása után az összehasonlításra alkalmas adatbázist is meg kell határoznunk. (2.11b. ábra). Ez nem mindíg egyértelműen az nr adatbázis! Ne dolgoztassuk fölöslegesen a számítógépet, hanem válasszuk mindíg a feladatnak megfelelő, de a legkevesebb adatot tartalmazó változatot. Természetesen ez a megfontolás minden más program használatakor is érvényes

   A vizsgálandó szekvenciát annotáció és számozás nélkül kell a megfelelő ablakba bemásolni. Kérhetjük az alacsony komplexitású részek kiszűrését (»2.5.5.) és választhatunk különböző helyettesítési táblázatokat az összehasonlításhoz. Kezdő szinten azonban jobb, ha a beállított értékeket változatlanul hagyjuk.

 2.11b. ábra: A BLASTX program használata
A DNS szekvenciát célszerű FASTA formátumban elkészíteni egy szövegszerkesztő program segítségével és copy-paste mûvelettel a legfelsô ablakba bemásolni. Bár ez az ablak más formátumot (csak szekvencia, számozott szekvencia) is elfogad, sok más program használatakor a FASTA forma a követelmény. Ezek után a lehúzható ablakok segítségével kiválasztjuk a használandó programot (blastx) és adatbázist (SWISSPROT), és a "BLAST!" gombra kattintva indítjuk a keresést. (Ha szükséges a nem általános genetikai kód is beállítható a transzláláshoz pl. mtDNS esetében.) » 2.11 ábra .

 
Az eredmények értelmezése

    Egy BLASTP elemzés eredménye látható a  2.12. ábrán . Az eredményt közlő output file (jelen esetben e-mail) két részbôl áll. Az első rész tartalmazza azoknak a szekvenciáknak a regisztrációs számát és rövid leírását, melyek a legjobban hasonlítanak a vizsgált szekvenciához. A hasonlóság mértékéről adnak felvilágosítást a sorok végén látható számok.
 
    Az E érték (expect value) mutatja annak valószínűségét, hogy az adott adatbázisban a találat homológia (hasonlóság) a véletlen műve legyen. Egynél nagyobb szám esetén a kimutatott hasonlóságnak nincs semmilyen jelentősége. Nagyon ritkán fordul elő random "találat" 0.01 érték alatt,  így ez már valamilyen fokú homológiát jelez.
Az E =1e-50 ( 1 x 10-50 ) érték környékén már biztosan szignifikáns homológiával van dolgunk, mely jelzi, hogy a két fehérje rokonságban áll egymással. Ez azonban egyáltalán nem jelenti azt, hogy azonos a funkciójuk ! Ha a találati érték különösen jó, és erős homológia van a két fehérje teljes hosszában, akkor jó az esély arra, hogy azonos vagy nagyon hasonló a funkciójuk is. De egyetlen aminosav megváltozása is 



jelentős funkcióbeli eltérést eredményezhet. Ráadásul két gén expressziós mintázata, regulációja (tehát funkciója) eltérő lehet akkor is, ha teljesen azonos fehérjét kódolnak.

   Az eredmény-fájl második része tartalmazza — az egyszeri felhasználó számára is érthetőbben — a beküldött szekvencia és a hozzá legjobban hasonlító adatbank-szekvenciák illesztéseit » 2.12. ábra. Itt megint találunk egy rövid leírást majd a hasonlóság és azonosság (Identities, Positives, Gaps) mértékét mutató számok következnek. DNS-DNS összehasonlításnál a két első érték általában megegyezik, míg fehérjeszekvenciák esetén a hasonlóság (Positives) jelzi, hogy az illesztésnél csak rokon tulajdonságú, de nem azonos aminosavak kerültek egymás alá » 2.5.4.   scoring matrix.

    Természetesen, ha valaki olyan DNS- vagy fehérjeszekvenciát elemez, ami már szerepel az adatbázisban, akkor mindíg ez a szekvencia az első az illesztések között, mint 100 %-ban homológ (vagy majdnem - filter ! ,  2.12. ábra   és 2.5.5. ).


DNS szekvenciák elemzése

    A BLASTN a kérdéses nukleotidszekvenciát illetve ennek fordított komplementerét hasonlítja össze a megadott adatbázisban található valamennyi szekvenciával. A program erénye inkább a gyorsaság és nem a nagy érzékenység, így elsősorban nem a távoli rokonságban álló szekvenciák illesztésére, hanem a jelentősebb azonosságok gyors kimutatására szolgál. Az első homológiavizsgálatoknál pont ez a cél. Ha azt szeretnénk tudni, hogy az általunk meghatározott szekvencia szerepel-e már az adatbázisokban, akkor egy rövid szakaszát küldjük el BLASTN elemzésre.



A BLASTX a kérdéses nukleotidszekvenciát előbb "lefordítja" mind a hat lehetséges leolvasási keretben (három "forward" és a komplementer szálon is három, ún. "reverse complement reading frame"). Az így létrehozott fehérjeszekvenciákat hasonlítja össze valamilyen fehérje-adatbázis összes adatával. Tehát azt vizsgálja, hogy az ismeretlen DNS szakasz melyik irányban és leolvasási keretben kódol egy már ismert fehérjéhez hasonló szekvenciát. Kiválóan használható génazonosításra is akkor, ha jelentős mértékű a kimutatott hasonlóság.




BLASTN eredmény: DNS szinten egyetlen szekvencia azonos
(eltérés is van a két szekvencia között 3 bázis mutáció ?, frame shiftet nem okoz)
(A két szekvencia fordítva számozott. Miért?)




   Nemcsak arról kapunk információt, hogy a kódoló szekvencia milyen irányban és "frame"-ben helyezkedik el, hanem azt is megmutatja, ha szekvenálási hiba (frameshift) van az adott DNS-szakaszon. Ilyenkor a homológia az egyik keretben meghatározott peptidszekvenciával megszakad és egy másik leolvasási keret által meghatározott szekvenciával folytatódik » 2.13. ábra . Mivel a program az erősebben homológ, rövidebb szakaszokat mutatja ki úgy, hogy több részletben adja meg az eredményt (csak ezekre a szakaszokra), ezért hasonló fehérjék teljes illesztésére nem alkalmas. Viszont kiváló — az előbb említet frameshift hiba kimutatása mellett — az exonok behatárolására egy genomi szekvencián belül.

    Természetesen az elmondottak csak akkor érvényesek, ha a vizsgált DNS-szakasz egy olyan fehérjét kódol, amely jó hasonlóságot mutat teljes hosszában valamely, az adatbázisban megtalálható szekvenciához. Ha ez a feltétel nem teljesül, akkor 


más módszerek adhatnak csak támpontot a kódoló szekvencia és így a feltételezett fehérjetermék funkciójának meghatározásához  » 2.3. és 2.4.   fejezet .

   Mindíg a fehérje - fehérje illesztések adnak egyértelműbb és ezért használhatóbb eredményt ezért — ha lehet — használjuk a BLASTX vagy BLASTP programokat » 2.5.4.    Fontos arra is ügyelni, hogy eltávolítsuk az esetleges vektorszekvenciákat a vizsgálat előtt és — ha értelme van — vizsgáljuk meg a kérdéses szekvenciát, tartalmaz-e különböző ismétlődő elemeket (Alu repeat ...). Nem célszerű túlzottan hosszú, sok ezer bázispárnyi DNS-szekvenciát egyszerre elküldeni összehasonlításra. Inkább rövidebb (1-3  kb), átfedő szakaszokkal végezzük el az elemzést. Igy nagyobb valószínűséggel jelennek meg a kevésbé homológ régiók is az eredmények között, és nemcsak a legtöbb "találatot" adó régiót látjuk sokszorosan viszont.    (próbaszekvenciák)


Proteinszekvenciák elemzése

   A BLASTX segítségével lényegében már proteinszekvenciákat hasonlítottunk össze, azonban a cél ott elsősorban a szekvenálási hiba vagy az esetleges exonok megtalálása — tehát a DNS-szekvencia elemzése — volt. Ha már biztosak vagyunk abban, hogy a DNS-szekvencia hiba mentes, akkor — a kódoló szakaszt teljes hosszában lefordítva — a géntermék szekvenciáját elemezhetjük tovább a BLASTP programmal » 2.12. ábra.

    Egy adott nukleotidszekvencia és az általa kódolt fehérje közül mindíg jobb a fehérjeszekvenciát elemezni, mivel ez az összehasonlítás sokkal érzékenyebb a lényeges hasonlóságok és az esetleges távolabbi rokonságok kiszűrésére. Ez abból ered, hogy a fehérjeszekvenciák húsz betűből állnak, szemben a DNS-t alkotó négy bázissal. Négy betű esetén sokkal gyakoribb egy adott szekvencia random előfordulása, így több az összehasonlításban a véletlen hasonlóság, biológiai értelem nélkül. Ráadásul a nukleotid illesztéseknél csak egyezés (match, positive score) és nem egyezés (mismatch, negative score) lehetséges. Viszont a fehérjeszekvenciák összehasonlításánál létezik a konzervatív helyettesítés fogalma — ezt mutatja a similarity vagy positives érték —, mely az aminosavak fizikai-kémiai tulajdonságait veszi figyelmebe. Annak  ellenére, hogy az illesztésben nem azonos aminosavak kerülnek egymás mellé, ezeket "hasonlónak" értékeli a program, ha fizikai-kémiai tulajdonságaik hasonlóak


 

    A helyettesítési táblázat
vagy scoring matrix tartalmazza az egyes aminosav-párokra megállapított helyettesítési értékeket. Az elméleti megfontolásoknál sokkal jobban beváltak a tapasztalati úton megállapított helyettesítési értékek, melyek azt mutatják, hogy — jól jellemzett fehérjecsaládok esetén — egy adott aminosav milyen gyakran helyettesít egy másikat. Ha a helyettesítés viszonylag gyakori, akkor a helyettesítô aminosav magasabb pontszámot kap.

   Többféle táblázatot is használnak az egyes aminosav-párok helyettesítési értékének megadására (PAM40, PAM120, PAM250, BLOSUM62 ... stb). A legjobban bevált a BLOSUM62 mátrix, amelyet a BLAST-programok alapbeállításban alkalmaznak » 2.14. ábra . A különböző mátrixok a program érzékenységét javítják vagy gyengítik, így alkalmasabbak a lokális, erős homológiák vagy a hosszú szakaszon mutatkozó, de kisebb hasonlóságok megtalálására. Az első, rutinszerû összehasonlításoknál a programban megadott alapértékeket és beállításokat nem célszerű megváltoztatni, mert azokat az átlagos felhasználó igényeihez szabták.

   Ha a BLASTP-vizsgálatok nem járnak használható eredménnyel, mindenképpen érdemes a fehérjeszekvenciát több más program segítségével is elemezni, hogy valamilyen feltételezést tehessünk a géntermék funkcióját illetően »  2.4.  

2.14. ábra:  A BLOSUM62 helyettesítési táblázat . » 2.5.4. scoring matrix
               A kék szín a helyettesítésben gyakrabban előforduló, magasabb pontszámot kapott aminosavakat jelzi. 

Zavaró szekvenciák és kiküszöbölésük

A homológia kereséseknél az egyik legjelentősebb előrehaladás az alacsony komplexitású szakaszok automatikus kiküszöbölése volt. Ha valaki sok összehasonlítást végez, előbb-utóbb találkozik olyan vizsgált szekvenciákkal, melyek rengeteg érdektelen homológiát ragadnak ki például "prolin gazdag protein" elnevezéssel. Ezek zavarhatják a biológiailag érdekes eredmények megjelenését. Az alacsony komplexitású szekvencia szigorúan definiált, de úgy is elképzelhetjük, mint egy helyileg monoton aminosavösszetételű részletet. Jelenlétükre érdemes felfigyelni, de a homológiavizsgálatokból célszerű kizárni őket. A BLAST web-szervernél az ilyen részek kiszűrése (filter) hozzátartozik az alapbeállításhoz. 

    Az alacsony komplexitású szekvenciák meglepően gyakoriak. Körülbelül 25 %-át teszik ki a fehérje adatbázisokban található szekvenciáknak. Negyvenkettő pozícionálisan klónozott humán örökletes betegséggel kapcsolatos gén esetében több mint 34  (80 %) tartalmaz átlagosan öt, alacsony 



komplexitású részletet, melyek akár 48 %-át is kitehetik az adott szekvenciának. Tehát kiszűrésük nem is annyira választható lehetőség, mint inkább szükséges teendő a homológia vizsgálatok esetében.

    Hangsúlyozottan igaz ez a BLASTX, TBLASTN, TBLASTX programok alkalmazása esetén, amikor sok "biológiailag értelmetlen" (valójában nem kódoló) nukleotidszekvenciát is "lefordítanak" a programok és homológiakeresést végeznek az így nyert peptidszekvenciákkal.

    Az alacsony komplexitású részleteken kívül több olyan szakasza is lehet egy fehérjének, melyek a homológiakereséseknél zavart okozhatnak. Ilyenek lehetnek a nem-globuláris domének, mint a kollagén hélix vagy a miozin "pálca". Az alacsony komplexitású részleteknek elhanyagolható a biológiai jelenőtsége kivéve, ha szignál szekvenciát vagy transzmembrán domént takarnak. Ezzel szemben a nem-globuláris részletek azonosításásnak több az értéke, mivel szerkezeti hasonlóságot (ha nem is közeli evolúciós rokonságot) jeleznek az adott fehérjék között.

BLASTX - adatbázis: nr Használata ez esetben helyes volt, mert az érintett gén által kódolt RkpL fehérje csak ebben az adatbázisban szerepel.





BLASTP - adatbázis: nr Egy ismeretlen fehérjekódoló régió (RkpY) szekvenciája 1999. óta szerepel az adatbázisokban (AJ249130), de a mai napig nincs hozzá hasonló más fehérje. Igaz ez most is? Vizsgáljuk meg!




Az RkpY  "legjobban" egy  hipotetikus fehérjéhez hasonlít. Ha tudnánk mi a funkciója, a  nagyon kis egyezés (e=0.021) miatt akkor sem használható ez az eredmény.)