Elemzés szekvenciák
összehasonlításával,
homológiavizsgálatok.
|
A nukleotid- vagy fehérjeszekvenciák adatbázisokkal
való összehasonlítása során azt vizsgáljuk,
hogy mennyire egyezik a kérdéses szekvencia bármely
más, az adatbázisban megtalálható szekvenciával
(BLAST, FASTA). Több, rokon szekvencia egymáshoz való illesztésénél
(multiple alignment, sokszoros illesztés) pedig információt kaphatunk arról,
hogy a konzerválódott, funkcionálisan fontos részek
hol helyezkednek el, és a szekvenciák milyen rokonsági
fokban állnak egymással.
A BLAST programcsalád
A megfelelően frissített adatbázisok
mellett a homológiakeresésre használt program is
meghatározó tényzője az eredményes munkának.
Ebben a részben csak a BLAST programról lesz szó
részletesen, mert ez az egyik legjobban használható
eszköz az általános homológiakeresésre,
nagy sebessége és érzékenysége miatt
» 8. táblázat
.
|
|
A BLAST (Basic Local Alignment Search
Tool) programot legkönnyebben a weben keresztül érhetjük el.
Használatakor az első lépés
a megfelelő változat kiválasztása. Öt
különböző lehetőség áll rendelkezésre,
attól függően, hogy az összehasonlítani kívánt
szekvencia (input, query sequence) DNS vagy fehérje és,
hogy ezt a szekvenciát DNS- vagy fehérje-adatbázisokkal
kívánjuk-e összehasonlítani (blastn, blastp, blastx,
tblastn, tblastx). Ez a választási lehetőség jelenti
ennek a programcsaládnak ez egyik nagy előnyét »
2.11 ábra .
Ha nukleotidszekvenciát (DNS, RNS)
kívánunk elemezni, akkor három változat
közül választhatunk: BLASTN, BLASTX, TBLASTX.
Fehérjeszekvenciák
elemzésére alkalmas a:
BLASTP és a TBLASTN.
Az előbbiek a genomi szekvenciák exonjainak felderítésére,
cDNS elemzésére, szekvenálási hibák
megtalálására (elsősorban a BLASTX) alkalmasak,
bizonyos előfeltételekkel, míg az utóbbi
két program (elsősorban a BLASTP) akkor válik
fontossá, ha a meghatározott DNS-szekvencia alapján
a feltételezett géntermék pontos aminosavsorrendje
is a kezünkben van.
|
2.11. ábra: Az NCBI BLAST honlapja.
Több lehetőség közül választhatunk
a feladatnak megfelelően. Az egyes programok használatához
segítséget is ad a honlap. A BLATX program kezdőlapja
a 2.11b ábrán
látható.
|
|
|
A megfelelő BLAST program kiválasztása után
az összehasonlításra alkalmas adatbázist is
meg kell határoznunk. (2.11b. ábra). Ez nem mindíg egyértelműen az nr adatbázis! Ne dolgoztassuk fölöslegesen a számítógépet,
hanem válasszuk mindíg a feladatnak megfelelő, de
a legkevesebb adatot tartalmazó változatot. Természetesen
ez a megfontolás minden más program használatakor
is érvényes
|
|
A vizsgálandó
szekvenciát annotáció és
számozás nélkül kell a megfelelő ablakba
bemásolni.
Kérhetjük az alacsony komplexitású részek
kiszűrését (» 2.5.5.) és választhatunk különböző
helyettesítési táblázatokat az összehasonlításhoz. Kezdő szinten azonban jobb, ha a beállított
értékeket változatlanul hagyjuk.
|
2.11b. ábra: A BLASTX program használata
A DNS szekvenciát célszerű
FASTA
formátumban elkészíteni egy szövegszerkesztő
program segítségével és copy-paste mûvelettel
a legfelsô ablakba bemásolni. Bár ez az ablak más
formátumot (csak szekvencia, számozott szekvencia) is elfogad,
sok más program használatakor a FASTA forma a követelmény.
Ezek után a lehúzható ablakok segítségével
kiválasztjuk a használandó programot (blastx) és
adatbázist (SWISSPROT), és a "BLAST!" gombra kattintva indítjuk
a keresést. (Ha szükséges a nem általános
genetikai kód is beállítható a transzláláshoz
pl. mtDNS esetében.) »
2.11 ábra .
|
|
Az eredmények értelmezése
Egy BLASTP elemzés eredménye látható
a 2.12. ábrán
. Az eredményt közlő output file (jelen esetben
e-mail) két részbôl áll. Az első rész
tartalmazza azoknak a szekvenciáknak a regisztrációs
számát és rövid leírását,
melyek a legjobban hasonlítanak a vizsgált szekvenciához.
A hasonlóság mértékéről adnak
felvilágosítást a sorok végén látható számok.
Az E érték
(expect value) mutatja annak valószínűségét,
hogy az adott adatbázisban a találat homológia (hasonlóság)
a véletlen műve legyen. Egynél nagyobb szám esetén
a kimutatott hasonlóságnak nincs semmilyen jelentősége.
Nagyon ritkán fordul elő random "találat" 0.01 érték
alatt, így ez már valamilyen fokú homológiát
jelez.
Az E =1e-50 ( 1 x 10-50
) érték környékén már biztosan
szignifikáns homológiával van dolgunk, mely jelzi,
hogy a két fehérje rokonságban áll egymással.
Ez azonban egyáltalán nem jelenti azt, hogy azonos a funkciójuk
! Ha a találati érték különösen jó,
és erős homológia van a két fehérje
teljes hosszában, akkor jó az esély arra, hogy azonos
vagy nagyon hasonló a funkciójuk is. De egyetlen aminosav
megváltozása is
|
|
jelentős funkcióbeli eltérést
eredményezhet. Ráadásul két gén expressziós
mintázata, regulációja (tehát funkciója)
eltérő lehet akkor is, ha teljesen azonos fehérjét kódolnak.
Az eredmény-fájl második része
tartalmazza — az egyszeri felhasználó számára
is érthetőbben — a beküldött szekvencia és
a hozzá legjobban hasonlító adatbank-szekvenciák
illesztéseit » 2.12. ábra. Itt megint találunk egy rövid leírást
majd a hasonlóság és azonosság
(Identities, Positives, Gaps) mértékét mutató
számok következnek. DNS-DNS összehasonlításnál
a két első érték általában megegyezik,
míg fehérjeszekvenciák esetén a hasonlóság
(Positives) jelzi, hogy az illesztésnél csak rokon tulajdonságú,
de nem azonos aminosavak kerültek egymás alá »
2.5.4.
scoring matrix.
Természetesen, ha valaki olyan DNS- vagy
fehérjeszekvenciát elemez, ami már szerepel az adatbázisban,
akkor mindíg ez a szekvencia az első az illesztések
között, mint 100 %-ban homológ (vagy majdnem - filter
! , 2.12. ábra
és
2.5.5.
).
|
|
DNS szekvenciák
elemzése
A BLASTN a kérdéses nukleotidszekvenciát
illetve ennek fordított komplementerét hasonlítja
össze a megadott adatbázisban található valamennyi
szekvenciával. A program erénye inkább a gyorsaság
és nem a nagy érzékenység, így elsősorban
nem a távoli rokonságban álló szekvenciák
illesztésére, hanem a jelentősebb azonosságok
gyors kimutatására szolgál. Az első homológiavizsgálatoknál
pont ez a cél. Ha azt szeretnénk tudni, hogy az általunk
meghatározott szekvencia szerepel-e már az adatbázisokban,
akkor egy rövid szakaszát küldjük el BLASTN elemzésre.
|
|
A BLASTX a kérdéses nukleotidszekvenciát
előbb "lefordítja" mind a hat lehetséges leolvasási
keretben (három "forward" és a komplementer szálon
is három, ún. "reverse complement reading frame"). Az
így létrehozott fehérjeszekvenciákat hasonlítja
össze valamilyen fehérje-adatbázis összes adatával.
Tehát azt vizsgálja, hogy az ismeretlen DNS szakasz melyik
irányban és leolvasási keretben kódol egy már
ismert fehérjéhez hasonló szekvenciát. Kiválóan
használható génazonosításra is akkor,
ha jelentős mértékű a kimutatott hasonlóság.
|
BLASTN eredmény: DNS szinten egyetlen szekvencia azonos
(eltérés is van a két szekvencia között
3 bázis mutáció ?, frame shiftet nem okoz)
(A két szekvencia fordítva számozott. Miért?)
| Nemcsak arról kapunk információt,
hogy a kódoló szekvencia milyen irányban és
"frame"-ben helyezkedik el, hanem azt is megmutatja, ha szekvenálási
hiba (frameshift) van az adott DNS-szakaszon. Ilyenkor a homológia
az egyik keretben meghatározott peptidszekvenciával megszakad
és egy másik leolvasási keret által meghatározott
szekvenciával folytatódik »
2.13. ábra
. Mivel a program az erősebben homológ, rövidebb
szakaszokat mutatja ki úgy, hogy több részletben
adja meg az eredményt (csak ezekre a szakaszokra), ezért
hasonló fehérjék teljes illesztésére
nem alkalmas. Viszont kiváló — az előbb említet
frameshift hiba kimutatása mellett — az exonok behatárolására
egy genomi szekvencián belül.
Természetesen az elmondottak csak akkor érvényesek,
ha a vizsgált DNS-szakasz egy olyan fehérjét kódol,
amely jó hasonlóságot mutat teljes hosszában
valamely, az adatbázisban megtalálható szekvenciához.
Ha ez a feltétel nem teljesül, akkor
|
|
más módszerek
adhatnak csak támpontot a kódoló szekvencia és
így a feltételezett fehérjetermék funkciójának
meghatározásához » 2.3.
és 2.4.
fejezet .
Mindíg a fehérje
- fehérje illesztések adnak egyértelműbb és
ezért használhatóbb eredményt ezért
— ha lehet — használjuk a BLASTX vagy BLASTP programokat »
2.5.4. Fontos arra is ügyelni, hogy eltávolítsuk
az esetleges vektorszekvenciákat a vizsgálat előtt és
— ha értelme van — vizsgáljuk meg a kérdéses
szekvenciát, tartalmaz-e különböző ismétlődő
elemeket (Alu repeat ...). Nem célszerű túlzottan hosszú,
sok ezer bázispárnyi DNS-szekvenciát egyszerre
elküldeni összehasonlításra. Inkább rövidebb
(1-3 kb), átfedő szakaszokkal végezzük el az
elemzést. Igy nagyobb valószínűséggel jelennek
meg a kevésbé homológ régiók is az eredmények
között, és nemcsak a legtöbb "találatot"
adó régiót látjuk sokszorosan viszont. ( próbaszekvenciák)
|
|
Proteinszekvenciák
elemzése
A BLASTX segítségével lényegében
már proteinszekvenciákat hasonlítottunk össze,
azonban a cél ott elsősorban a szekvenálási
hiba vagy az esetleges exonok megtalálása — tehát
a DNS-szekvencia elemzése — volt. Ha már biztosak vagyunk
abban, hogy a DNS-szekvencia hiba mentes, akkor — a kódoló
szakaszt teljes hosszában lefordítva — a géntermék
szekvenciáját elemezhetjük tovább a BLASTP
programmal » 2.12. ábra.
Egy adott nukleotidszekvencia és
az általa kódolt fehérje közül mindíg
jobb a fehérjeszekvenciát elemezni, mivel ez az összehasonlítás
sokkal érzékenyebb a lényeges hasonlóságok
és az esetleges távolabbi rokonságok kiszűrésére.
Ez abból ered, hogy a fehérjeszekvenciák húsz
betűből állnak, szemben a DNS-t alkotó négy bázissal.
Négy betű esetén sokkal gyakoribb egy adott szekvencia random
előfordulása, így több az összehasonlításban
a véletlen hasonlóság, biológiai értelem
nélkül. Ráadásul a nukleotid illesztéseknél
csak egyezés (match, positive score) és nem egyezés
(mismatch, negative score) lehetséges. Viszont a fehérjeszekvenciák
összehasonlításánál létezik a konzervatív
helyettesítés fogalma — ezt mutatja a similarity vagy
positives érték —, mely az aminosavak fizikai-kémiai
tulajdonságait veszi figyelmebe. Annak
ellenére, hogy az illesztésben nem azonos aminosavak
kerülnek egymás mellé, ezeket "hasonlónak" értékeli
a program, ha fizikai-kémiai tulajdonságaik hasonlóak
|
|
A helyettesítési táblázat
vagy scoring matrix tartalmazza az egyes aminosav-párokra
megállapított helyettesítési értékeket.
Az elméleti megfontolásoknál sokkal jobban beváltak
a tapasztalati úton megállapított helyettesítési
értékek, melyek azt mutatják, hogy — jól
jellemzett fehérjecsaládok esetén — egy adott aminosav
milyen gyakran helyettesít egy másikat. Ha a helyettesítés
viszonylag gyakori, akkor a helyettesítô aminosav magasabb
pontszámot kap.
Többféle táblázatot is használnak az
egyes aminosav-párok helyettesítési értékének
megadására (PAM40, PAM120, PAM250, BLOSUM62 ... stb).
A legjobban bevált a BLOSUM62 mátrix, amelyet a BLAST-programok
alapbeállításban alkalmaznak »
2.14. ábra
. A különböző mátrixok a program érzékenységét
javítják vagy gyengítik, így alkalmasabbak
a lokális, erős homológiák vagy a hosszú
szakaszon mutatkozó, de kisebb hasonlóságok megtalálására.
Az első, rutinszerû összehasonlításoknál
a programban megadott alapértékeket és beállításokat
nem célszerű megváltoztatni, mert azokat az átlagos
felhasználó igényeihez szabták.
Ha a BLASTP-vizsgálatok nem járnak használható
eredménnyel, mindenképpen érdemes a fehérjeszekvenciát
több más program segítségével is elemezni,
hogy valamilyen feltételezést tehessünk a géntermék
funkcióját illetően »
2.4.
|
2.14. ábra: A BLOSUM62 helyettesítési táblázat
. » 2.5.4.
scoring matrix
A kék szín a helyettesítésben
gyakrabban előforduló, magasabb pontszámot kapott aminosavakat
jelzi.
|
|
Zavaró szekvenciák
és kiküszöbölésük
A homológia kereséseknél
az egyik legjelentősebb előrehaladás az alacsony komplexitású
szakaszok automatikus kiküszöbölése volt. Ha valaki
sok összehasonlítást végez, előbb-utóbb
találkozik olyan vizsgált szekvenciákkal, melyek
rengeteg érdektelen homológiát ragadnak ki például
"prolin gazdag protein" elnevezéssel. Ezek zavarhatják
a biológiailag érdekes eredmények megjelenését.
Az alacsony komplexitású szekvencia szigorúan
definiált, de úgy is elképzelhetjük, mint egy
helyileg monoton aminosavösszetételű részletet.
Jelenlétükre érdemes felfigyelni, de a homológiavizsgálatokból
célszerű kizárni őket. A BLAST web-szervernél
az ilyen részek kiszűrése (filter) hozzátartozik
az alapbeállításhoz.
Az alacsony komplexitású szekvenciák
meglepően gyakoriak. Körülbelül 25 %-át
teszik ki a fehérje adatbázisokban található
szekvenciáknak. Negyvenkettő pozícionálisan
klónozott humán örökletes betegséggel
kapcsolatos gén esetében több mint 34 (80 %)
tartalmaz átlagosan öt, alacsony
|
|
komplexitású
részletet, melyek akár 48 %-át is kitehetik az
adott szekvenciának. Tehát kiszűrésük
nem is annyira választható lehetőség, mint inkább
szükséges teendő a homológia vizsgálatok
esetében.
Hangsúlyozottan igaz ez a BLASTX,
TBLASTN, TBLASTX programok alkalmazása esetén, amikor
sok "biológiailag értelmetlen" (valójában
nem kódoló) nukleotidszekvenciát is "lefordítanak"
a programok és homológiakeresést végeznek
az így nyert peptidszekvenciákkal.
Az alacsony komplexitású részleteken kívül
több olyan szakasza is lehet egy fehérjének, melyek
a homológiakereséseknél zavart okozhatnak. Ilyenek
lehetnek a nem-globuláris domének, mint a kollagén
hélix vagy a miozin "pálca". Az alacsony komplexitású
részleteknek elhanyagolható a biológiai jelenőtsége
kivéve, ha szignál szekvenciát vagy transzmembrán
domént takarnak. Ezzel szemben a nem-globuláris részletek
azonosításásnak több az értéke,
mivel szerkezeti hasonlóságot (ha nem is közeli evolúciós
rokonságot) jeleznek az adott fehérjék között.
|
BLASTX - adatbázis: nr Használata ez esetben
helyes volt, mert az érintett gén által
kódolt RkpL fehérje csak ebben az adatbázisban
szerepel.
BLASTP - adatbázis: nr
Egy ismeretlen fehérjekódoló régió
(RkpY) szekvenciája 1999. óta szerepel az
adatbázisokban ( AJ249130), de a mai napig nincs hozzá hasonló más fehérje. Igaz ez most is? Vizsgáljuk meg!
Az RkpY "legjobban" egy hipotetikus
fehérjéhez hasonlít. Ha tudnánk mi a
funkciója, a nagyon kis egyezés (e=0.021) miatt
akkor sem használható ez az eredmény.)
|