|
Az V. éves biológusok
számára kötelező biotechnológia
kurzus,
és a biológiai
laboratóriumi operátor szak bioinformatika kurzus anyaga
frissítve:
2006.10.03.
Bevezető
A
számítógépes
adatbázisok, hálózatok és programok ma
már
nélkülözhetetlen eszközök a
molekuláris
biológiában. A jól csengő " bioinformatika" kifejezés
használatos arra, hogy összefogja mindazokat a
módszereket
és műveleteket — kezdve a laboratóriumi
adatkezeléstől
az eredmények értékelésén
keresztül
az elektronikus publikálásig, a DNS- és
fehérjeszekvenciák
adatbázisokba való gyűjtéséig —, melyek
célja a kísérletes munka segítése, a
molekuláris
evolúciós folyamatok megértése, a
gének
és fehérjék szerkezetének és
funkciójának
becslése számítógépes elemzés
segítségével.
Tágabb értelemben a bioinformatikához tartozik
minden
biológiával kapcsolatos
számítógépes
adatfeldolgozás és értékelés,
így
például a különböző poliszacharidok
szerkezetét
tartalmazó adatbázisok vagy a taxonómiai
adatbázisok alkalmazása is. Szűkebb értelemben
bioinformatika alatt csak a DNS- és
fehérjeszekvenciák
összehasonlítását, elemzését,
a bennük rejlő biológiai információ
számítógépes
előrejelzését értjük.
1982-ben készült
el az első nukleotid adatbázis,
amely 568 rekordot
és összesen 585,433
bázisnyi
információt tartalmazott. 2006. szeptemberében
ugyanebben
az adatbázisban 80
millió rekordban 147
milliárd bázispárnyi
szekvenciát tárolnak. Hihetetlen
adattömeg, ami még mindig exponenciálisan
növekszik!
Az informatika és az internet fejlődésének
köszönhetően
mégis kezelhető, nyilvános és
meghatározó
hajtóereje a biológia, az orvostudomány
fejlődésének.
|
|
Gondoljunk
csak bele! 1953-ban jelent meg
Watson és Crick
cikke a Nature
folyóiratban a DNS szerkezetének javasolt
megfejtésével. 1970-ben
a DNS darabolását még finom
lézersugár
segítségével képzelte el Taylor,
tekintélyes
tudósokkal való beszélgetései
nyomán,
a Biológiai pokolgép című
könyvében. Arber, Smith
és Nathans 1978-ban
már Nobel-díjat kap a restrikciós enzimek
felfedezéséért
és a molekuláris biológiában való
alkalmazásukért.
Két évvel később, 1980-ban
Gilbert és Sangerkapott
Nobel-díjat a DNS bázissorrendjének
meghatározására kidolgozott
módszerekért. Géntárak
készítése, gének izolálása,
bázissorrendjük meghatározása
révén
ekkor indult fejlődésnek a bioinformatika is.
Alig 50 évvel
a DNS jelentőségének felismerése után
elvben
bárki megtudhatja, milyen genetikai betegségek
hordozója
és megismerheti akár genetikai programjának
teljes leírását is.
Közel száz
prokariota genom, az élesztő (Saccharomyces
cerevisiae), egy nematoda faj (Caenorhabditis elegans) az
ecetmuslica
(Drosophila melanogaster),
az ember és legősibb háziállata, a kutya teljes
DNS-szekvenciáját már
meghatározták. Ugyancsak ismert több
növény, mint a lúdfű (Arabidopsis thaliana),
a rizs (Oryza sativa)
DNS-szekvenciája is, és
számos más eukariota modellszervezet
szekvenciaanalízise
lendületesen folyik. Az adatok feldolgozása és
értékelése
elképzelhetetlen bioinformatikai programok és ismeretek
nélkül.
|
Természetesen a számítógépes
elemzés csak egy újabb, egyre hatékonyabb
eszköz.
Nagyon sokat segíthet egy adott szerkezet vagy funkció
tisztázásában,
de mindaddig, amíg ennek kísérletes
bizonyítékát
nem szolgáltatjuk, bármilyen egyértelmű is az
eredmény, azt csak feltételezésnek
tekinthetjük. Az elemzés
nem helyettesíti a biológiai
kísérletet, hanem ötleteket szolgáltat
és
irányt szab a kísérletek
tervezéséhez.
A következő néhány oldal röviden
összefoglalja a legfontosabb alapfogalmakat és
módszereket. Aki többet szeretne megtudni, az keresse fel
az egyetemi bioinformatika honlapot: www.bioinfo.pte.hu .
DNS- és
fehérjeszekvenciák
számítógépes elemzése
|
A különböző
bioinformatikai intézetek honlapjain egyre több és
szekvenciaanalízisre szolgáló program érhető
el. Ezek a szolgáltatások bárki
számára ingyenesen hozzáférhetők
és a használatukhoz csak egy, a
világhálóra csatlakoztatott személyi
számítógére van szükség.
Tehát az elemzések
elvégzéséhez nem kell rendelkezni sem a megfelelő
adatbázisokkal, sem a szükséges
számítógépes kapacitással.
Ráadásul gyorsabban elkészül a feladattal egy
nagy teljesítményű, interneten keresztül
elérhető számítógép, mint a helyi.
Persze a "helyi" nem feltétlenül a velünk egy
épületben lévő
számítógépet jelenti és sok olyan
feladat van, amit csak egy ilyen rendszer ismeretében és
használatával oldhatunk meg.
Mielőtt megismernénk a
különböző lehetőségeket, fontos
mégegyszer hangsúlyozni, hogy a
számítógépes
elemzés csak segédeszköz egy gén
szerkezetének felderítésében vagy egy
fehérje funkciójának
megtalálásában. Bármilyen erős is a
homológia két szekvencia között vagy
egyértelmű egy motívum jelenléte, a kapott
eredmény csak feltételezésnek (predikció)
tekinthető mindaddig, amíg ezt kísérletekkel nem
bizonyítjuk. Az
elemzés nem helyettesíti a biológiai
kísérletet, hanem ötleteket szolgáltat arra
nézve, hogy milyen irányban haladjunk tovább a
kísérletes
munkában.
A kérdéses szekvencia (query
sequence) az a nukleotid- vagy fehérjeszekvencia, amelyet a
számítógépes programok
segítségével vallatóra fogunk.
|
|
Alapvetően kétféle
szekvenciaanalízis létezik, függetlenül
attól,
hogy DNS- vagy fehérjeszekvenciáról van-e
szó.
Az egyik az általános homológiakeresés, a
másik
a szekvencia belső sajátságainak elemzése.
Természetesen
a legjobb, ha mindkét megközelítést
alkalmazzuk.
A homológiakeresés
esetében a kérdéses szekvenciát
hasonlítjuk
össze az összes eddig ismert szekvenciával, majd
a talált hasonló szekvenciák (gének,
fehérjék) funkciójának ismeretében
feltételezést teszünk a vizsgált gén
vagy fehérje funkcióját illetően. Tehát a homológiaelemzés
adatbázisokban való
keresést és a szekvenciák
hasonlóságának meghatározását
jelenti.
A “belső” sajátságok analízise vagy tartalomelemzés
több különböző művelet összege lehet, az
exonoknak
a szekvencia statiszikai jellemzőin alapuló
predikciójától
a kódolt fehérjeszerkezet jóslásáig.
Egyik jellemző formája a lokális
bázisösszetétel
elemzése. Ezt az teszi lehetővé, hogy a
kódoló
szekvenciák bázisösszetétele,
kodonhasználata
függ a kódolt információtól
és
az organizmustól, míg egy nem kódoló
rész inkább hasonlít egy véletlenszerű,
random DNS- szekvenciára.
A
szekvenciaelemzés első
feltétele, hogy a vizsgálni kívánt
szekvencia valamilyen fájl formájában jelen legyen
a számítógépünkön. A
következő lényeges dolog, hogy ismerjük a
szekvencia-adatbázisokat és ki tudjuk választani
az elemzéshez a legmegfelelőbbet.
|
Nukleotidszekvencia adatbázisok
A DNS- és
fehérjeszekvenálási módszerek
elterjedésével szinte egy időben lépett fel az
igény a meghatározott szekvenciákat
összegyűjtő és a számítógépes
elemzéseket lehetővé tevő elektronikus adatbázisok
létrehozására.
Az EMBL
Nukleotidszekvencia Adatbázist 1980-ban
alapították; eredetileg Heidelbergben volt a
székhelye. Ma Európa elsődleges adatbázisa,
amelyet az EBI (European
Bioinformatics Institute, Hinxton, UK) gondoz, szoros
együttműködésben a GenBank (székhely: NCBI - National Center for
Biotechnology Information, Bethesda, Maryland, USA) és a DDBJ
(DNA Database of Japan, székhely: CIB - Center for Information
Biology,
Mishima, Japan) adatbázisokkal » 5.
táblázat .
|
|
A napi
adatcserének köszönhetően
gyakorlatilag mindhárom adatbázis ugyanazt az
adatállományt tartalmazza, melynek
növekedését a különböző
kutatócsoportok és genom-szekvenálási
programok által beküldött szekvenciák
biztosítják. Ma már csak olyan
publikációt fogadnak el
közlésre, melyben a meghatározott szekvenciát
beküldték valamelyik adatbázisba, és a
cikkben szerepel a szekvenciára kapott regisztrációs
szám (AC vagy accesion
number).
Az új szekvencia a
beküldést követő néhány napon belül
már része az adatállománynak, szerepel a
különböző
szolgáltatások által végzett
elemzésekben, a regisztrációs szám
alapján pedig bárki lekérheti az interneten
keresztül.
helyi
bemutató:
EBI
/ EMBL - NCBI
/ GenBank
|
Az EBI honlapja.
Az
adatbázisok növekedése
Napjainkban a
nukleotidszekvencia adatbázis
nagyjából évente a duplájára nő
(2.1.ábra).
1999. október 1-én 4.7 millió (!)
rekordból állt, melyek összesen 3.6
gigabázisnyi szekvenciát (3.6 x 10 9 betű)
tartalmaztak.
A fejlődés a genomprogramok ( 6.táblázat)
elindulásával hihetetlen mértékben
felgyorsult. 1999. első nyolc hónapjában 1.6
millió rekord (1.3 gigabázis) került
regisztrálásra.
|
|
Ez napi 6400 új
rekordot és 5.4 megabázis szekvenciát jelent, ami megfelel egy baktérium
teljes genomjának!
Az EMBL
Nukleotidszekvencia Adatbázis honlapján
megtalálhatóak az adatbázis
növekedését mutató ábrák
és statisztikák is. Az aktuális
adatbázis tartalma 2006.
szeptemberében már
meghaladta a 147 milliárd bázispárnyi
szekvenciát és a 80
millió rekordot.
|
2.1. ábra:
A
nukleotidadatbázisok növekedése
és
a konkrét adatok .
|
soroz., év,
rekord, bp
1.
06/1982.
568. 585433
3.
12/1983.
1481. 1654863
4.
08/1984.
1698. 2147205
7.
12/1985.
5789. 5622638
10.
12/1986.
8817. 9766948
13.
10/1987.
14397. 1,6E+07
17.
11/1988.
20695. 2,4E+07
21.
11/1989.
28679. 3,5E+07
25.
11/1990.
41580. 5,3E+07
29.
12/1991.
57655. 7,5E+07
33.
12/1992.
89100. 1,1E+08
37.
12/1993. 146576.
1,6E+08
41.
12/1994.
230950. 2,3E+08
45.
12/1995. 622566.
4,3E+08
49.
12/1996. 1 047 263.
7,0E+08
53.
12/1997. 1 917 868. 1,3E+09
57.
12/1998. 3 046 471. 2,2E+09
61.
12/1999. 5 303 436. 4,5E+09
65.
12/2000. 9 549 382. 11E+09
69.
12/2001. 14E+06.
15E+09
73.
12/2002. 21E+06.
28E+09
76.
09/2003.
27E+06. 34E+09
80.
11/2004. 44E+06.
78E+09
85. 01/2006.
65E+06 117E+9
soroz, év,
rekord, bp
|
Fehérje
adatbázisok
A SWISS-PROT
fehérje-adatbázist 1986-ban kezdte el fejleszteni a Swiss
Institute for Bioinformatics ( SIB)
és ma a SIB és az EBI
kollaborációban tartja fenn.
A SWISS-PROT Release 48.8.(2006 jan.) összesen 205,780 olyan
szekvenciát tartalmazott, amelyet direkt
fehérjeszekvenálási módszerekkel
határoztak meg, vagy amelyeknél
a kísérleti adatok megfelelően
alátámasztják a funkciót ( Most?).
Ezeket az
adatbázis karbantartói egyenként
válogatják ki a nukleotid-adatbázisokba
beküldött új adatok közül. A SWISS-PROT
ugyanis a DNS-szekvenciákból következtetett
fehérjeszekvenciákat
nem foglalja automatikusan magába és nem is fogadja.
Van egy külön TrEMBL
fehérje-adatbázis,
amely minden olyan kódoló szekvencia (CDS)
"fordítását”
tartalmazza, ami az EMBL Nukleotidszekvencia Adatbázisba
bekerül. A TrEMBL Release 31.8. ( 2006. jan.) 2,533,011
rekordból állt ( Most?).
A fehérje adatbázisok
fejlődésének következő állomása az
előbb említett két adatbázist is magába
foglaló
UniProt (Universal
Protein Resource).
Ezeken kívül még
számos adatbázis létezik ( 5.
táblázat , és 6.
táblázat),
amelyeket részben más fejezetek említenek, illetve
további információ található
róluk a bioinformatikai intézetek honlapjain is.
|
|
Sok fontos szempontot kell
figyelembe venni az adatbázisokban való
keresésnél, de talán a legfontosabb az, hogy
megfelelően frissített, naprakész adatokkal tudjunk
dolgozni. Egy szekvencia többször is előfordulhat az
adatbázisokban, ezért létrehoztak
egy nem redundáns egyesített adatbázist is
( nr adatbázis), mind DNS-, mind
fehérjeszekvenciákból. Ezeket is naponta
kiegészítik a beérkezett új adatokkal
és hozzáférhetők a homológiakereső
programok számára.
Az nr adatbázis összetevőiről mindig
találunk leírást a homológiakeresés
eredményét tartalmazó szövegben és
további információhoz juthatunk az NCBI
honlapján keresztül is. Ha a célunk az, hogy
megtaláljuk a vizsgált szekvenciára legjobban
hasonlító
ismert szekvenciát, akkor ezeket az adatbázisokat kell
használni. Szükségtelen azonban — az első tesztet
követően — mindíg a teljes nr adatbázist
átvizsgálni, ha csak arra kíváncsi
valaki, hogy van-e az újonnan beküldött
szekvenciák
között egy jobb egyezést mutató szekvencia.
Ilyenkor
a keresést le kell szűkíteni egy meghatározott
időpont után regisztrált szekvenciák
körére.
|
 |
Az adatbázisok
egymással kapcsolatban állnak. Egy
szöveges keresés közben bármelyikhez
eljuthatunk.
Ha a PubMed irodalmi adatbázisban találunk egy
DNS-szekvenciát, a megfelelő rekordot elérhetjük egy
kattintással a Nukleotid adatbázisokban, vagy a
gén által kódolt fehérje
szekvenciáját lekérhetjük a fehérje
adatbázisokból. (lásd példával
később).
|
Az adatbázis rekord
Az adatbázisokba
beküldött szekvenciák és a hozzájuk
tartozó információk egységes
formátumban kerülnek rögzítésre
(adatbázisrekordok).
A nukelotidszekvenciák általában az őket
leíró publikációknak megfelelően jelennek
meg az adatbázisban. A szekvenciák mindig
5'—3' irányban szerepelnek, a bázisok pedig
értelemszerűen az 5' vég első
pozíciójától folyamatosan vannak
számozva.
A fehérjeszekvenciák az N-terminális
végtől kezdődnek. Az adatbázisok mind a
nukleotidok ( 9. táblázat), mind az
aminosavak ( 10. táblázat)
jelölésére egybetűs rövidítéseket
alkalmaznak.
|
|
A cDNS-szekvenciákat
RNS-ként tartják nyilván, a genomikus
szekvenciáknál
pedig a kódoló szál szekvenciája szerepel,
ha minden gén egy irányban helyezkedik el rajtuk.
Általában csak a “vad
típusú”
szekvencia szerepel az adatbázisban és a
különböző
mutációk okozta eltérésekről a “feature
table” rész tehet említést. A tRNS
molekulákat, mint nem módosított RNS
szakvenciákat regisztrálják, amelyek
kolineárisak a genomi szekvenciával és a
módosított bázisokról szintén a
“feature table” részből kaphatunk adatokat.
Egy EMBL és egy SWISS-PROT rekordot mutat be
a 2.2. és a
2.3. ábra . Látható, hogy nagyon
hasonló
elvek alapján épülnek fel.
|
2.2.
ábra: Egy eukariota genomi szekvencia adatlapja az EMBL
adatbázisból .
A pirossal jelzett részen két hiba
található
az exon-intron határok megadásában » 2.6. ábra
|
ID
ATCSCH42
standard; DNA; PLN; 6801 BP.
XX
AC X51799;
XX
SV X51799.1
XX
DT 16-MAR-1990 (Rel.
23, Created)
DT 11-MAR-1999 (Rel.
59, Last updated, Version 3)
XX
DE Arabidopsis
thaliana cs/ch-42 gene for a chloroplast protein (cs)
XX
KW chlorata locus;
chloroplast protein; unidentified reading frame.
XX
OS Arabidopsis
thaliana (thale cress)
OC Eukaryota;
Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC euphyllophytes;
Spermatophyta; Magnoliophyta; eudicotyledons;
OC core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae;
OC Arabidopsis.
XX
RN [1]
RP 1-6801
RA Mayerhofer R.;
RT ;
RL Submitted
(06-FEB-1990) to the EMBL/GenBank/DDBJ databases.
RL Mayerhofer R., MPI
fuer Zuechtungsforschung, Carl von Linne Weg 10, D 5000
RL Koeln
30, F R G.
XX
RN [2]
RP 1-6801
RA Koncz
C., Mayerhofer R., Koncz-Kalman Z., Nawrath C., Reiss B., Redei G.P.,
RA Schell J.;
RT Isolation of a
gene encoding a novel chloroplast protein by T-DNA tagging
RT in Arabidopsis
thaliana;
RL EMBO J.
9:1337-1347(1990).
XX
DR AGIS;
X51799; 17-SEP-1999.
DR MENDEL; 12580;
Arath;1780;12580.
DR SWISS-PROT;
P16127; CHLI_ARATH.
DR SWISS-PROT;
P16128; YCCH_ARATH.
XX
CC Data kindly
reviewed (02-APR-1990) by Mayerhofer R.
XX
FH
Key
Location/Qualifiers
FH
FT
source 1..6801
FT
/chromosome=4
FT
/db_xref=taxon:3702
FT
/organism=Arabidopsis thaliana
FT
/strain=columbia
FT
/map=39.4
FT
CDS
complement(<1..872)
FT
/db_xref=MENDEL:12580
FT
/db_xref=SWISS-PROT:P16128
FT
/note=ORF (291 AA)
FT
/protein_id=CAA36096.1
FT
/translation=MLCFSASRLDDFDLGSSPPKKGSKTTTKSMDCEEICASSKSDKSD
FT
DLDFGLDLPITRQVPSKANTDVQAKASAEKESQNYKTTDTLVVNKSKNSNQAALESMGD
FT
FEAVESPQGSRKKASQTHTMCVQPQSVDTSPLKTSCSKVEEKNEPCPSNETIAPSPLHA
FT
SEIAHIAVNRETSPDIHELCRSGTKEDCPIDPENANKKMITTMESSYEKIEQTSPSISS
FT
HLCSDKIEHQQEEMGTDTQAEIQDNTKGALYNSDAGHSLTTLSGKISPGTRTSQTAKVQ
FT
DLSEKLPLDP
FT
precursor_RNA 2770..4382
FT
/note=primary transcript
FT
mRNA
join(2770..2899,2981..3095,3205..4382)
FT
/note=exon 1
FT
CDS
join(2796..,..3095,3205..4260)
FT
/db_xref=SWISS-PROT:P16127
FT
/note=chloroplast protein
FT
/protein_id=CAB38561.1
FT
/translation=MASLLGTSSSAIWASPSLSSPSSKPSSSPICFRPGKLFGSKLNAG
FT
IQIRPKKNRSRYHVSVMNVATEINSTEQVVGKFDSKKSARPVYPFAAIVGQDEMKLCLL
FT
LNVIDPKIGGVMIMGDRGTGKSTTVRSLVDLLPEINVVAGDPYNSDPIDPEFMGVEVRE
FT
RVEKGEQVPVIATKINMVDLPLGATEDRVCGTIDIEKALTEGVKAFEPGLLAKANRGIL
FT
YVDEVNLLDDHLVDVLLDSAASGWNTVEREGISISHPARFILIGSGNPEEGELRPQLLD
FT
RFGMHAQVGTVRDADLRVKIVEERARFDSNPKDFRDTYKTEQDKLQDQISTARANLSSV
FT
QIDRELKVKISRVCSELNVDGLRGDIVTNRAAKALAALKGKDRVTPDDVATVIPNCLRH
FT
RLRKDPLESIDSGVLVSEKFAEIFS
FT
exon
2770..2899
FT
/number=1
FT
intron 2900..2980
FT
/number=1
FT
exon
2981..3095
FT
/number=2
FT
intron 3096..3204
FT
/number=2
FT
exon
3205..4382
FT
/number=3
FT
polyA_signal 4378..4382
XX
SQ Sequence 6801 BP;
2093 A; 1242 C; 1374 G; 2092 T; 0 other;
ggatccagtg gtagcttttc actcaaatct tgtaccttgg cagtttggct
tgtacgagtg 60
cctggtgata ttttgcctga gagggttgtt agagaatgtc cagcatctga
gttatacagt 120
gctcctttag tgttatcctg tatttctgcc tgagtgtctg tacccatttc
ttcctgttga 180
tgttctatct tgtctgaaca taaatgagat gagatgcttg gtgaagtctg .......... |
|
A rekord elején a
szekvencia rövid leírása és az
azonosító
adatok találhatók. A szekvencia elnevezése, a
rekord státusza, a molekulatípus, a taxonómiai
beosztás (baktérium, növény ...stb) és
a teljes
szekvencia hossza található az :
- ID ( identification ) sorban.
- AC ( accession number ) ebben a sorban
található
a regisztrációs szám . Lehet több is belőle.
A további sorok jelentése a
következő :
- SV ( sequence version ) szekvencia-változat,
- DT ( date ) a beküldés és a
módosítás dátuma,
- DE ( description ) a szekvencia rövid
leírása,
- KW ( keyword ) kulcsszavak,
- OS ( organism species ) a szekvencia
forrásaként szolgáló faj megnevezése,
- OC ( organism classification ) taxonómiai
besorolás,
- OG ( organelle ).
Ezek után következnek az irodalmi hivatkozásokat
tartalmazó bejegyzések :
- RN ( reference number),
- RC ( reference comment ),
- RP ( reference positions ),
- RX ( reference cross-reference ),
- RA ( reference authors ),
- RT ( reference title ),
- RL ( reference location ),
- DR ( database cross-reference ),
- CC (comments). Első referenciaként a
szekvenciát beküldők adatai szerepelnek, utána pedig
a szekvenciával kapcsolatos cikkek, ha a beküldôk
frissítették az első beküldés után az
adatokat.
|
|
A harmadik adatcsoport, a “feature
table”,
a szekvenciát magát jellemzi az
- FH (feature table header) fejléc
és
- FT (feature table data) adatsorokon keresztül,
megadva a kódoló (CDS) szekvenciák, az exon-intron
határok, promoter, terminátor ... stb. helyek
koordinátáit és a kódoló
régió(k) által meghatározott
fehérjé(k) szekvenciáját. SWISS-PROT rekord
esetében az ismert domének, aktív helyek jellemzői
szerepelnek ezen a helyen. Az
- XX (spacer line) üres sorok
átláthatóbbá
teszik az egész adathalmazt.
Végül, a rekord második
felében található maga a szekvencia a megfelelő
számozással ellátva. Az
- SQ (sequence header) sorban a szekvencia teljes
hossza és bázisösszetétele
található.
A GenBank rekord az előbbiekhez
hasonló felépítésű, de a sorok
elején található kétbetűs
jelölések helyett általában egész
szavak szerepelnek, így például a DE helyett
LOCUS, az AC helyett ACCESSION.
Az adatbázis rekordok más formátumuvá
alakításáról a 4.3.4.
fejezetben van röviden szó.
Fontos tudni, hogy a rekord —
néhány kötelező információn
kívül — azt tartalmazza, amit a szerzők jónak
láttak megadni! Ezt az adatbáziskezelők csak a szerzők
kérésére javítják illetve
egészítik ki. Ezért sokszor előfordul, hogy egy
rekord nem naprakész és téves
információkat is hordoz. Ne vegyünk mindent
szentírásnak és ellenőrizzük több
oldalról is a számunkra lényeges adatokat !
|
2.3. ábra : Egy SWISS-PROT rekord felépítése
» 2.1.1 .
|
ID
CHLI_ARATH
STANDARD;
PRT; 424 AA.
AC P16127;
DT 01-APR-1990 (Rel.
14, Created)
DT 01-APR-1990 (Rel.
14, Last sequence update)
DT 15-FEB-2000 (Rel.
39, Last annotation update)
DE
MAGNESIUM-CHELATASE SUBUNIT CHLI PRECURSOR (PROTEIN CS/CH-42)
DE (MG-PROTOPORPHYRIN
IX CHELATASE).
GN CHLI OR CS OR CH42
OR F28J12.140.
OS Arabidopsis
thaliana (Mouse-ear cress).
OC Eukaryota;
Viridiplantae; Embryophyta; Tracheophyta; Spermatophyta;
OC Magnoliophyta;
eudicotyledons; Rosidae; eurosids II; Brassicales;
OC Brassicaceae;
Arabidopsis.
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=CV.
COLUMBIA;
RX MEDLINE; 90228329.
RA Koncz
C., Mayerhofer R., Koncz-Kalman Z., Nawrath C., Reiss B.,
RA Redei
G.P., Schell J.;
RT "Isolation of a
gene encoding a novel chloroplast protein by T-DNA
RT tagging in
Arabidopsis thaliana.";
RL EMBO J.
9:1337-1346(1990).
RN [2]
RP SEQUENCE FROM N.A.
RC STRAIN=CV. DIJON;
TISSUE=CALLUS;
RA Putnoky P., Koncz
C.;
RL Submitted
(SEP-1995) to the EMBL/GenBank/DDBJ databases.
RN [3]
RP SEQUENCE FROM N.A.
RC STRAIN=CV.
COLUMBIA;
RA Bevan
M., Hilbert H., Braun M., Holzer E., Brandt A., Duesterhoeft A.,
RA Bancroft I., Mewes
H.-W., Mayer K., Schueller C.;
RL Submitted
(FEB-1998) to the EMBL/GenBank/DDBJ databases.
CC -!- FUNCTION:
INVOLVED IN CHLOROPLAST PIGMENT BIOSYNTHESIS; INTRODUCES
CC
A MAGNESIUM ION INTO PROTOPORPHYRIN IX TO YIELD MG-
CC
PROTOROPORPHYRIN IX.
CC -!- PATHWAY:
CHLOROPHYLL BIOSYNTHESIS.
CC -!- SUBCELLULAR
LOCATION: CHLOROPLAST STROMA.
CC -!- SIMILARITY:
BELONGS TO THE MG-CHELATASE SUBUNITS D/I FAMILY.
CC
--------------------------------------------------------------------------
CC This SWISS-PROT
entry is copyright. It is produced through a collaboration
CC between
the Swiss Institute of Bioinformatics and the EMBL
outstation -
CC the European
Bioinformatics Institute. There are no restrictions
on its
CC use
by non-profit institutions as long as its
content
is in no way
CC modified and this
statement is not removed. Usage by and for commercial
CC entities requires
a license agreement (See http://www.isb-sib.ch/announce/
CC or send an email
to license@isb-sib.ch).
CC
--------------------------------------------------------------------------
DR EMBL;
X51799; CAB38561.1; -.
DR EMBL;
X91411; CAA62754.1; -.
DR EMBL;
AL021710; CAA16728.1; -.
DR PIR; S12785;
S12785.
DR PIR; S23088;
S23088.
DR MENDEL; 7195;
ARAth;chlI;1.
DR PFAM;
PF01078; Mg_chelatase; 1.
KW Photosynthesis;
Chlorophyll biosynthesis; Chloroplast;
KW Transit peptide;
ATP-binding.
FT
TRANSIT
1
? CHLOROPLAST (POTENTIAL).
FT
CHAIN
?
424 MAGNESIUM-CHELATASE SUBUNIT
CHLI.
FT
NP_BIND 119
126 ATP (POTENTIAL).
SQ
SEQUENCE
424 AA; 46269 MW; 30075DBBC31330DE CRC64;
MASLLGTSSS AIWASPSLSS PSSKPSSSPI CFRPGKLFGS KLNAGIQIRP KKNRSRYHVS
VMNVATEINS TEQVVGKFDS KKSARPVYPF AAIVGQDEMK LCLLLNVIDP KIGGVMIMGD
RGTGKSTTVR SLVDLLPEIN VVAGDPYNSD PIDPEFMGVE VRERVEKGEQ VPVIATKINM
VDLPLGATED RVCGTIDIEK ALTEGVKAFE PGLLAKANRG ILYVDEVNLL DDHLVDVLLD
SAASGWNTVE REGISISHPA RFILIGSGNP EEGELRPQLL DRFGMHAQVG TVRDADLRVK
IVEERARFDS NPKDFRDTYK TEQDKLQDQI STARANLSSV QIDRELKVKI SRVCSELNVD
GLRGDIVTNR AAKALAALKG KDRVTPDDVA TVIPNCLRHR LRKDPLESID SGVLVSEKFA
EIFS
// |
FASTA-forma :
Van egy rövidebb
adatbázis-rekord forma is, mely a szekvencián
kívül csak a regisztrációs számot
és egy rövid leíró fejlécet tartalmaz.
(2.4. ábra). A homológiakereséseket
végző programok az ilyen rövid változatokból
álló, egyesített adatbázisokkal
dolgoznak.
Sokszor a FASTA-formátumot kell
a szekvenciaelemzéseket végző honlapokon is
használni, azaz az első sorban az első karakter a
> (nagyobb mint) jel.
|
|
Ez után lehet az
elemzésre
elküldött szekvencia nevét és az esetleges
megjegyzéseket írni. A második sortól
következik a számozás nélküli
szekvencia. Minden sor legfeljebb 80 karakter lehet.
A szekvencia adatbázisokból is megkaphatjuk FASTA
formában a szekvenciát, ha a Display (GenBank) vagy
format lehúzható ablakoknál ezt a
formátumot állítjuk be.
Próbáljuk ki: X51799 GenBank
|
2.4.
ábra: Egy DNS szekvencia FASTA
formátumban » 2.1.1 .
|
>proba.seq -
ide bármi kerülhet pl. szekvencia neve (egy sor !)
CTGCAGCCGGTCGGAACGCGTGCCCATGTCCAGGTCTGCGGCACCACGCCCTGCATGCTGCGCGGCGCCGAAGACCTGAT
CAAGATCTGCAAGAAGAAGATCGCCAGCGAACCGTTCACCCTCAATGAGGGCGGCACGCTTTCCTGGGAAGAGGTCGAAT
GTCAGGGCGCCTGCGTCAACGCGCCGATGGTCATGATCTTCAAGGGACACGTTCGAGGATCTGACGCCGGAGCGGCTCGA
|
Szöveg alapú
adatbázis keresés
Sokszor szükség van arra,
hogy kulcsszavak segítségével találjuk meg
az adott témakörrel kapcsolatos cikkeket és
szekvenciákat. E célra hozták létre az
olyan molekuláris biológiai adatbázis- és
keresőrendszereket, mint az ENTREZ
(antré), az SRS és a
DBGET ( » 5. táblázat
), melyek több független adatbázist fognak össze
egy rendszerré. Nagy előnyük, hogy nemcsak a kulcsszavaknak
megfelelő információhoz jutunk hozzá
általuk, hanem linkek segítségével
megnézhetjük a vonatkozó oldalakat a
különböző
adatbázisokban, és hozzájuthatunk az ezekkel
kapcsolatban lévő, hasonló témát
tartalmazó
oldalakhoz is.
A kulcsszavak megfelelő kiválasztása
elősegíti a sikeres munkát ( 2.1.1.
ábra ) Kettő vagy több alkalmas kulcsszó
megadásával jelentősen csökkenthetjük a
kiválogatott
— és így egyenként átnézendő —
rekordok mennyiségét. A megfelelő "szűrést" a
kulcsszavak közötti viszonyt meghatározó
három logikai kapcsoló ( Boole-féle
operátor) biztosítja: az AND , az OR
és a NOT . Alaphelyzetben az AND van
általában érvényben
(keresőprogramtól függ ! ), tehát csak azokat
a rekordokat szűri ki a program, ahol minden megadott
kulcsszó együttesen szerepel
( 2.1.1. ábra ).
|
|
A kulcsszavak megfelelô
kiválasztása elôsegíti a sikeres
munkát. Kettô vagy több alkalmas kulcsszó
megadásával jelentôsen csökkenthetjük a
kiválogatott — és így egyenként
átnézendô — rekordok mennyiségét. A
megfelelô "szûrést" a kulcsszavak
közötti viszonyt meghatározó három
logikai kapcsoló
( Boole-féle operátor ) biztosítja : az AND, az OR
és a NOT. Alaphelyzetben az AND van
általában
érvényben ( keresôprogramtól függ !
), tehát csak azokat a rekordokat szûri ki a
program,
ahol minden megadott kulcsszó együttesen szerepel.
Ha túl sok rekordot kapunk a keresés
végén, akkor további kulcsszó
megadásával vagy a kulcsszavak
változtatásával kell szigorúbb
"szűrőt" alkalmazni. Ha egy kifejezést keresünk
( pl. ), akkor azt idézôjelek közé kell tenni,
ha pedig hasonló tövû szavak
elôfordulását is megengedjük, akkor a * ( wild
card , joker ) jelet alkalmazzuk. Ha nem találtuk meg azt, amit
kerestünk, vagy teljesebb képet szeretnénk kapni egy
adott témáról, akkor használjunk több
kulcsszó-variációt. Sokszor egy kötôjel
elhagyása vagy beiktatása is csodákat tehet.
|
2.2.1.
ábra:
Szöveg alapú
keresés eredményei a PubMed adatbázisban (ENTREZ)
|
|
alkalmazott kifejezés
|
találatok száma
(2002.10.08.)
|
cancer
|
1.439.870
|
brest cancer
|
204
|
breast cancer
|
123.039
|
breast-cancer
|
123.039
|
"breast cancer"
|
64.901
|
"breast cancer" AND genes
|
4.862
|
"breast cancer" AND mice
|
3.202
|
Brca1
|
2.679
|
Brca1 sequence
|
619
|
BRCA1 gene structure
|
43
|
BRCA1 gene structure mouse
|
10
|
|
Az
ENTREZ -rendszert az
NCBI fejlesztette ki. Talán ez a
legkönnyebben kezelhető kapcsolt keresőrendszer,
mely magába foglalja a PubMed, a GenBank, a SWISSPROT, az
MMDB (molecular modelling 3D structures database), a genom és
géntérképek és a taxonómiai
adatbázisokat.
Először ki kell választanunk, hogy melyik
adatbázis legyen a kiindulópont. Egyszerű
esetben ez a GenBank vagy SWISS-PROT is lehet, és megadhatjuk
egy rekord regisztrációs számát, de a
rendszer igazi haszna a kulcsszavas keresésnél mutakozik
meg. A keresés eredményeként a kulcsszavak
segítségével kiválogatott oldalak, cikkek,
adatbázis rekordok hosszú
sorát kapjuk, és megnézhetjük az
átkeresett adatbázis ezekkel rokon rekordjait is
(neighbors). Ezen felül "linkeket" találunk a többi
adatbázis kapcsolódó
rekordjaihoz is.
|
|
Az SRS-rendszer 80
biológiai adatbázist kapcsol össze. Az EBI
fejlesztette ki és gondozza. A szekvencia adatbázisokon
kívül, anyagcsere utakat, transzkripciós faktorokat,
mutációkat, 3D struktúrákat ...stb
tartalmazó
adatbázisok képezik a részeit. Ezek
mindegyikét elérhetjük, kereshetjük és
átválthatunk egyikből a másikba. Az SRS program
szabadon felhasználható. Több független SRS
rendszer is elérhető az
interneten keresztül, melyek mindegyike más
adatbázis
háttérrel rendelkezik. Egy kiválóan
használható SRS honlapot tart fenn a The Sanger Centre
is ( SRS-Sanger ).
|
|
2.5
ábra:
Az ENTREZ rendszer által kereshető
adatbázisok és a közöttük lévő
kapcsolat (DEMO).
Az adatbázisok száma folyamtosan bővül.
A bemutatott kép 2006. januárjában
készült.
Most
? |
Génkereső programok
Egy puszta DNS-szekvencián
belül több módszer segítségével
is valószínűsíthetjük egy gén, illetve
a kódoló régió
helyzetét. Legkönnyebb dolgunk akkor van, ha a
cDNS-szekvencia ismert, vagy a vizsgált szakasz olyan
fehérjét
kódol, melynek erősen homológ párja
megtalálható
valamelyik adatbázisban.
Egy eukarióta genomi
DNS-szakaszon, mely feltételezhetően több exont hordoz,
már
nehezebb feladat csak programok segítségével egy
gént lokalizálni. Ilyen esetekben jellegzetes
szekvenciamotívumok (“szignálok”) meglétére
lehet keresni. Ilyenek a splice site, start- és stopkodon,
transzkripció terminációs szekvenciák,
poliadenilációs hely, riboszóma kötőhely,
transzkripciós faktorok kötőhelyei és a jellegzetes
promoter elemek. Ezek mellett a bázisok
előfordulásának statisztikai elemzése és a
lehetséges kódolt fehérjetermék
elemzése, azaz a “tartalom” vizsgálata is segít az
azonosításban.
Egy “ szignál ”
azonosítás történhet egy egyszerű konszenzus
szekvencia meglétére való kereséssel vagy
egy nagyobb variációs lehetőségeket
leíró képlet (signal sensor)
használatával. Ez utóbbi esetben ún.
súlyozott mátrixot (weight matrix) alkalmaznak, mely
minden pozícióban megengedi mind a négy
bázis jelenlétét, de különböző
értékeket ad ezeknek, attól függően, hogy
mennyire egyezik az adott pozíció a konszenzus
szekvenciájéval.
Az egyes pozíciókra
adott pontok összege (score) jelzi annak
valószínűségét, hogy az azonosított
szekvencia valóban "szignál"-e. Egy
határértéken felül a “jelölt” helyet
“igaznak” értékeli a program. A fejlettebb programok
számos szignálelem meglétét
vizsgálják egyszerre, de az "előrejelzés"
így is sok bizonytalanságot hordoz magában.
|
|
A “tartalom”
vizsgálatára az egyik legtöbbet használt
elem a kódoló régió előrejelzése.
Prokariótáknál (és cDNS) a legegyszerűbb
esetben elég egy megfelelően hosszú kódoló
régió (ORF) azonosítása.
Természetesen eukarióta genomi szekvenciák
esetében ez nem járható út. Az ún.
Markov-modellek a legtöbbször alkalmazott statisztikai
modellek, melyeket a tartalmi elemzéseknél
használnak. Ezenkívül a géneket gyakran
megelőző CG-gazdag szekvenciák (CpG islands) vagy a humán
Alu-szekvenciák szintén támpontokat
szolgáltathatnak az analízisben, mint feltehetően a
kódoló részt megelőző illetve
nem kódoló (az elemzésből kizárandó)
régiók.
A legújabb programok a
két módszert ötvözik és képesek a
bonyolultabb összefüggéseket is kezelni egy gén
számos alkotóeleme között » 7. táblázat . Úgy tekintik a
gént, mint egy mondatot, mely alkotóelemeiből
meghatározott szabályok szerint épül fel. A
génre egy olyan modellt alkottak, mely egyaránt
magában foglalja az exonok eltérő
kodonhasználatától kezdve a “splice site”-ra
megadott súlyozott mátrixon keresztül a
transzlációs és transzkripciós
terminációs helyek jellemzőit és azt a “nyelvtani”
szabályt is, hogy mely elemet milyen másik elem
követhet.
A GeneMark-HMM program által, egy Arabidopsis
genomi szekvenciáról (X51799, 2.2. ábra)
készített elemzés eredménye
látható a 2.6. ábrán .
Ez egy kontroll elemzésnek is tekinthető, hiszen nemcsak a
genomi, hanem a cDNS- ( mRNS- ) szekvencia is ismert. A három
exonból álló
génnél a program a kísérletesen igazolt
exonhatárokat jelölte ki.
Nyilvánvalóan nagyságrendekkel bonyolultabb a
helyzet akkor, amikor több száz kilobázis
nagyságú
intronokkal is számolnunk kell és a genom nem olyan
"kompakt", mint az Arabidopsis esetében.
|
2.6. ábra : A GeneMark.hmm által
készített elemzés a 2.2.
ábrán látható Arabidopsis
genomi szekvenciáról.
Hasonlítsuk össze az
exonok koordinátáit. Az
X51799 rekordban a cs cDNS szekvenciájának
ismeretében határozták meg az exon-intron
határokat, míg a GeneMark.hmm program erre
“jóslást” készített. Kék szín
jelzi a cs génre vonatkozó adatokat. (A rekordban rosszul
adtak meg két exon-intron határt,
de ez nem okozott hibát a fehérje
"transzlációjakor". Miért ?) |
GeneMark.hmm (Version 2.2)
Sequence name: cs_gen.seq
Sequence length: 6801 bp
C+G content: 38.46%
Matrix: Arabidopsis thaliana
Sun Jan 30 03:31:12 2000
Predicted genes/exons
Gene
Exon Strand
Exon
Exon Range Exon
Start/End
# #
Type
Length Frame
1 3
- Internal
36
849
814 3 3
1 2
- Internal
940
1119
180 3 2
1 1
- Initial
1286
1386
101 1 2
2 1 +
Initial
2796 2898
103
1 1
2 2 +
Internal
2980 3095
116
2 3
2 3 +
Terminal
3205 4260
1056
1 3
3 8
-
Terminal
4546
4690
145 3 3
3 7
- Internal
4813
4889
77 1 2
3 6
- Internal
4985
5038
54 1 3
3 5
- Internal
5107
5193
87 1 3
3 4
- Internal
5272
5370
99 1 3
3 3
- Internal
5457
5528
72 1 3
3 2
- Internal
5688
5777
90 1 3
3 1
- Initial
5882
5980
99 1 3
4 1
+
Initial
5992
6072
81 1 3
4 2
+ Internal
6212
6265
54 1 3
4 3
+ Internal
6365
6465
101 1 2
4 4
+ Internal
6561
6623
63 3 2
GeneMark.hmm Protein Translations
Go to: GeneMark.hmm Listing
Go to: Job Submittal
>cs_gen.seq_1|GeneMark.hmm|peptide 1|365_aa
MEKDTWNFKSMTDDDPMDFGFGSPAKNKKNAFKLDMGFDLDGDFGSSFKMDMPDFDFSSP
AKKTTKTKETSDDKPSGNSKQKKNPFAFSYDFDALDDFDLGSSPPKKGSKTTTKSMDCEE
ICASSKSDKSDDLDFGLDLPITRQVPSKANTDVQAKASAEKESQNYKTTDTLVVNKSKNS
NQAALESMGDFEAVESPQGSRKKASQTHTMCVQPQSVDTSPLKTSCSKVEEKNEPCPSNE
TIAPSPLHASEIAHIAVNRETSPDIHELCRSGTKEDCPIDPENANKKMITTMESSYEKIE
QTSPSISSHLCSDKIEHQQEEMGTDTQAEIQDNTKGALYNSDAGHSLTTLSGKISPGTRT
SQTAK
>cs_gen.seq_2|GeneMark.hmm|peptide
2|424_aa
MASLLGTSSSAIWASPSLSSPSSKPSSSPICFRPGKLFGSKLNAGIQIRPKKNRSRYHVS
VMNVATEINSTEQVVGKFDSKKSARPVYPFAAIVGQDEMKLCLLLNVIDPKIGGVMIMGD
RGTGKSTTVRSLVDLLPEINVVAGDPYNSDPIDPEFMGVEVRERVEKGEQVPVIATKINM
VDLPLGATEDRVCGTIDIEKALTEGVKAFEPGLLAKANRGILYVDEVNLLDDHLVDVLLD
SAASGWNTVEREGISISHPARFILIGSGNPEEGELRPQLLDRFGMHAQVGTVRDADLRVK
IVEERARFDSNPKDFRDTYKTEQDKLQDQISTARANLSSVQIDRELKVKISRVCSELNVD
GLRGDIVTNRAAKALAALKGKDRVTPDDVATVIPNCLRHRLRKDPLESIDSGVLVSEKFA
EIFS
>cs_gen.seq_3|GeneMark.hmm|peptide 3|240_aa
MIRALEVLYSLQILDDDAKLTSPTGFQVAELPLDPMISKMILASSELGCSHEIITIAAVL
SVQYVWIIARGVQKEQDEAKLRFAAAEGDHVTFLNVYKGFLESKKPTQWCYKNFLNYQSM
KKVVEIRDQLKRIARRLGITLKSCDGDMEAVRKAVTAGFFANACRLEPHSNGVYKTIRGS
EEVYIHPSSVLFRVNPKWVVYQSIVSTERQYMRNVVTINPSWLTEVAPHFYQNRQNAMSF
>cs_gen.seq_4|GeneMark.hmm|peptide 4|99_aa
MEVQANRNPRYYLCPKLLAENTKKINRGVVYVIDSGFSKQKFYNPISDIESVEEAPISKA
SARQRSGRAGRVRPGKCYRLYTEDYFLNQMPGEGIPEMQ
|
|