Az V. éves biológusok számára kötelező biotechnológia kurzus,
és a biológiai laboratóriumi operátor szak bioinformatika kurzus anyaga
frissítve: 2006.10.03.
Bevezető

   A számítógépes adatbázisok, hálózatok és programok ma már nélkülözhetetlen eszközök a molekuláris biológiában. A jól csengő "bioinformatika" kifejezés használatos arra, hogy összefogja mindazokat a módszereket és műveleteket — kezdve a laboratóriumi adatkezeléstől az eredmények értékelésén keresztül az elektronikus publikálásig, a DNS- és fehérjeszekvenciák adatbázisokba való gyűjtéséig —, melyek célja a kísérletes munka segítése, a molekuláris evolúciós folyamatok megértése, a gének és fehérjék szerkezetének és funkciójának becslése számítógépes elemzés segítségével.

   Tágabb értelemben a bioinformatikához tartozik minden biológiával kapcsolatos számítógépes adatfeldolgozás és értékelés, így például a különböző poliszacharidok szerkezetét tartalmazó adatbázisok vagy a taxonómiai adatbázisok alkalmazása is. Szűkebb értelemben bioinformatika alatt csak a DNS- és fehérjeszekvenciák összehasonlítását, elemzését, a bennük rejlő biológiai információ számítógépes előrejelzését értjük.

  1982-ben készült el az első nukleotid adatbázis, amely 568 rekordot és összesen 585,433 bázisnyi információt tartalmazott. 2006. szeptemberében ugyanebben az adatbázisban 80 millió rekordban 147 milliárd bázispárnyi szekvenciát tárolnak. Hihetetlen adattömeg, ami még mindig exponenciálisan növekszik! Az informatika és az internet fejlődésének köszönhetően mégis kezelhető, nyilvános és meghatározó hajtóereje a biológia, az orvostudomány fejlődésének.



   Gondoljunk csak bele! 1953-ban jelent meg Watson és Crick cikke a Nature folyóiratban a DNS szerkezetének javasolt megfejtésével. 1970-ben a DNS darabolását még finom lézersugár segítségével képzelte el  Taylor, tekintélyes tudósokkal való beszélgetései nyomán, a Biológiai pokolgép című könyvében. Arber, Smith és Nathans 1978-ban már Nobel-díjat kap a restrikciós enzimek felfedezéséért és a molekuláris biológiában való alkalmazásukért. Két évvel később, 1980-ban Gilbert és Sangerkapott Nobel-díjat a DNS bázissorrendjének meghatározására kidolgozott módszerekért. Géntárak készítése, gének izolálása, bázissorrendjük meghatározása révén ekkor indult fejlődésnek a bioinformatika is. 

  Alig 50 évvel a DNS jelentőségének felismerése után elvben bárki megtudhatja, milyen genetikai betegségek hordozója és megismerheti akár genetikai programjának teljes leírását is.

Közel száz prokariota genom, az élesztő (Saccharomyces cerevisiae), egy nematoda faj (Caenorhabditis elegans) az ecetmuslica (Drosophila melanogaster), az ember és legősibb háziállata, a kutya teljes DNS-szekvenciáját már  meghatározták. Ugyancsak ismert több növény, mint  a lúdfű (Arabidopsis thaliana), a rizs (Oryza sativa)  DNS-szekvenciája is, és számos más eukariota modellszervezet szekvenciaanalízise lendületesen folyik. Az adatok feldolgozása és értékelése elképzelhetetlen bioinformatikai programok és ismeretek nélkül.


   Természetesen a számítógépes elemzés csak egy újabb, egyre hatékonyabb eszköz. Nagyon sokat segíthet egy adott szerkezet vagy funkció tisztázásában, de mindaddig, amíg ennek kísérletes bizonyítékát nem szolgáltatjuk, bármilyen egyértelmű is az eredmény, azt csak feltételezésnek tekinthetjük. Az elemzés nem helyettesíti a biológiai kísérletet, hanem ötleteket szolgáltat és irányt szab a kísérletek tervezéséhez. 

A következő néhány oldal röviden összefoglalja a legfontosabb alapfogalmakat és módszereket. Aki többet szeretne megtudni, az keresse fel az egyetemi bioinformatika honlapot:  www.bioinfo.pte.hu .


DNS, gének és fehérjék: rövid emlékeztető.


DNS- és fehérjeszekvenciák számítógépes elemzése

A különböző bioinformatikai intézetek honlapjain egyre több és szekvenciaanalízisre szolgáló program érhető el. Ezek a szolgáltatások bárki számára ingyenesen hozzáférhetők és a használatukhoz csak egy, a világhálóra csatlakoztatott személyi számítógére van szükség.

   Tehát az elemzések elvégzéséhez nem kell rendelkezni sem a megfelelő adatbázisokkal, sem a szükséges számítógépes kapacitással. Ráadásul gyorsabban elkészül a feladattal egy nagy teljesítményű, interneten keresztül elérhető számítógép, mint a helyi. Persze a "helyi" nem feltétlenül a velünk egy épületben lévő számítógépet jelenti és sok olyan feladat van, amit csak egy ilyen rendszer ismeretében és használatával oldhatunk meg.

   Mielőtt megismernénk a különböző lehetőségeket, fontos mégegyszer hangsúlyozni, hogy a számítógépes elemzés csak segédeszköz egy gén szerkezetének felderítésében vagy egy fehérje funkciójának megtalálásában. Bármilyen erős is a homológia két szekvencia között vagy egyértelmű egy motívum jelenléte, a kapott eredmény csak feltételezésnek (predikció) tekinthető mindaddig, amíg ezt kísérletekkel nem bizonyítjuk. Az elemzés nem helyettesíti a biológiai kísérletet, hanem ötleteket szolgáltat arra nézve, hogy milyen irányban haladjunk tovább a kísérletes munkában.

   A kérdéses szekvencia (query sequence) az a nukleotid- vagy fehérjeszekvencia, amelyet a számítógépes programok segítségével vallatóra fogunk.

Alapvetően kétféle szekvenciaanalízis létezik, függetlenül attól, hogy DNS- vagy fehérjeszekvenciáról van-e szó. Az egyik az általános homológiakeresés, a másik a szekvencia belső sajátságainak elemzése. Természetesen a legjobb, ha mindkét megközelítést alkalmazzuk.

  A homológiakeresés esetében a kérdéses szekvenciát hasonlítjuk össze az összes eddig ismert szekvenciával, majd a talált hasonló szekvenciák (gének, fehérjék) funkciójának ismeretében feltételezést teszünk a vizsgált gén vagy fehérje funkcióját illetően. Tehát a homológiaelemzés adatbázisokban való keresést és a szekvenciák hasonlóságának meghatározását jelenti.

A “belső” sajátságok analízise vagy tartalomelemzés több különböző művelet összege lehet, az exonoknak a szekvencia statiszikai jellemzőin alapuló predikciójától a kódolt fehérjeszerkezet jóslásáig. Egyik jellemző formája a lokális bázisösszetétel elemzése. Ezt az teszi lehetővé, hogy a kódoló szekvenciák bázisösszetétele, kodonhasználata függ a kódolt információtól  és az organizmustól, míg egy nem kódoló rész inkább hasonlít egy véletlenszerű, random DNS- szekvenciára.

    A szekvenciaelemzés első feltétele, hogy a vizsgálni kívánt szekvencia valamilyen fájl formájában jelen legyen a számítógépünkön. A következő lényeges dolog, hogy ismerjük a szekvencia-adatbázisokat és ki tudjuk választani az elemzéshez a legmegfelelőbbet.


Nukleotidszekvencia adatbázisok

    A DNS- és fehérjeszekvenálási módszerek elterjedésével szinte egy időben lépett fel az igény a meghatározott szekvenciákat összegyűjtő és a számítógépes elemzéseket lehetővé tevő elektronikus adatbázisok létrehozására.

Az EMBL Nukleotidszekvencia Adatbázist 1980-ban alapították; eredetileg Heidelbergben volt a székhelye. Ma Európa elsődleges adatbázisa, amelyet az EBI (European Bioinformatics Institute, Hinxton, UK) gondoz, szoros együttműködésben a GenBank  (székhely: NCBI - National Center for Biotechnology Information, Bethesda, Maryland, USA) és a DDBJ (DNA Database of Japan, székhely: CIB - Center for Information Biology, Mishima, Japan) adatbázisokkal » 5. táblázat .



    A napi adatcserének köszönhetően gyakorlatilag mindhárom adatbázis ugyanazt az adatállományt tartalmazza, melynek növekedését a különböző kutatócsoportok és genom-szekvenálási programok által beküldött szekvenciák biztosítják. Ma már csak olyan publikációt fogadnak el közlésre, melyben a meghatározott szekvenciát beküldték valamelyik adatbázisba, és a cikkben szerepel a szekvenciára kapott regisztrációs szám (AC vagy accesion number).  

Az új szekvencia a beküldést követő néhány napon belül már része az adatállománynak, szerepel a különböző szolgáltatások által végzett elemzésekben, a regisztrációs szám alapján pedig bárki lekérheti az interneten keresztül.

helyi  bemutató:
EBI / EMBL - NCBI / GenBank

 

Az EBI honlapja.


Az adatbázisok növekedése

Napjainkban a nukleotidszekvencia adatbázis nagyjából évente a duplájára nő (2.1.ábra).

1999. október 1-én 4.7 millió (!) rekordból állt, melyek összesen 3.6 gigabázisnyi szekvenciát (3.6 x 109 betű) tartalmaztak.

A fejlődés a genomprogramok (6.táblázat) elindulásával hihetetlen mértékben felgyorsult. 1999. első nyolc hónapjában 1.6 millió rekord (1.3 gigabázis) került regisztrálásra.



Ez napi 6400 új rekordot és 5.4 megabázis szekvenciát jelent, ami megfelel egy baktérium teljes genomjának!

Az EMBL Nukleotidszekvencia Adatbázis honlapján megtalálhatóak az adatbázis növekedését mutató ábrák és statisztikák is. Az aktuális adatbázis tartalma 2006. szeptemberében már meghaladta a 147 milliárd bázispárnyi szekvenciát és a 80 millió rekordot.  

helyi bemutató: EMBL statisztika 2006. január

 2.1. ábra:
A nukleotidadatbázisok növekedése
és a konkrét adatok .

db-gr
soroz., év,        rekord,       bp

  1. 06/1982.          568.      585433
 3. 12/1983.         1481.     1654863
 4. 08/1984.         1698.     2147205
 7. 12/1985.         5789.     5622638
10. 12/1986.         8817.     9766948
13. 10/1987.        14397.     1,6E+07
17. 11/1988.        20695.     2,4E+07
21. 11/1989.        28679.     3,5E+07
25. 11/1990.        41580.     5,3E+07
29. 12/1991.        57655.     7,5E+07
33. 12/1992.        89100.     1,1E+08
37. 12/1993.       146576.     1,6E+08
41. 12/1994.       230950.     2,3E+08
45. 12/1995.       622566.     4,3E+08
49. 12/1996.      1 047 263.   7,0E+08
53. 12/1997.      1 917 868.   1,3E+09
57. 12/1998.      3 046 471.   2,2E+09
61. 12/1999.      5 303 436.   4,5E+09
65. 12/2000.      9 549 382.   11E+09
69. 12/2001.      14E+06.      15E+09
73. 12/2002.      21E+06.      28E+09
76. 09/2003.      27E+06.      34E+09
80. 11/2004.      44E+06.      78E+09

85. 01/2006.      65E+06       117E+9

soroz, év,        rekord,         bp


Fehérje adatbázisok

A SWISS-PROT fehérje-adatbázist 1986-ban kezdte el fejleszteni a Swiss Institute for Bioinformatics (SIB) és ma a SIB és az EBI kollaborációban tartja fenn.  

   A SWISS-PROT Release 48.8.(2006 jan.) összesen 205,780  olyan szekvenciát tartalmazott, amelyet direkt fehérjeszekvenálási módszerekkel határoztak meg, vagy amelyeknél a kísérleti adatok megfelelően alátámasztják a funkciót (Most?). Ezeket az adatbázis karbantartói egyenként válogatják ki a nukleotid-adatbázisokba beküldött új adatok közül. A SWISS-PROT ugyanis a DNS-szekvenciákból következtetett fehérjeszekvenciákat nem foglalja automatikusan magába és nem is fogadja.

  Van egy külön TrEMBL fehérje-adatbázis, amely minden olyan kódoló szekvencia (CDS) "fordítását” tartalmazza, ami az EMBL Nukleotidszekvencia Adatbázisba bekerül. A TrEMBL Release 31.8. ( 2006. jan.) 2,533,011 rekordból állt (Most?).

   A fehérje adatbázisok fejlődésének következő állomása az előbb említett két adatbázist is magába foglaló
 UniProt (Universal Protein Resource).

    Ezeken kívül még számos adatbázis létezik (5. táblázat , és 6. táblázat), amelyeket részben más fejezetek említenek, illetve további információ található róluk a bioinformatikai intézetek honlapjain is.

  Sok fontos szempontot kell figyelembe venni az adatbázisokban való keresésnél, de talán a legfontosabb az, hogy megfelelően frissített, naprakész adatokkal tudjunk dolgozni. Egy szekvencia többször is előfordulhat az adatbázisokban, ezért  létrehoztak egy nem redundáns egyesített adatbázist is (nr adatbázis), mind DNS-, mind fehérjeszekvenciákból. Ezeket is naponta kiegészítik a beérkezett új adatokkal és hozzáférhetők a homológiakereső programok számára.

  Az nr adatbázis összetevőiről mindig találunk leírást a homológiakeresés eredményét tartalmazó szövegben és további információhoz juthatunk az NCBI honlapján keresztül is. Ha a célunk az, hogy megtaláljuk a vizsgált szekvenciára legjobban hasonlító ismert szekvenciát, akkor ezeket az adatbázisokat kell használni. Szükségtelen azonban — az első tesztet követően — mindíg a teljes nr adatbázist átvizsgálni, ha csak arra kíváncsi valaki, hogy van-e az újonnan beküldött szekvenciák között egy jobb egyezést mutató szekvencia. Ilyenkor a keresést le kell szűkíteni egy meghatározott időpont után regisztrált szekvenciák körére.
 


Az adatbázisok egymással kapcsolatban állnak. Egy szöveges keresés közben bármelyikhez eljuthatunk.

Ha a PubMed irodalmi adatbázisban találunk egy DNS-szekvenciát, a megfelelő rekordot elérhetjük egy kattintással a Nukleotid adatbázisokban, vagy a gén által kódolt fehérje szekvenciáját lekérhetjük a fehérje adatbázisokból. (lásd példával később).





Az adatbázis rekord
   
   Az adatbázisokba beküldött szekvenciák és a hozzájuk tartozó információk egységes formátumban kerülnek rögzítésre (adatbázisrekordok).

A nukelotidszekvenciák általában az őket leíró publikációknak megfelelően jelennek meg az adatbázisban. A szekvenciák mindig  5'—3' irányban szerepelnek, a bázisok pedig értelemszerűen az 5' vég első pozíciójától folyamatosan vannak számozva.

A fehérjeszekvenciák az N-terminális végtől kezdődnek. Az adatbázisok mind a nukleotidok (9. táblázat), mind az aminosavak (10. táblázat) jelölésére egybetűs rövidítéseket alkalmaznak.



A cDNS-szekvenciákat RNS-ként tartják nyilván, a genomikus szekvenciáknál pedig a kódoló szál szekvenciája szerepel, ha minden gén egy irányban helyezkedik el rajtuk.

    Általában csak a “vad típusú” szekvencia szerepel az adatbázisban és a különböző mutációk okozta eltérésekről a “feature table” rész tehet említést. A tRNS molekulákat, mint nem módosított RNS szakvenciákat regisztrálják, amelyek kolineárisak a genomi szekvenciával és a módosított bázisokról szintén a “feature table” részből kaphatunk adatokat.

    Egy EMBL és egy SWISS-PROT rekordot mutat be a 2.2.   és a  2.3. ábra . Látható, hogy nagyon hasonló elvek alapján épülnek fel.

2.2. ábra: Egy eukariota genomi szekvencia adatlapja az EMBL adatbázisból .
A pirossal jelzett részen két hiba található az exon-intron határok megadásában  » 2.6. ábra

ID   ATCSCH42   standard; DNA; PLN; 6801 BP.
XX
AC   X51799;
XX
SV   X51799.1
XX
DT   16-MAR-1990 (Rel. 23, Created)
DT   11-MAR-1999 (Rel. 59, Last updated, Version 3)
XX
DE   Arabidopsis thaliana cs/ch-42 gene for a chloroplast protein (cs)
XX
KW   chlorata locus; chloroplast protein; unidentified reading frame.
XX
OS   Arabidopsis thaliana (thale cress)
OC   Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC   euphyllophytes; Spermatophyta; Magnoliophyta; eudicotyledons;
OC   core eudicots; Rosidae; eurosids II; Brassicales; Brassicaceae;
OC   Arabidopsis.
XX
RN   [1]
RP   1-6801
RA   Mayerhofer R.;
RT   ;
RL   Submitted (06-FEB-1990) to the EMBL/GenBank/DDBJ databases.
RL   Mayerhofer R., MPI fuer Zuechtungsforschung, Carl von Linne Weg 10, D 5000
RL   Koeln 30, F R G.
XX
RN   [2]
RP   1-6801
RA   Koncz C., Mayerhofer R., Koncz-Kalman Z., Nawrath C., Reiss B., Redei G.P.,
RA   Schell J.;
RT   Isolation of a gene encoding a novel chloroplast protein by T-DNA tagging
RT   in Arabidopsis thaliana;
RL   EMBO J. 9:1337-1347(1990).
XX
DR   AGIS; X51799; 17-SEP-1999.
DR   MENDEL; 12580; Arath;1780;12580.
DR   SWISS-PROT; P16127; CHLI_ARATH.
DR   SWISS-PROT; P16128; YCCH_ARATH.
XX
CC   Data kindly reviewed (02-APR-1990) by Mayerhofer R.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..6801
FT                   /chromosome=4
FT                   /db_xref=taxon:3702
FT                   /organism=Arabidopsis thaliana
FT                   /strain=columbia
FT                   /map=39.4
FT   CDS             complement(<1..872)
FT                   /db_xref=MENDEL:12580
FT                   /db_xref=SWISS-PROT:P16128
FT                   /note=ORF (291 AA)
FT                   /protein_id=CAA36096.1
FT                   /translation=MLCFSASRLDDFDLGSSPPKKGSKTTTKSMDCEEICASSKSDKSD
FT                   DLDFGLDLPITRQVPSKANTDVQAKASAEKESQNYKTTDTLVVNKSKNSNQAALESMGD
FT                   FEAVESPQGSRKKASQTHTMCVQPQSVDTSPLKTSCSKVEEKNEPCPSNETIAPSPLHA
FT                   SEIAHIAVNRETSPDIHELCRSGTKEDCPIDPENANKKMITTMESSYEKIEQTSPSISS
FT                   HLCSDKIEHQQEEMGTDTQAEIQDNTKGALYNSDAGHSLTTLSGKISPGTRTSQTAKVQ
FT                   DLSEKLPLDP
FT   precursor_RNA   2770..4382
FT                   /note=primary transcript
FT   mRNA            join(2770..2899,2981..3095,3205..4382)
FT                   /note=exon 1
FT   CDS             join(2796..2899,2981..3095,3205..4260)
FT                   /db_xref=SWISS-PROT:P16127
FT                   /note=chloroplast protein
FT                   /protein_id=CAB38561.1
FT                   /translation=MASLLGTSSSAIWASPSLSSPSSKPSSSPICFRPGKLFGSKLNAG
FT                   IQIRPKKNRSRYHVSVMNVATEINSTEQVVGKFDSKKSARPVYPFAAIVGQDEMKLCLL
FT                   LNVIDPKIGGVMIMGDRGTGKSTTVRSLVDLLPEINVVAGDPYNSDPIDPEFMGVEVRE
FT                   RVEKGEQVPVIATKINMVDLPLGATEDRVCGTIDIEKALTEGVKAFEPGLLAKANRGIL
FT                   YVDEVNLLDDHLVDVLLDSAASGWNTVEREGISISHPARFILIGSGNPEEGELRPQLLD
FT                   RFGMHAQVGTVRDADLRVKIVEERARFDSNPKDFRDTYKTEQDKLQDQISTARANLSSV
FT                   QIDRELKVKISRVCSELNVDGLRGDIVTNRAAKALAALKGKDRVTPDDVATVIPNCLRH
FT                   RLRKDPLESIDSGVLVSEKFAEIFS
FT   exon            2770..2899
FT                   /number=1
FT   intron          2900..2980
FT                   /number=1
FT   exon            2981..3095
FT                   /number=2
FT   intron          3096..3204
FT                   /number=2
FT   exon            3205..4382
FT                   /number=3
FT   polyA_signal    4378..4382
XX
SQ   Sequence 6801 BP; 2093 A; 1242 C; 1374 G; 2092 T; 0 other;
     ggatccagtg gtagcttttc actcaaatct tgtaccttgg cagtttggct tgtacgagtg        60
     cctggtgata ttttgcctga gagggttgtt agagaatgtc cagcatctga gttatacagt       120
     gctcctttag tgttatcctg tatttctgcc tgagtgtctg tacccatttc ttcctgttga       180
     tgttctatct tgtctgaaca taaatgagat gagatgcttg gtgaagtctg ..........

   A rekord elején a szekvencia rövid leírása és az azonosító adatok találhatók. A szekvencia elnevezése, a rekord státusza, a molekulatípus, a taxonómiai beosztás (baktérium, növény ...stb) és a teljes szekvencia hossza található az :
  • ID ( identification ) sorban.
  • AC ( accession number ) ebben a sorban található a regisztrációs szám . Lehet több is belőle.
    A további sorok jelentése a következő :
  • SV ( sequence version ) szekvencia-változat,
  • DT ( date ) a beküldés és a módosítás dátuma,
  • DE ( description ) a szekvencia rövid leírása,
  • KW ( keyword ) kulcsszavak,
  • OS ( organism species ) a szekvencia forrásaként szolgáló faj megnevezése,
  • OC ( organism classification ) taxonómiai besorolás,
  • OG ( organelle ).
Ezek után következnek az irodalmi hivatkozásokat tartalmazó bejegyzések :
  • RN ( reference number),
  • RC ( reference comment ),
  • RP ( reference positions ),
  • RX ( reference cross-reference ),
  • RA ( reference authors ),
  • RT ( reference title ),
  • RL ( reference location ),
  • DR ( database cross-reference ),
  • CC (comments). Első referenciaként a szekvenciát beküldők adatai szerepelnek, utána pedig a szekvenciával kapcsolatos cikkek, ha a beküldôk frissítették az első beküldés után az adatokat. 

A harmadik adatcsoport, a “feature table”, a szekvenciát magát jellemzi az
  • FH (feature table header) fejléc és
  • FT (feature table data) adatsorokon keresztül, megadva a kódoló (CDS) szekvenciák, az exon-intron határok, promoter, terminátor ... stb. helyek koordinátáit és a kódoló régió(k) által meghatározott fehérjé(k) szekvenciáját. SWISS-PROT rekord esetében az ismert domének, aktív helyek jellemzői szerepelnek ezen a helyen. Az
  • XX  (spacer line) üres sorok átláthatóbbá teszik az egész adathalmazt.
    Végül, a rekord második felében található maga a szekvencia a megfelelő számozással ellátva. Az
  • SQ (sequence header) sorban a szekvencia teljes hossza és bázisösszetétele található.

A GenBank rekord az előbbiekhez hasonló felépítésű, de a sorok elején található kétbetűs jelölések helyett általában egész szavak szerepelnek, így például a DE helyett LOCUS, az AC helyett ACCESSION. Az adatbázis rekordok más formátumuvá alakításáról a 4.3.4. fejezetben van röviden szó.

Fontos tudni, hogy a rekord — néhány kötelező információn kívül — azt tartalmazza, amit a szerzők jónak láttak megadni! Ezt az adatbáziskezelők csak a szerzők kérésére javítják illetve egészítik ki. Ezért sokszor előfordul, hogy egy rekord nem naprakész és téves információkat is hordoz. Ne vegyünk mindent szentírásnak és ellenőrizzük több oldalról is a számunkra lényeges adatokat !
      

2.3. ábra :  Egy SWISS-PROT rekord felépítése » 2.1.1 .
 
ID   CHLI_ARATH     STANDARD;      PRT;   424 AA.
AC   P16127;
DT   01-APR-1990 (Rel. 14, Created)
DT   01-APR-1990 (Rel. 14, Last sequence update)
DT   15-FEB-2000 (Rel. 39, Last annotation update)
DE   MAGNESIUM-CHELATASE SUBUNIT CHLI PRECURSOR (PROTEIN CS/CH-42)
DE   (MG-PROTOPORPHYRIN IX CHELATASE).
GN   CHLI OR CS OR CH42 OR F28J12.140.
OS   Arabidopsis thaliana (Mouse-ear cress).
OC   Eukaryota; Viridiplantae; Embryophyta; Tracheophyta; Spermatophyta;
OC   Magnoliophyta; eudicotyledons; Rosidae; eurosids II; Brassicales;
OC   Brassicaceae; Arabidopsis.
RN   [1]
RP   SEQUENCE FROM N.A.
RC   STRAIN=CV. COLUMBIA;
RX   MEDLINE; 90228329.
RA   Koncz C., Mayerhofer R., Koncz-Kalman Z., Nawrath C., Reiss B.,
RA   Redei G.P., Schell J.;
RT   "Isolation of a gene encoding a novel chloroplast protein by T-DNA
RT   tagging in Arabidopsis thaliana.";
RL   EMBO J. 9:1337-1346(1990).
RN   [2]
RP   SEQUENCE FROM N.A.
RC   STRAIN=CV. DIJON; TISSUE=CALLUS;
RA   Putnoky P., Koncz C.;
RL   Submitted (SEP-1995) to the EMBL/GenBank/DDBJ databases.
RN   [3]
RP   SEQUENCE FROM N.A.
RC   STRAIN=CV. COLUMBIA;
RA   Bevan M., Hilbert H., Braun M., Holzer E., Brandt A., Duesterhoeft A.,
RA   Bancroft I., Mewes H.-W., Mayer K., Schueller C.;
RL   Submitted (FEB-1998) to the EMBL/GenBank/DDBJ databases.
CC   -!- FUNCTION: INVOLVED IN CHLOROPLAST PIGMENT BIOSYNTHESIS; INTRODUCES
CC       A MAGNESIUM ION INTO PROTOPORPHYRIN IX TO YIELD MG-
CC       PROTOROPORPHYRIN IX.
CC   -!- PATHWAY: CHLOROPHYLL BIOSYNTHESIS.
CC   -!- SUBCELLULAR LOCATION: CHLOROPLAST STROMA.
CC   -!- SIMILARITY: BELONGS TO THE MG-CHELATASE SUBUNITS D/I FAMILY.
CC   --------------------------------------------------------------------------
CC   This SWISS-PROT entry is copyright. It is produced through a collaboration
CC   between  the Swiss Institute of Bioinformatics  and the  EMBL outstation -
CC   the European Bioinformatics Institute.  There are no  restrictions on  its
CC   use  by  non-profit  institutions as long  as its content  is  in  no  way
CC   modified and this statement is not removed.  Usage  by  and for commercial
CC   entities requires a license agreement (See http://www.isb-sib.ch/announce/
CC   or send an email to license@isb-sib.ch).
CC   --------------------------------------------------------------------------
DR   EMBL; X51799; CAB38561.1; -.
DR   EMBL; X91411; CAA62754.1; -.
DR   EMBL; AL021710; CAA16728.1; -.
DR   PIR; S12785; S12785.
DR   PIR; S23088; S23088.
DR   MENDEL; 7195; ARAth;chlI;1.
DR   PFAM; PF01078; Mg_chelatase; 1.
KW   Photosynthesis; Chlorophyll biosynthesis; Chloroplast;
KW   Transit peptide; ATP-binding.
FT   TRANSIT       1      ?       CHLOROPLAST (POTENTIAL).
FT   CHAIN         ?    424       MAGNESIUM-CHELATASE SUBUNIT CHLI.
FT   NP_BIND     119    126       ATP (POTENTIAL).
SQ   SEQUENCE   424 AA;  46269 MW;  30075DBBC31330DE CRC64;
     MASLLGTSSS AIWASPSLSS PSSKPSSSPI CFRPGKLFGS KLNAGIQIRP KKNRSRYHVS
     VMNVATEINS TEQVVGKFDS KKSARPVYPF AAIVGQDEMK LCLLLNVIDP KIGGVMIMGD
     RGTGKSTTVR SLVDLLPEIN VVAGDPYNSD PIDPEFMGVE VRERVEKGEQ VPVIATKINM
     VDLPLGATED RVCGTIDIEK ALTEGVKAFE PGLLAKANRG ILYVDEVNLL DDHLVDVLLD
     SAASGWNTVE REGISISHPA RFILIGSGNP EEGELRPQLL DRFGMHAQVG TVRDADLRVK
     IVEERARFDS NPKDFRDTYK TEQDKLQDQI STARANLSSV QIDRELKVKI SRVCSELNVD
     GLRGDIVTNR AAKALAALKG KDRVTPDDVA TVIPNCLRHR LRKDPLESID SGVLVSEKFA
     EIFS
//
 

FASTA-forma :
  Van egy rövidebb adatbázis-rekord forma is, mely a szekvencián kívül csak a regisztrációs számot és egy rövid leíró fejlécet tartalmaz. (2.4. ábra).  A homológiakereséseket végző programok az ilyen rövid változatokból álló, egyesített adatbázisokkal dolgoznak.
Sokszor a FASTA-formátumot kell a szekvenciaelemzéseket végző honlapokon is használni, azaz az első sorban az első karakter a   > (nagyobb mint) jel.

Ez után lehet az elemzésre elküldött szekvencia nevét és az esetleges megjegyzéseket írni. A második sortól következik a számozás nélküli szekvencia. Minden sor legfeljebb 80 karakter lehet.

A szekvencia adatbázisokból is megkaphatjuk FASTA formában a szekvenciát, ha a  Display (GenBank) vagy format  lehúzható ablakoknál ezt a formátumot állítjuk be.

Próbáljuk ki:   X51799  GenBank

2.4. ábra: Egy DNS szekvencia FASTA formátumban   » 2.1.1 .

>proba.seq  -  ide bármi kerülhet pl. szekvencia neve (egy sor !)
CTGCAGCCGGTCGGAACGCGTGCCCATGTCCAGGTCTGCGGCACCACGCCCTGCATGCTGCGCGGCGCCGAAGACCTGAT
CAAGATCTGCAAGAAGAAGATCGCCAGCGAACCGTTCACCCTCAATGAGGGCGGCACGCTTTCCTGGGAAGAGGTCGAAT
GTCAGGGCGCCTGCGTCAACGCGCCGATGGTCATGATCTTCAAGGGACACGTTCGAGGATCTGACGCCGGAGCGGCTCGA

 


Szöveg alapú adatbázis keresés

Sokszor szükség van arra, hogy kulcsszavak segítségével találjuk meg az adott témakörrel kapcsolatos cikkeket és szekvenciákat. E célra hozták létre az olyan molekuláris biológiai adatbázis- és keresőrendszereket, mint az ENTREZ (antré), az SRS és a DBGET  ( » 5. táblázat ), melyek több független adatbázist fognak össze egy rendszerré. Nagy előnyük, hogy nemcsak a kulcsszavaknak megfelelő információhoz jutunk hozzá általuk, hanem linkek segítségével megnézhetjük a vonatkozó oldalakat a különböző adatbázisokban, és hozzájuthatunk az ezekkel kapcsolatban lévő, hasonló témát tartalmazó oldalakhoz is.

    A kulcsszavak megfelelő kiválasztása elősegíti a sikeres munkát ( 2.1.1. ábra ) Kettő vagy több alkalmas kulcsszó megadásával jelentősen csökkenthetjük a kiválogatott — és így egyenként átnézendő — rekordok mennyiségét. A megfelelő "szűrést" a kulcsszavak  közötti viszonyt meghatározó három logikai kapcsoló (Boole-féle operátor) biztosítja: az AND , az OR és a  NOT . Alaphelyzetben az AND van általában érvényben (keresőprogramtól függ ! ), tehát csak azokat a  rekordokat szűri ki a program, ahol minden megadott kulcsszó együttesen szerepel  ( 2.1.1. ábra ).



    A kulcsszavak megfelelô kiválasztása elôsegíti a sikeres munkát. Kettô vagy több alkalmas kulcsszó megadásával jelentôsen csökkenthetjük a kiválogatott — és így egyenként átnézendô — rekordok mennyiségét. A megfelelô "szûrést" a kulcsszavak  közötti viszonyt meghatározó három logikai kapcsoló ( Boole-féle operátor ) biztosítja : az AND, az OR és a  NOT. Alaphelyzetben az AND van általában érvényben ( keresôprogramtól függ ! ), tehát csak azokat a  rekordokat szûri ki a program, ahol minden megadott kulcsszó együttesen szerepel.

    Ha túl sok rekordot kapunk a keresés végén, akkor további kulcsszó megadásával vagy a kulcsszavak változtatásával kell szigorúbb "szűrőt" alkalmazni. Ha egy kifejezést keresünk ( pl. ), akkor azt idézôjelek közé kell tenni, ha pedig hasonló tövû szavak elôfordulását is megengedjük, akkor a * ( wild card , joker ) jelet alkalmazzuk. Ha nem találtuk meg azt, amit kerestünk, vagy teljesebb képet szeretnénk kapni egy adott témáról, akkor használjunk több kulcsszó-variációt. Sokszor egy kötôjel elhagyása vagy beiktatása is csodákat tehet.


 
2.2.1. ábra:
Szöveg alapú keresés eredményei a PubMed adatbázisban (ENTREZ)
alkalmazott kifejezés
találatok száma (2002.10.08.)
cancer
1.439.870
brest cancer
204
breast cancer
123.039
breast-cancer
123.039
"breast cancer"
64.901
"breast cancer" AND genes
4.862
"breast cancer" AND mice
3.202
Brca1
2.679
Brca1 sequence
619
BRCA1 gene structure
43
BRCA1 gene structure mouse
10

   Az ENTREZ -rendszert az NCBI fejlesztette ki. Talán ez a legkönnyebben kezelhető kapcsolt keresőrendszer, mely magába foglalja a PubMed, a GenBank, a SWISSPROT, az MMDB (molecular modelling 3D structures database), a genom és géntérképek és a taxonómiai adatbázisokat.

   Először ki kell választanunk, hogy melyik adatbázis legyen a kiindulópont. Egyszerű esetben ez a GenBank vagy SWISS-PROT is lehet, és megadhatjuk egy rekord regisztrációs számát, de a rendszer igazi haszna a kulcsszavas keresésnél mutakozik meg. A keresés eredményeként a kulcsszavak segítségével kiválogatott oldalak, cikkek, adatbázis rekordok hosszú sorát kapjuk, és megnézhetjük az átkeresett adatbázis ezekkel rokon rekordjait is (neighbors). Ezen felül "linkeket" találunk a többi adatbázis kapcsolódó rekordjaihoz is.



Az SRS-rendszer 80 biológiai adatbázist kapcsol össze. Az EBI fejlesztette ki és gondozza. A szekvencia adatbázisokon kívül, anyagcsere utakat, transzkripciós faktorokat, mutációkat, 3D struktúrákat ...stb tartalmazó adatbázisok képezik a részeit. Ezek mindegyikét elérhetjük, kereshetjük és átválthatunk egyikből a másikba. Az SRS program szabadon felhasználható. Több független SRS rendszer is elérhető az interneten keresztül, melyek mindegyike más adatbázis háttérrel rendelkezik. Egy kiválóan használható SRS honlapot tart fenn a The Sanger Centre is ( SRS-Sanger ).


entrez  2.5 ábra:

Az ENTREZ rendszer által kereshető adatbázisok és a közöttük lévő kapcsolat (DEMO). Az adatbázisok száma folyamtosan bővül. A bemutatott kép 2006. januárjában készült.
Most ?
  

Génkereső programok

Egy puszta DNS-szekvencián belül több módszer segítségével is valószínűsíthetjük egy gén, illetve a kódoló régió helyzetét. Legkönnyebb dolgunk akkor van, ha a cDNS-szekvencia ismert, vagy a vizsgált szakasz olyan fehérjét kódol, melynek erősen homológ párja megtalálható valamelyik adatbázisban. 

Egy eukarióta genomi DNS-szakaszon, mely feltételezhetően több exont hordoz, már nehezebb feladat csak programok segítségével egy gént lokalizálni. Ilyen esetekben jellegzetes szekvenciamotívumok (“szignálok”) meglétére lehet keresni. Ilyenek a splice site, start- és stopkodon, transzkripció terminációs szekvenciák, poliadenilációs hely, riboszóma kötőhely, transzkripciós faktorok kötőhelyei és a jellegzetes promoter elemek. Ezek mellett a bázisok előfordulásának statisztikai elemzése és a lehetséges kódolt fehérjetermék elemzése, azaz a “tartalom” vizsgálata is segít az azonosításban.
 
Egy “szignál ” azonosítás történhet egy egyszerű konszenzus szekvencia meglétére való kereséssel vagy egy nagyobb variációs lehetőségeket leíró képlet (signal sensor) használatával. Ez utóbbi esetben ún. súlyozott mátrixot (weight matrix) alkalmaznak, mely minden pozícióban megengedi mind a négy bázis jelenlétét, de különböző értékeket ad ezeknek, attól függően, hogy mennyire egyezik az adott pozíció a konszenzus szekvenciájéval. 

Az egyes pozíciókra adott pontok összege (score) jelzi annak valószínűségét, hogy az azonosított szekvencia valóban "szignál"-e. Egy határértéken felül a “jelölt” helyet “igaznak” értékeli a program. A fejlettebb programok számos szignálelem meglétét vizsgálják egyszerre, de az "előrejelzés" így is sok bizonytalanságot hordoz magában.
 



 A “tartalom” vizsgálatára az egyik legtöbbet használt elem a kódoló régió előrejelzése. Prokariótáknál (és cDNS) a legegyszerűbb esetben elég egy megfelelően hosszú kódoló régió (ORF) azonosítása. Természetesen eukarióta genomi szekvenciák esetében ez nem járható út. Az ún. Markov-modellek a legtöbbször alkalmazott statisztikai modellek, melyeket a tartalmi elemzéseknél használnak. Ezenkívül a géneket gyakran megelőző CG-gazdag szekvenciák (CpG islands) vagy a humán Alu-szekvenciák szintén támpontokat szolgáltathatnak az analízisben, mint feltehetően a kódoló részt megelőző illetve nem kódoló (az elemzésből kizárandó) régiók.

A legújabb programok a két módszert ötvözik és képesek a bonyolultabb összefüggéseket is kezelni egy gén számos alkotóeleme között » 7. táblázat . Úgy tekintik a gént, mint egy mondatot, mely alkotóelemeiből meghatározott szabályok szerint épül fel. A génre egy olyan modellt alkottak, mely egyaránt magában foglalja az exonok eltérő kodonhasználatától kezdve a “splice site”-ra megadott súlyozott mátrixon keresztül a transzlációs és transzkripciós terminációs helyek jellemzőit és azt a “nyelvtani” szabályt is, hogy mely elemet milyen másik elem követhet.

A GeneMark-HMM program által, egy Arabidopsis genomi szekvenciáról (X51799, 2.2. ábra) készített elemzés eredménye látható a 2.6. ábrán .

Ez egy kontroll elemzésnek is tekinthető, hiszen nemcsak a genomi, hanem a cDNS- ( mRNS- ) szekvencia is ismert. A három exonból álló génnél a program a kísérletesen igazolt exonhatárokat  jelölte ki.

Nyilvánvalóan nagyságrendekkel bonyolultabb a helyzet akkor, amikor több száz kilobázis nagyságú intronokkal is számolnunk kell és a genom nem olyan "kompakt", mint az Arabidopsis esetében.
    
2.6. ábra : A GeneMark.hmm által készített elemzés a 2.2. ábrán   látható Arabidopsis  genomi szekvenciáról.
Hasonlítsuk össze az exonok koordinátáit. Az   X51799  rekordban a cs cDNS szekvenciájának ismeretében határozták meg az exon-intron határokat, míg a GeneMark.hmm program erre “jóslást” készített. Kék szín jelzi a cs génre vonatkozó adatokat. (A rekordban rosszul adtak meg két exon-intron határt, de ez nem okozott hibát a fehérje "transzlációjakor". Miért ?)

GeneMark.hmm (Version 2.2)
Sequence name: cs_gen.seq
Sequence length: 6801 bp
C+G content: 38.46%
Matrix: Arabidopsis thaliana
Sun Jan 30 03:31:12 2000

Predicted genes/exons

Gene Exon Strand Exon           Exon Range     Exon      Start/End
  #    #         Type                         Length       Frame
  1     3   -  Internal        36       849     814          3 3
  1     2   -  Internal       940      1119     180          3 2
  1     1   -  Initial       1286      1386     101          1 2

  2     1   +  Initial       2796      2898     103          1 1
  2     2   +  Internal      2980      3095     116          2 3
  2     3   +  Terminal      3205      4260    1056          1 3

  3     8   -  Terminal      4546      4690     145          3 3
  3     7   -  Internal      4813      4889      77          1 2
  3     6   -  Internal      4985      5038      54          1 3
  3     5   -  Internal      5107      5193      87          1 3
  3     4   -  Internal      5272      5370      99          1 3
  3     3   -  Internal      5457      5528      72          1 3
  3     2   -  Internal      5688      5777      90          1 3
  3     1   -  Initial       5882      5980      99          1 3

  4     1   +  Initial       5992      6072      81          1 3
  4     2   +  Internal      6212      6265      54          1 3
  4     3   +  Internal      6365      6465     101          1 2
  4     4   +  Internal      6561      6623      63          3 2
 

GeneMark.hmm Protein Translations
Go to: GeneMark.hmm Listing
Go to: Job Submittal

>cs_gen.seq_1|GeneMark.hmm|peptide 1|365_aa
MEKDTWNFKSMTDDDPMDFGFGSPAKNKKNAFKLDMGFDLDGDFGSSFKMDMPDFDFSSP
AKKTTKTKETSDDKPSGNSKQKKNPFAFSYDFDALDDFDLGSSPPKKGSKTTTKSMDCEE
ICASSKSDKSDDLDFGLDLPITRQVPSKANTDVQAKASAEKESQNYKTTDTLVVNKSKNS
NQAALESMGDFEAVESPQGSRKKASQTHTMCVQPQSVDTSPLKTSCSKVEEKNEPCPSNE
TIAPSPLHASEIAHIAVNRETSPDIHELCRSGTKEDCPIDPENANKKMITTMESSYEKIE
QTSPSISSHLCSDKIEHQQEEMGTDTQAEIQDNTKGALYNSDAGHSLTTLSGKISPGTRT
SQTAK

>cs_gen.seq_2|GeneMark.hmm|peptide 2|424_aa
MASLLGTSSSAIWASPSLSSPSSKPSSSPICFRPGKLFGSKLNAGIQIRPKKNRSRYHVS
VMNVATEINSTEQVVGKFDSKKSARPVYPFAAIVGQDEMKLCLLLNVIDPKIGGVMIMGD
RGTGKSTTVRSLVDLLPEINVVAGDPYNSDPIDPEFMGVEVRERVEKGEQVPVIATKINM
VDLPLGATEDRVCGTIDIEKALTEGVKAFEPGLLAKANRGILYVDEVNLLDDHLVDVLLD
SAASGWNTVEREGISISHPARFILIGSGNPEEGELRPQLLDRFGMHAQVGTVRDADLRVK
IVEERARFDSNPKDFRDTYKTEQDKLQDQISTARANLSSVQIDRELKVKISRVCSELNVD
GLRGDIVTNRAAKALAALKGKDRVTPDDVATVIPNCLRHRLRKDPLESIDSGVLVSEKFA
EIFS

>cs_gen.seq_3|GeneMark.hmm|peptide 3|240_aa
MIRALEVLYSLQILDDDAKLTSPTGFQVAELPLDPMISKMILASSELGCSHEIITIAAVL
SVQYVWIIARGVQKEQDEAKLRFAAAEGDHVTFLNVYKGFLESKKPTQWCYKNFLNYQSM
KKVVEIRDQLKRIARRLGITLKSCDGDMEAVRKAVTAGFFANACRLEPHSNGVYKTIRGS
EEVYIHPSSVLFRVNPKWVVYQSIVSTERQYMRNVVTINPSWLTEVAPHFYQNRQNAMSF

>cs_gen.seq_4|GeneMark.hmm|peptide 4|99_aa
MEVQANRNPRYYLCPKLLAENTKKINRGVVYVIDSGFSKQKFYNPISDIESVEEAPISKA
SARQRSGRAGRVRPGKCYRLYTEDYFLNQMPGEGIPEMQ