KEGG

KEGG (Kyoto Encyclopedia of Genes and Genomes) este o colecție de baze de date despre genomuri, căi biologice, boli, medicamente și substanțe chimice. KEGG este utilizat pentru cercetarea și educația din bioinformatică, printre care analiza datelor în genomică, metagenomică, metabolomică și alte discipline omice, modelarea și simularea în biologia sistemică și cercetarea translațională în dezvoltarea de medicamente.

Introducere

Proiectul bazei de date KEGG a fost inițiat în 1995 de către Minoru Kanehisa, Profesor la Institutul de Cercetări Chimice, Universitatea Kyoto, prin Programul Genomului Uman^[1]^[2]. Prevăzând necesitatea unei resurse computerizate care să poată fi utilizată pentru interpretarea biologică a secvență de date genomice, a început dezvoltarea bazei de date KEGG PATHWAY. Aceasta este o colecție de desenat manuale ale hărților de căi KEGG reprezentând cunoștințe experimentale privind metabolismul și diverse alte funcții ale celulei și organismului. Fiecare hartă a unei căi conține o rețea de interacțiuni moleculare și reacții și are scopul de a lega genele din genomul uman de produsele genelor (mai ales proteine) din cale. Acest efort a permis analiza numită cartografierea căilor KEGG, prin care conținutul genelor din genom este comparat cu baza de date KEGG PATHWAY pentru a examina care căi și funcții asociate sunt posibil codificate de genom.

Potrivit dezvoltatorilor, KEGG este o „reprezentare pe calculator” a sistemului biologic^[3], folosind blocuri de bază și diagrame de conexiune a sistemului — mai precis, blocurile de bază genetice constau în gene și proteine, blocurile chimice din molecule mici și reacții, iar diagramele în interacțiuni moleculare și rețele de reacție. Acest concept este realizat în următoarele baze de date KEGG, care sunt clasificate în sisteme, genomice, chimice și informații de sănătate^[4]:

Informții despre sisteme
- PATHWAY — hărți pentru funcții celulare și ale organismelor
- MODULE — module sau unități funcționale de gene
- BRITE — categorii ierarhice de entități biologice
Informații genomice
- GENOME — genomuri complete
- GENE — gene și proteine în genomuri complete
- ORTHOLOGY — grupuri ortologe de gene în genomuri complete
Informații chimice
- COMPOUND, GLYCAN — compuși chimici și glicani
- REACTION, RPAIR, RCLASS — reacții chimice
- ENZYME — nomenclatorul enzimelor
Informații de sănătate
- DISEASE — boli umane
- DRUG — medicamente aprobate
- ENVIRON — medicamente brute și substanțe legate de sănătate

Baze de date

Informații despre sisteme

Baza de date KEGG PATHWAY, baza de date cu legături, este nucleul resurselor KEGG. Este o colecție de hărți de căi care integrează multe entități, inclusiv gene, proteine, ARN, compuși chimici, glicani și reacții chimice, precum și gene legate de boli și ținte pentru medicamente, care sunt stocate ca intrări individuale în alte baze de date KEGG. Hărțile sunt clasificate în următoarele secțiuni:

Metabolism
Prelucrarea informațiilor genetice (transcriere, translație, replicare și reparare etc.)
Prelucrarea informațiilor de mediu (transport membranar, semnal de transducție etc.)
Procese celulare (creștere celulară, moarte celulară, funcțiile membranei celulare etc.)
Sisteme ale organismului (sistemul imunitar, sistemul endocrin, sistemul nervos etc.)
Boli umane
Dezvoltarea de medicamente

Secțiunea metabolism conține hărți globale desenate estetic care arată o imagine de ansamblu a metabolismului, alături de hărțile căilor metabolice uzuale. Hărți globale de rezoluție mică pot fi folosite, de exemplu, pentru a compara capacitățile metabolice capacităților ale diferitelor organisme în studii genomice și diferite probe de mediu în studii metagenomice. În contrast, modulele KEGG din baza de date KEGG MODULE sunt de diagrame de conexiune de rezoluție mai mare, reprezentând unități funcționale mai stricte într-o hartă, precum sub-căi păstrate printre complexe moleculare și grupuri de organisme specifice. Modulele KEGG sunt definite ca fiind seturi caracteristice de gene care pot fi legate de anumite capacități metabolice și alte caracteristici fenotipice, astfel încât acestea pot fi utilizate pentru interpretarea automată a datelor genomice și metagenomice.

O altă bază de date care completează KEGG PATHWAY este baza de date KEGG BRITE. Este o bază de date ontologică care conține clasificări ierarhice ale diferitelor entități, inclusiv gene, proteine, organisme, boli, medicamente și compuși chimici. În timp ce KEGG PATHWAYS este limitată la interacțiuni moleculare și reacții între aceste entități, KEGG BRITE include mai multe tipuri de relații.

Informații genomice

La câteva luni după proiectul KEGG a fost inițiat în 1995 a fost publicat primul raport al unui genom bacterian complet secvențiat^[5]. De atunci, toate genomurile complete publicate sunt acumulate în KEGG pentru eucariote și procariote. Baza de date KEGG GENES conține informații la nivel de gene/proteine, iar baza de date KEGG GENOME conține informații la nivel de organism pentru aceste genomuri. Baza de date KEGG GENES este formată din seturi de gene pentru genomuri complete, iar genele din fiecare set au adnotări pentru a stabili corespondențe între schemele hărților KEGG, modulele KEGG și ierarhiile BRITE.

Aceste corespondențe sunt realizate folosind conceptul de ortologi. Hărțile căilor KEGG sunt întocmite pe baza dovezilor experimentale în anumite organisme, dar acestea sunt concepute pentru a fi aplicabile și altor organisme, deoarece diferite organisme, precum cel uman și murin, conțin de multe ori căi identice constând în gene identice din punct de vedere funcțional, numite gene ortologe. Toate genele din KEGG GENES sunt grupate în astfel de ortologi în baza de date KEGG ORTHOLOGY (KO). Pentru că nodurile (produsele genelor) din hărțile KEGG, precum și modulele KEGG și ierarhiile BRITE primesc identificatori KO, corespondențele se stabilesc o dată ce genele din genom sunt adnotate cu identificatori KO prin procedura de adnotare a genomului din KEGG^[4].

Informații chimice

Hărțile căilor metabolice KEGG sunt întocmite pentru a reprezenta aspectele duale ale rețelei metabolice: rețeaua genomică, care descrie cum sunt conectate enzimele codificate de genom pentru a cataliza reacții consecutive, și rețeaua chimică, care descrie cum sunt transformate structurile chimice ale substraturilor și produselor prin aceste reacții^[6]. Un set de gene enzimatice din genom va identifica rețelele de legături enzimatice atunci când este suprapus pe hărțile KEGG, care, la rândul lor, caracterizează rețelele de trasnformare a structurii chimice care să permită interpretarea potențialelor de biosinteză și biodegradare ale organismului. Alternativ, un set de metaboliți identificați în metabolom va conduce la înțelegerea căilor și genelor enzimatice implicate.

Bazele de date din categoria de informații chimice, care sunt denumite colectiv KEGG LIGAND, sunt organizate prin captarea cunoștințelor de rețele chimice. La începutul proiectului KEGG, KEGG LIGAND consta din trei baze de date: KEGG COMPOUND pentru compuși chimici, KEGG REACTION pentru reacții chimice și KEGG ENZYME pentru reacții în nomenclatorul enzimelor^[7]. În prezent, există baze de date suplimentare: KEGG GLYCAN pentru glicani^[8] și două baze de date auxiliare de reacții numite RPAIR (alinierea perechilor de reactanți) și RCLASS (clasa de reacție)^[9]. KEGG COMPOUND a fost, de asemenea, extins pentru a conține diferiți compuși, precum xenobiotice, pe lângă metaboliți.

Informații de sănătate

În KEGG, bolile sunt privite ca stări perturbate ale sistemului biologic cauzate de perturbanți ai factorilor genetici și de mediu, iar medicamentele sunt privite ca diferite tipuri de perturbanți^[10]. Baza de date KEGG PATHWAY include nu numai stările normale, ci și stările perturbate ale sistemelor biologice. Cu toate acestea, hărțile căilor nu pot fi desenate pentru cele mai multe boli din cauza mecanismelor moleculare care nu sunt bine înțelese. O abordare alternativă este folosită în baza de date KEGG DISEASE, care pur și simplu cataloghează factorii genetici și de mediu cunoscuți ai bolilor. Aceste cataloage pot conduce în cele din urmă la completarea hărților pentru boli.

Baza de date KEGG DRUG conține ingredientele active din medicamente aprobate în Japonia, SUA și Europa. Ele se deosebesc prin structuri chimice și/sau componente chimice și sunt asociate cu molecule țintă, enzime metabolizatoare și alte informații de interacțiune moleculară din hărțile KEGG și ierarhiile BRITE. Acest lucru permite o analiză integrată a interacțiunilor medicamentoase cu informații genomice. Medicamentele brute și alte substanțe legate de sănătate, care nu se află în categoria medicamentelor aprobate, sunt stocate în baza de date KEGG ENVIRON. Bazele de date din categoria informațiilor de sănătate sunt denumite colectiv KEGG MEDICUS, care include și prospectele tuturor medicamentelor comercializate în Japonia.

Model de abonament

În iulie 2011, KEGG a introdus un model de abonament pentru descărcarea via FTP din cauza unei reduceri semnificative a finanțării guvernamentale. KEGG continuă să fie disponibil în mod liber prin situl său, dar modelul de abonament a adus în discuție sustenabilitatea bazelor de date bioinformatice^[11]^[12].

Vezi și

Note

^ „KEGG: Kyoto Encyclopedia of Genes and Genomes”. Nucleic Acids Res. 28 (1): 27–30. 2000. doi:10.1093/nar/28.1.27. PMC 102409 . PMID 10592173.
^ Kanehisa M (1997). „A database for post-genome analysis”. Trends Genet. 13 (9): 375–6. doi:10.1016/S0168-9525(97)01223-7. PMID 9287494.
^ „From genomics to chemical genomics: new developments in KEGG”. Nucleic Acids Res. 34 (Database issue): D354–7. 2006. doi:10.1093/nar/gkj102. PMC 1347464 . PMID 16381885.
^ ^a ^b „Data, information, knowledge and principle: back to metabolism in KEGG”. Nucleic Acids Res. 42 (Database issue): D199–205. 2014. doi:10.1093/nar/gkt1076. PMC 3965122 . PMID 24214961.
^ „Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science. 269 (5223): 496–512. 1995. doi:10.1126/science.7542800. PMID 7542800.
^ Kanehisa M (2013). „Chemical and genomic evolution of enzyme-catalyzed reaction networks”. FEBS Lett. 587 (17): 2731–7. doi:10.1016/j.febslet.2013.06.026. PMID 23816707.
^ „LIGAND database for enzymes, compounds and reactions”. Nucleic Acids Res. 27 (1): 377–9. 1999. doi:10.1093/nar/27.1.377. PMC 148189 . PMID 9847234.
^ „KEGG as a glycome informatics resource”. Glycobiology. 16 (5): 63R–70R. 2006. doi:10.1093/glycob/cwj010. PMID 16014746.
^ „Modular architecture of metabolic pathways revealed by conserved sequences of reactions”. J Chem Inf Model. 53 (3): 613–22. 2013. doi:10.1021/ci3005379. PMC 3632090 . PMID 23384306.
^ „KEGG for representation and analysis of molecular networks involving diseases and drugs”. Nucleic Acids Res. 38 (Database issue): D355–60. 2010. doi:10.1093/nar/gkp896. PMC 2808910 . PMID 19880382.
^ „The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection”. Nucleic Acids Res. 40 (Database issue): D1–8. 2012. doi:10.1093/nar/gkr1196. PMC 3245068 . PMID 22144685.
^ Hayden, EC (2013). „Popular plant database set to charge users”. Nature. doi:10.1038/nature.2013.13642.

[pmid10592173-1] „KEGG: Kyoto Encyclopedia of Genes and Genomes”. Nucleic Acids Res. 28 (1): 27–30. 2000. doi:10.1093/nar/28.1.27. PMC 102409 . PMID 10592173.

[pmid9287494-2] Kanehisa M (1997). „A database for post-genome analysis”. Trends Genet. 13 (9): 375–6. doi:10.1016/S0168-9525(97)01223-7. PMID 9287494.

[pmid16381885-3] „From genomics to chemical genomics: new developments in KEGG”. Nucleic Acids Res. 34 (Database issue): D354–7. 2006. doi:10.1093/nar/gkj102. PMC 1347464 . PMID 16381885.

[pmid24214961-4] „Data, information, knowledge and principle: back to metabolism in KEGG”. Nucleic Acids Res. 42 (Database issue): D199–205. 2014. doi:10.1093/nar/gkt1076. PMC 3965122 . PMID 24214961.

[pmid7542800-5] „Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science. 269 (5223): 496–512. 1995. doi:10.1126/science.7542800. PMID 7542800.

[pmid23816707-6] Kanehisa M (2013). „Chemical and genomic evolution of enzyme-catalyzed reaction networks”. FEBS Lett. 587 (17): 2731–7. doi:10.1016/j.febslet.2013.06.026. PMID 23816707.

[pmid9847234-7] „LIGAND database for enzymes, compounds and reactions”. Nucleic Acids Res. 27 (1): 377–9. 1999. doi:10.1093/nar/27.1.377. PMC 148189 . PMID 9847234.

[pmid16014746-8] „KEGG as a glycome informatics resource”. Glycobiology. 16 (5): 63R–70R. 2006. doi:10.1093/glycob/cwj010. PMID 16014746.

[pmid23384306-9] „Modular architecture of metabolic pathways revealed by conserved sequences of reactions”. J Chem Inf Model. 53 (3): 613–22. 2013. doi:10.1021/ci3005379. PMC 3632090 . PMID 23384306.

[pmid19880382-10] „KEGG for representation and analysis of molecular networks involving diseases and drugs”. Nucleic Acids Res. 38 (Database issue): D355–60. 2010. doi:10.1093/nar/gkp896. PMC 2808910 . PMID 19880382.

[pmid22144685-11] „The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection”. Nucleic Acids Res. 40 (Database issue): D1–8. 2012. doi:10.1093/nar/gkr1196. PMC 3245068 . PMID 22144685.

[NatureNews-12] Hayden, EC (2013). „Popular plant database set to charge users”. Nature. doi:10.1038/nature.2013.13642.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]