GenBank
GenBank (בעברית: בנק הגנים) הוא מסד הנתונים עבור רצפים האוסף בגישה פתוחה של כל רצפי הנוקלאוטידים הזמינים לציבור והחלבונים המתורגמים מהם. GenBank הוקם ומתוחזק על ידי המרכז הלאומי למידע ביוטכנולוגי (NCBI; חלק המכונים הלאומיים לבריאות בארצות הברית) כחלק משיתוף הפעולה הבין-לאומי ביצירת מסדי נתונים עבור רצפים (INSDC).
GenBank ושותפיו מקבלים ממעבדות ברחבי העולם רצפים של יותר מ-100,000 אורגניזמים שונים. מסד הנתונים החל לפעול בשנת 1982 על ידי וולטר גוד והמעבדה הלאומית לוס אלמוס. GenBank הפך למסד נתונים חשוב למחקר בתחומים ביולוגיים וצמח בשנים האחרונות בקצב אקספוננציאלי על ידי הכפלה בערך כל 18 חודשים[1][2].
מהדורה 247.0, שיצאה בדצמבר 2021, הכילה למעלה מ-15 טריליון בסיסי נוקלאוטידים ביותר מ-2 מיליארד רצפים[3]. GenBank נבנה על ידי הגשות ישירות ממעבדות בודדות, כמו גם מהגשות בכמות גדולה ממרכזי ריצוף DNA בקנה מידה גדול.
הוספה למאגר
[עריכת קוד מקור | עריכה]ניתן להגיש ל-GenBank רק רצפים מקוריים. הגשות ישירות מתבצעות ל-GenBank באמצעות BankIt שהוא טופס אינטרנטי, או תוכנת ההגשה העומדת בפני עצמה – Sequin. עם קבלת רצף חדש, צוות GenBank בוחן את מקוריות הנתונים, מקצה מספר גישה לרצף ומבצע בדיקות הבטחת איכות. לאחר מכן, ההגשות משוחררות למסד הנתונים הציבורי, כאשר הערכים ניתנים לאחזור על ידי Entrez או להורדה באמצעות FTP. הגשות בכמות גדולה של נתוני תג רצף מפורש (EST), אתר מתויג ברצף (STS), רצף סקר גנום (GSS) וריצוף גנום בתפוקה גבוהה – (HTGS) מוגשות לרוב על ידי מרכזי ריצוף בקנה מידה גדול. קבוצת ההגשות הישירות של GenBank מעבדת גם רצפי גנום מיקרוביאליים מלאים.
היסטוריה
[עריכת קוד מקור | עריכה]וולטר גוד מקבוצת הביולוגיה והביופיזיקה התאורטית המעבדה הלאומית לוס אלמוס (LANL) ושותפים הקימו את מסד הנתונים של רצפי לוס אלמוס ב-1979, שהגיע לשיאו ב-1982 עם הקמת ה-GenBank הציבורי[4]. המימון ניתן על ידי המכונים הלאומיים לבריאות, הקרן הלאומית למדע, משרד האנרגיה ומשרד ההגנה. LANL שיתפה פעולה ב-GenBank עם חברות נוספות ועד סוף 1983 אוחסנו בה יותר מ-2,000 רצפים.
באמצע שנות ה-80, חברת הביואינפורמטיקה Intelligenetics באוניברסיטת סטנפורד ניהלה את פרויקט GenBank בשיתוף עם LANL[5]. כאחד מפרויקטי הביואינפורמטיקה המוקדמים ביותר באינטרנט, פרויקט GenBank הקים את קבוצות החדשות BIOSCI/Bionet לקידום תקשורת בגישה פתוחה בין מדענים ביולוגיים. במהלך 1989 עד 1992 פרויקט GenBank עבר אל המרכז הלאומי למידע ביוטכנולוגי[6].
צמיחה
[עריכת קוד מקור | עריכה]הערת השחרור של GenBank לגרסה 162.0 (אוקטובר 2007) קובעים כי "משנת 1982 ועד היום, מספר הבסיסים ב-GenBank הוכפל בערך כל 18 חודשים"[7][8]. על פי נתוני 15 ביוני 2019, גרסה 232.0 של GenBank מכילה 213,383,758 לוקוסים, 329,835,282,370 בסיסים, מתוך 213,383,758 רצפים מדווחים[7].
מסד הנתונים של GenBank כולל מערכי נתונים נוספים שנבנים באופן מכני מאוסף הנתונים ברצף הראשי, ולכן אינם נכללים בספירה זו.
זוגות בסיסים | אורגניזם |
---|---|
172,374,634,626 |
Triticum aestivum
|
97,059,428,399 |
Hordeum vulgare subsp. vulgare
|
80,497,317,866 |
Severe acute respiratory syndrome coronavirus 2
|
27,714,770,678 |
Homo sapiens
|
13,502,686,559 |
Escherichia coli
|
10,890,050,390 |
Danio rerio
|
10,650,539,694 |
Bos taurus
|
10,459,557,283 |
Mus musculus
|
9,981,497,962 |
Triticum turgidum subsp. durum
|
7,411,312,909 |
Zea mays
|
7,083,888,984 |
Klebsiella pneumoniae
|
6,749,236,152 |
Secale cereale
|
6,547,403,015 |
Rattus norvegicus
|
5,775,151,674 |
Canis lupus familiaris
|
5,178,626,132 |
Rhinatrema bivittatum
|
5,083,049,438 |
Sus scrofa
|
4,991,603,121 |
Bufo bufo
|
4,548,077,046 |
Microcaecilia unicolor
|
4,348,333,235 |
Hordeum vulgare subsp. spontaneum
|
4,262,019,239 |
Macrobrachium nipponense
|
זיהויים לא מושלמים
[עריכת קוד מקור | עריכה]במאגרי מידע ציבוריים שניתן לחפש על ידי "National Center for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST)", חסרים רצפים שעברו ביקורת עמיתים לרצפי type strains ורצפי non-type strains. מנגד, בעוד שמסדי נתונים מסחריים עשויים להכיל נתוני רצף מסוננים באיכות גבוהה, יש מספר מוגבל של רצפי רפרנס.
מאמר שפורסם ב-Journal of Clinical Microbiology[9] העריך את תוצאות רצף הגנים של 16S rRNA שנותחו עם GenBank בשילוב עם מאגרי מידע ציבוריים אחרים זמינים בחינם, בעלי ביקורת איכות ומבוססי אינטרנט, כגון EzTaxon-e[10] ו-BIBI[11] התוצאות הראו כי ניתוחים שבוצעו באמצעות GenBank בשילוב עם EzTaxon-e (kappa = 0.79) היו מובחנים יותר מאשר שימוש ב-GenBank (kappa = 0.66) או מאגרי מידע אחרים בלבד.
GenBank, בהיותו מסד נתונים ציבורי, עשוי להכיל רצפים שיוחסו בצורה מוטעית למין מסוים מכיוון שהזיהוי הראשוני של האורגניזם היה שגוי. מאמר שפורסם ביולי 2020 בכתב העת "Genome" הראה כי 75% מהרצפים של הציטוכרום C אוקסידאז תת-מקטע 1 המיטוכונדריאלי, בטעות יוחסו לדג Nemipterus mesoprion. טעות זאת נבעה משימוש מתמשך ברצפים פרטניים שמלכתחילה זוהו לא נכון[12]. המחברים מספקים המלצות כיצד להימנע מהפצה נוספת של רצפים פומביים עם שמות מדעיים שגויים.
ראו גם
[עריכת קוד מקור | עריכה]קישורים חיצוניים
[עריכת קוד מקור | עריכה]- אתר האינטרנט הרשמי של GenBank
- רשומת רצף לדוגמה, עבור המוגלובין בטא
- BankIt, www.ncbi.nlm.nih.gov
- Sequin – כלי תוכנה עצמאי שפותח על ידי ה-NCBI להגשה ועדכון של ערכים למסד הנתונים של רצפי GenBank.
- EMBOSS – תוכנת קוד פתוח בחינם לביולוגיה מולקולרית
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. (2008). "GenBank". Nucleic Acids Research. 36 (Database): D25–D30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.
- ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. (2009). "GenBank". Nucleic Acids Research. 37 (Database): D26–D31. doi:10.1093/nar/gkn723. PMC 2686462. PMID 18940867.
- ^ "GenBank release notes". NCBI.
- ^ Hanson, Todd (2000-11-21). "Walter Goad, GenBank founder, dies". Newsbulletin: obituary. Los Alamos National Laboratory.
- ^ LANL GenBank History
- ^ Benton D (1990). "Recent changes in the GenBank On-line Service". Nucleic Acids Research. 18 (6): 1517–1520. doi:10.1093/nar/18.6.1517. PMC 330520. PMID 2326192.
- ^ 1 2 3 "GenBank release notes". NCBI."GenBank release notes". NCBI.
- ^ Benson, D. A.; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W. (2012). "GenBank". Nucleic Acids Research. 41 (Database issue): D36–D42. doi:10.1093/nar/gks1195. PMC 3531190. PMID 23193287.
- ^ Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb and Nam Yong Lee (במאי 2012). "Evaluation of the GenBank, EzTaxon, and BIBI Services for Molecular Identification of Clinical Blood Culture Isolates That Were Unidentifiable or Misidentified by Conventional Methods". J. Clin. Microbiol. 50: 1792–1795. doi:10.1128/JCM.00081-12. PMC 3347139. PMID 22403421.
{{cite journal}}
: (עזרה)תחזוקה - ציטוט: multiple names: authors list (link) - ^ EzTaxon-e Database eztaxon-e.ezbiocloud.net (archive accessed 25 March 2021)
- ^ leBIBI V5 pbil.univ-lyon1.fr (archive accessed 25 March 2021)
- ^ Ogwang, Joel; Bariche, Michel; Bos, Arthur R. (2021). "Genetic diversity and phylogenetic relationships of threadfin breams (Nemipterus spp.) from the Red Sea and eastern Mediterranean Sea". Genome (באנגלית). 64 (3): 207–216. doi:10.1139/gen-2019-0163.