ארכיון האינטרנט
נתונים כלליים | |
---|---|
סוג | מוסד ללא כוונת רווח, ארכיון דיגיטלי |
מוטו | גישה אוניברסלית לכלל הידע |
מייסדים | ברוסטר קאהל |
תקופת הפעילות |
1996 השקת האתר: 2001 – הווה |
מיקום המטה | Fourth Church of Christ, Scientist |
קואורדינטות | 37°46′56″N 122°28′18″W / 37.78227145°N 122.47158652715°W |
משרד ראשי | סן פרנסיסקו, קליפורניה, ארצות הברית |
מוצרים עיקריים | Cover Art Archive |
הכנסות | 30,547,311 דולר אמריקאי (נכון ל־נובמבר 2022) |
רווח | 4,086,576 דולר אמריקאי (נכון ל־2021) |
יו"ר | ברוסטר קייל |
עובדים | 200 |
https://archive.org/ | |
ארכיון האינטרנט (באנגלית: Internet Archive) הוא ארכיון דיגיטלי ללא כוונות רווח, שמטרתו המוצהרת היא "גישה אוניברסלית לכלל הידע"[1]. הארכיון מספק אחסון קבוע וגישה ציבורית חופשית לאוספים של חומרים דיגיטליים, כולל אתרי אינטרנט, מוזיקה ותמונות נעות. נכון לחודש אוקטובר 2020, גודל אוסף הארכיון הגיע לכמות של יותר מ-70 פטה-בייט. בנוסף לארכיון עצמו, הארגון הוא אקטיביסטי, הדוגל באינטרנט חופשי ופתוח.
ארכיון האינטרנט מאפשר לציבור להעלות ולהוריד חומר דיגיטלי מאשכול הנתונים, אך עיקר הנתונים נאספים אוטומטית על ידי סורקי האינטרנט הפועלים על מנת לשמר מהאינטרנט הציבורי ככל האפשר. ארכיון האתר, ה-Wayback Machine (אנגלית: מכונת זמן), מכיל תיעוד של יותר מ-463 מיליארד דפי אינטרנט. הארכיון הוא גם אחד ממיזמי דיגיטציית הספרים הגדולים בעולם.
הארכיון נוסד בשנת 1996 על ידי ברוסטר קאהל (אנ') והוא למעשה ארגון ללא כוונות רווח. תקציב האתר השנתי הוא 10 מיליון דולר, המגיעים ממגוון מקורות: הכנסות משירותי זחלן הרשת של הארכיון, מגוון שיתופי פעולה, מענקים ותרומות. המשרדים הראשיים של הארכיון ממוקמים בסן פרנסיסקו שבקליפורניה, שם מועסקים 30 עובדים מתוך כלל ה-200. לארכיון יש שלושה מרכזי נתונים בשלוש ערים קליפורניות: סן פרנסיסקו, רדווד סיטי וריצ'מונד. כדי למנוע איבוד מידע בעקבות אסון טבע גדול, נשמרים העתקים של חלקים מהארכיון גם במקומות מרוחקים יותר, בהם הביבליותיקה אלכסנדרינה שבמצרים ומתקן נוסף באמסטרדם.
בשנת 2007, הספרייה הדיגיטלית ללא כוונות הרווח הוכרזה רשמית כספרייה על ידי מדינת קליפורניה, הכרה הדרושה לקבלת מימון פדרלי.
היסטוריה
[עריכת קוד מקור | עריכה]קאהל ייסד את הארכיון בשנת 1996 בזמן שייסד את אלכסה, חברת זחלן רשת למטרות רווח. באותה השנה, ארכיון האינטרנט החל לשמר ולאחסן בארכיון את ה-World Wide Web. התוכן הנשמר בארכיון לא היה זמין עד שנת 2001, אז ה-Wayback Machine פותח. בסוף שנת 1999 הארכיון הרחיב את אוספיו מעבר לארכיון אינטרנט והחל לאחסן גם את ארכיון הסרטים Prelinger Archives. מאמצע העשור השני של המאה ה-21, ארכיון האינטרנט כולל טקסטים, אודיו, תמונות נעות ותוכנות. הארכיון גם מארח מספר פרויקטים אחרים: ארכיון התמונות של NASA, קטלוג ספריית ויקיפדיה הניתנת לעריכה ואתר ספריית הספרים הפתוחה.
על פי דברי אתר הארכיון:
ברוב חברות בני האדם רואים חשיבות בשימור חפצים וממצאים של התרבות והמורשת שלהם. ללא חפצים אלה, לציוויליזציה אין כל זיכרון שממנו ניתן ללמוד מההצלחות והכשלונות שלה. התרבות שלנו כעת מייצרת יותר ויותר חפצים בצורה דיגיטלית. משימת הארכיון היא לעזור לשמר חפצים אלו וליצור ספריית אינטרנט עבור חוקרים, היסטוריונים, ותלמידים.
באוגוסט 2012, הודיע הארכיון שהוסיף את פרוטוקול ביטורנט לאפשרויות הורדת הקבצים עבור מעל ל-1.3 מיליון קבצים הקיימים באתר וקבצים שהועלו לאחרונה. שיטה זו היא האמצעי המהיר ביותר להורדת מדיה מהארכיון.
ב-6 בנובמבר 2013, עלו משרדי הארכיון הראשיים של ארכיון האינטרנט בריצ'מונד קליפורניה באש, שהרסה ציוד והסבה נזק לדירות סמוכות. על פי הארכיון, הארגון איבד מצלמות, גופי תאורה, וציוד סריקה בשווי של מאות אלפי דולרים. הארגון, שהוא ללא כוונת רווח, ביקש תרומות כדי לכסות את הנזקים שהוערכו בכ-$600,000.[2].
בשנת 2024 חווה האתר מספר התקפות משמעותיות: ב-27 במאי הותקף האתר במתקפת DDoS שפגעה בזמינות האתר במשך מספר ימים, שעליה לקחה אחריות קבוצת SN_BLACKMETA.[3] ב-9 באוקטובר נפגע האתר ממתקפה דומה ובנוסף נחשפו פרטיהם של 31 מיליון משתמשים באתר.[4]
ארכוב של ה-World Wide Web
[עריכת קוד מקור | עריכה]Wayback Machine
[עריכת קוד מקור | עריכה]- ערך מורחב – Wayback Machine
ארכיון האינטרנט ניצל את השימוש הפופולרי במונח "WABAC Machine" מקטע מסדרת האנימציה הישנה רוקי ובולווינקל (ספציפית, מתוך הקטעים של מר פיבודי ושרמן) והשתמש בשם "Wayback Machine" עבור שירותי האתר המאפשרים גישה ואחסון של ה-World Wide Web בארכיון. שירות זה מאפשר למשתמשים לצפות בדפי אינטרנט מהעבר שאוחסנו בארכיון. ה-Wayback Machine נוצר מתוך מאמץ משותף של אלכסה וארכיון האינטרנט כאשר בנו אינדקס תלת-ממדי. מיליוני אתרי אינטרנט ונתונים הקשורים אליהם (תמונות, קוד מקור, מסמכים וכו') שמורים במסד נתונים ענק. השירות מאפשר למשתמשים לראות כיצד נראו אתרים מסוימים בעבר, להשיג את קוד המקור המקורי מאתרי אינטרנט שכבר לא זמינים, ואף לבקר באתרי אינטרנט שכבר לא קיימים. תנאי השימוש של ארכיון האינטרנט מציין שאסור למשתמשים ב-Wayback Machine להוריד נתונים מהאוסף. לא כל אתרי האינטרנט זמינים לתצוגה באתר מאחר שבעלי אתרים רבים בוחרים לא לכלול את אתריהם בארכיון. כמו בכל האתרים המבוססים על נתונים מזחלני רשת, ארכיון האינטרנט מחמיץ שטח גדול של האינטרנט ממגוון סיבות אחרות.
באוקטובר 2013 נוספה לאתר אפשרות לשמור דף בו במקום ("Save Page Now") הנגישה בדף הראשי של ה-Wayback Machine. ברגע שכתובת URL מודבקת ונשמרת, דף האינטרנט יהפוך לחלק מה-Wayback Machine של ארכיון האינטרנט. האתר לא מכבד הגדרות של פרוטוקול אי הכללת רובוטים (robots.txt).[5]
שנה | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 |
---|---|---|---|---|---|---|---|---|---|
מספר הדפים המאוחסנים בארכיון (מיליארד) | 40 | 85 | 85 | 85 | 150 | 150 | 150 | 150 | 373 |
Archive-It
[עריכת קוד מקור | עריכה]שירות אשר הפך זמין בתחילת 2006. השירות מאפשר למנויים בתשלום לשמר אוספים של תוכן דיגיטלי.
נכון למרץ 2014, מעל ל-275 מוסדות שמרו ב-Archive-It עותקים של מעל ל-7.4 מיליארד כתובות URL במסגרת 2,444 אוספים ציבוריים. מוסדות אלו כוללים בין היתר אוניברסיטאות, מוסדות פדרליים, מוזיאונים, וארגונים תרבותיים.
קישורים חיצוניים
[עריכת קוד מקור | עריכה]- אתר האינטרנט הרשמי של ארכיון האינטרנט (באנגלית)
- ארכיון האינטרנט, ברשת החברתית פייסבוק
- ארכיון האינטרנט, ברשת החברתית אקס (טוויטר)
- ארכיון האינטרנט, ברשת החברתית אינסטגרם
- ארכיון האינטרנט, ברשת החברתית LinkedIn
- ארכיון האינטרנט, סרטונים בערוץ היוטיוב
- ארכיון האינטרנט, הבלוג הרשמי
- אתר ארכיון האינטרנט (באנגלית)
- מכונת הזמן (Wayback Machine), באתר ארכיון האינטרנט
- סיני גז, קורי העכביש של הרשת, באתר nrg, 29 ביוני 2008
- archive.is – אתר נוסף לגיבוי עצמי ואוטומטי של אתרי אינטרנט
- אושרית גן-אל, הארכיון של האינטרנט: מי מתעד את כל המידע שנמצא ברשת?, באתר גלובס, 9 במאי 2018
- אדר שלו, איך אפשר לשים את כל האינטרנט במכולה?, באתר ynet, 29 במרץ 2009
- ד"ר יעקב הכט, הכחדת הזיכרון הדיגיטלי, איגוד האינטרנט הישראלי, 2 בנובמבר 2016
- סוכנויות הידיעות, חוששים מטראמפ: ארכיון האינטרנט יוצר עותק גיבוי של כל הרשת בקנדה, באתר TheMarker, 2 בדצמבר 2016
- עידן בן טובים, תביעה חדשה של סוני עלולה להשבית לתמיד את ארכיון האינטרנט, באתר Geektime, 13 באוגוסט 2023
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ Universal Access to all Knowledge - Brewster Kahle's talk at the Distinguished Speaker Series of SD Forum on December 16, 2004, באתר ארכיון האינטרנט (באנגלית)
- ^ Rich McCormick, The Internet Archive seeks donations after fire destroys $600,000 of equipment, The Verge, Nov 7, 2013
- ^ Lyons, Jessica (29 במאי 2024). "Multi-day DDoS storm batters Internet Archive". The Register. ארכיון מ-1 ביוני 2024.
{{cite news}}
: (עזרה) - ^ ויקי אוסלנדר, פריצה גדולה לארכיון האינטרנט: נחשפו פרטיהם של 31 מיליון משתמשים, באתר כלכליסט, 10 באוקטובר 2024
- ^ Mark Graham, Robots.txt meant for search engines don’t work well for web archives, Internet Archive Blogs, 2017-04-17 (באנגלית אמריקאית)
ספריות דיגיטליות בנושאי יהדות | ||
---|---|---|
ספרות מקור - טקסט | ספריא • על התורה • פרויקט השו"ת • דעת • סנונית • ויקיטקסט • אוצר הספרים היהודי השיתופי • המילון ההיסטורי ללשון העברית • מכון ממרא • פרויקט בן-יהודה • הזמנה לפיוט • Grimoar | |
ספרות מקור - סרוקה | היברובוקס • אוצר החכמה • הספרייה הלאומית • ספריית אסיף • אוצרות התורה | |
כתבי יד | המכון לתצלומי כתבי יד עבריים | |
ספרים סרוקים - כללי | גוגל ספרים • פרויקט גוטנברג • ארכיון האינטרנט | |
ביבליוגרפיה | מפעל הביבליוגרפיה העברית • רמב"י • רמבי"ש • הלכה ברורה ובירור הלכה | |
ספריות דיגיטליות בנושאים נוספים |