Wayback Machine

Wayback Machine
	; Logo archiwum
Typ strony	Archiwum cyfrowe
Data powstania	24 października 2001
Autor	Brewster Kahle, Bruce Gilliat
Właściciel	Internet Archive
Rejestracja	Opcjonalna
	Multimedia w Wiki Commons
	Strona internetowa

Zostało upublicznione w październiku 2001 roku przez Brewstera Kahle’a i Bruce’a Gilliata. Należy do Internet Archive, organizacji nonprofit mającej swoją siedzibę w San Francisco. Serwis był notowany w rankingu Alexa na miejscu 161 (maj 2020)

Historia

Wayback Machine zostało utworzone, aby zapobiec problemowi bezpowrotnej utraty treści zgromadzonej na stronach internetowych, w momencie kiedy są one edytowane lub zamykane. Usługa ta pozwala użytkownikom na przeglądanie zarchiwizowanych wersji witryn, które przez archiwum nazywane są „trójwymiarowym indeksem”. Kahle i Gilliat utworzyli to archiwum z nadzieją na archiwizację całego Internetu i zapewnienie „powszechnego dostępu do wiedzy”.

Wayback Machine rozpoczęło archiwizację stron internetowych w 1996 r., z zamiarem upublicznienia całej usługi pięć lat później. Kahle sporadycznie umożliwiał naukowcom dostęp do zasobów nieukończonej wówczas bazy, dostępnej na taśmie cyfrowej. W piątą rocznicę powstania, archiwum zostało upublicznione podczas ceremonii w Uniwersytecie Kalifornijskim w Berkeley. Do tego czasu Wayback Machine zgromadziło ponad 10 miliardów zarchiwizowanych stron.

Nazwa usługi jest aluzją do serialu telewizyjnego Rocky, Łoś Superktoś i przyjaciele, w którym występuje pies Peabody, podróżujący w czasie za pomocą wehikułu o nazwie „WABAC Machine”.

W 2002 roku budżet Wayback Machine sfinansowany m.in. przez kilka korporacji, fundacji (w tym Kahle/Austin Foundation, National Science Foundation, Bibliotekę Kongresu i Markle Foundation) i osoby prywatne wyniósł 10 milionów dolarów.

Aspekty techniczne

Oprogramowanie zostało przystosowane do indeksowania i pobierania, przy pomocy robotów internetowych, wszystkich publicznie dostępnych stron WWW, hierarchii Gopher oraz systemu grup dyskusyjnych Usenet. Dane zbierane przez „crawlery” nie zawierają wszystkich informacji dostępnych w Internecie, ponieważ dostęp do części z nich może być ograniczany przez ich wydawcę lub przechowywany w niedostępnych bazach. Odpowiedzią na tę sytuację było utworzenie przez Internet Archive w 2005 r. strony Archive-It.org. Umożliwiła ona instytucjom i twórcom zbieranie, przechowywanie oraz tworzenie kolekcji treści i archiwów cyfrowych.

Częstotliwość powstawania snapshotów zależna jest od danej witryny. Wayback Machine archiwizuje sam kod HTML, ale nie obrazy. Te są pobierane ze stron źródłowych.

Przyrost zasobów w Wayback Machine

W 2003 roku, zaledwie dwa lata po oficjalnym upublicznieniu usługi, zasoby Wayback Machine rosły w tempie 12 terabajtów/miesiąc. Pierwsze 100 TB zostało przekroczone w czerwcu 2004. W 2009 Wayback Machine mieściło już ok. trzech petabajtów danych, które rosły w tempie 100 TB każdego miesiąca. W styczniu 2013 r. spółka posiadała w bazie 240 miliardów adresów URL. W październiku 2013 r. na stronie powstała opcja „Save a Page”, która umożliwiała użytkownikowi zgłoszenie konkretnej witryny do archiwizacji. W grudniu 2014 r. liczba zarchiwizowanych witryn wzrosła do ponad 435 miliardów, co stanowiło prawie dziewięć petabajtów danych, rosnących w tempie 20 terabajtów tygodniowo. Całkowita ilość danych w lipcu 2016 r. osiągnęła wynik 15 petabajtów, natomiast we wrześniu 2018 r. wyniosła już ponad 25 petabajtów.

Zastosowanie

Od początku działalności w 2001 r., Wayback Machine stało się obiektem badań, zarówno pod kątem tego, w jaki sposób przechowywane są zgromadzone w bazie dane, jak i odnośnie do samych zarchiwizowanych stron dostępnych w archiwum. Do 2013 r. badacze napisali około 350 artykułów, które dotyczyły Wayback Machine. Pochodziły one głównie z takich obszarów nauki, jak technologia informacyjna, bibliotekoznawstwo oraz nauki społeczne. Naukowcy z tej ostatniej grupy wykorzystują Wayback Machine m.in. do analizy tego, jak rozwój witryn zachodzący stale od połowy lat 90., wpłynął na rozwój danego przedsiębiorstwa.

Skrypty archiwizacyjne w Wayback Machine mają na celu zachowanie jak największej liczby działających hiperłączy, które z racji ulotności danych w Internecie, mogłyby zostać utracone. Indyjscy badacze przeprowadzili analizę dotyczącą skuteczności zapisywania hiperłączy zawartych w naukowych publikacjach dostępnych online w Wayback Machine i wynik ten stanowił ponad połowę.

Przypisy

Linki zewnętrzne

Strona Wayback Machine. web.archive.org. [dostęp 2018-04-14]. (ang.).
Częściowe mirrory:
- Bibliotheca Alexandrina Internet Archive [online], International School of Information Science (ISIS) [dostęp 2019-12-22] (ang.). Częściowy mirror lat 1996-2007 (brak niektórych stron z tego zakresu)
- Arquivo.pt - the Portuguese Web Archive: search pages from the past [online], arquivo.pt [dostęp 2019-12-27] (ang. • port.). Bardzo duże braki, skupia się bardziej na stronach portugalskich. Umożliwia wyszukiwanie pełnotekstowe (w treści stron).

This article uses material from the Wikipedia Polski article Wayback Machine, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Treść udostępniana na licencji CC BY-SA 4.0, jeśli nie podano inaczej. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Polski (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.