Wayback Machine: Sito web

La Wayback Machine è un archivio digitale del World Wide Web.

È stato lanciato nel 2001 dall'Internet Archive, un'organizzazione no profit con sede a San Francisco.

Wayback Machine
sito web
Logo
Logo
Wayback Machine: Storia, Dettagli tecnici, Note
URLweb.archive.org/
Tipo di sitoarchivio digitale
LinguaInglese
ProprietarioInternet Archive
Lancio29 ottobre 2001

Storia

I fondatori di Internet Archive Brewster Kahle e Bruce Gilliat hanno lanciato la Wayback Machine nel 2001 per affrontare il problema della scomparsa del contenuto del sito Web ogni volta che viene modificato o chiuso. Il servizio consente agli utenti di visualizzare le versioni archiviate delle pagine Web nel tempo, che l'archivio chiama un "indice tridimensionale". Kahle e Gilliat hanno creato la macchina sperando di archiviare l'intera Internet e fornire "accesso universale a tutte le conoscenze".

Il nome Wayback Machine è stato scelto come riferimento alla "macchina WABAC" (pronunciato in passato), un dispositivo di viaggio nel tempo immaginario utilizzato dai personaggi Mister Peabody e Sherman in The Rocky and Bullwinkle Show, un cartone animato. In uno dei segmenti componenti del cartone animato, la storia improbabile di Peabody, i personaggi usavano abitualmente la macchina per assistere, partecipare e, molto spesso, alterare eventi famosi nella storia.

La Wayback Machine ha iniziato ad archiviare le pagine Web memorizzate nella cache nel 1996, con l'obiettivo di rendere pubblico il servizio cinque anni dopo. Dal 1996 al 2001, le informazioni sono state conservate su nastro digitale, con occasionalmente Kahle che consentiva a ricercatori e scienziati di accedere al grosso database. Quando l'archivio ha raggiunto il suo quinto anniversario nel 2001, è stato presentato e aperto al pubblico in una cerimonia presso l'Università della California - Berkeley. Al momento del lancio di Wayback Machine, conteneva già oltre 10 miliardi di pagine archiviate.

Oggi i dati sono archiviati nel grande cluster di nodi Linux di Internet Archive. Rivisita e archivia occasionalmente nuove versioni di siti Web (vedere i dettagli tecnici di seguito). I siti possono anche essere acquisiti manualmente inserendo l'URL di un sito Web nella casella di ricerca, a condizione che il sito Web consenta a Wayback Machine di "scansionarlo" e salvare i dati.

Dettagli tecnici

Il software è stato sviluppato per "eseguire la scansione" del Web e scaricare tutte le pagine del World Wide Web accessibili al pubblico attraverso la gerarchia di Gopher, il sistema di bollettini Netnews (Usenet) e il software scaricabile. Le informazioni raccolte da questi "crawler" non includono tutte le informazioni disponibili su Internet, poiché gran parte dei dati è limitata dall'editore o archiviata in database non accessibili. Per superare le incoerenze nei siti Web parzialmente memorizzati nella cache, Archive-It.org è stato sviluppato nel 2005 da Internet Archive come mezzo per consentire alle istituzioni e ai creatori di contenuti di raccogliere e conservare volontariamente raccolte di contenuti digitali e creare archivi digitali.

Le ricerche per indicizzazione sono fornite da varie fonti, alcune importate da terze parti e altre generate internamente dall'Archivio. Ad esempio, le ricerche per indicizzazione sono fornite da Sloan Foundation e Alexa, ricerche per indicizzazione gestite da IA per conto di NARA e Internet Memory Foundation, mirror di Common Crawl. Le "Ricerche per indicizzazione Web in tutto il mondo" sono in esecuzione dal 2010 e catturano il Web globale.

La frequenza delle acquisizioni di snapshot varia in base al sito Web. I siti Web nelle "Ricerche per indicizzazione Web in tutto il mondo" sono inclusi in un "elenco di ricerca per indicizzazione", con il sito archiviato una volta per ricerca per indicizzazione. Il completamento di una ricerca per indicizzazione può richiedere mesi o addirittura anni, a seconda delle dimensioni. Ad esempio, "Wide Crawl Number 13" è stato iniziato il 9 gennaio 2015 e completato l'11 luglio 2016. Tuttavia, possono essere in corso più ricerche per volta contemporaneamente e un sito può essere incluso in più di un elenco di ricerca per indicizzazione, quindi la frequenza con cui un sito viene sottoposto a ricerca per indicizzazione varia ampiamente.

A partire da ottobre 2019, gli utenti sono limitati a 15 richieste e recuperi di archiviazione al minuto.

Capacità di stoccaggio e crescita

Con lo sviluppo della tecnologia nel corso degli anni, la capacità di memorizzazione della Wayback Machine è cresciuta. Nel 2003, dopo solo due anni di accesso pubblico, la Wayback Machine stava crescendo a un ritmo di 12 terabyte / mese. I dati sono archiviati su sistemi rack PetaBox progettati su misura dallo staff di Internet Archive. Il primo rack da 100 TB è diventato pienamente operativo nel giugno 2004, sebbene presto sia diventato chiaro che avrebbero avuto bisogno di molto più spazio di archiviazione.

Internet Archive ha migrato la sua architettura di archiviazione personalizzata su Sun Open Storage nel 2009 e ospita un nuovo data center in un centro dati Sun Modular nel campus californiano di Sun Microsystems. Nel 2009, la Wayback Machine conteneva circa tre petabyte di dati e cresceva a una velocità di 100 terabyte al mese.

Una nuova versione migliorata della Wayback Machine, con un'interfaccia aggiornata e un indice più aggiornato dei contenuti archiviati, è stata resa disponibile per i test pubblici nel 2011. Nel marzo dello stesso anno, nel forum di Wayback Machine è stato affermato che "la versione beta della nuova Wayback Machine ha un indice più completo e aggiornato di tutti i materiali sottoposti a scansione nel 2010 e continuerà ad essere regolarmente aggiornata. L'indice alla base della classica Wayback Machine ha solo un po' di materiale rispetto al 2008 e non sono previsti ulteriori aggiornamenti dell'indice, poiché verrà gradualmente ritirato quest'anno." Sempre nel 2011, Internet Archive ha installato la sesta coppia di rack PetaBox che ha aumentato la capacità di archiviazione della Wayback Machine di 700 terabyte.

Nel gennaio 2013, la società ha annunciato un importante traguardo di 240 miliardi di URL. Nell'ottobre 2013, la società ha annunciato la funzione "Salva una pagina" che consente a qualsiasi utente di Internet di archiviare i contenuti di un URL. Questo è diventato una minaccia di abuso da parte del servizio per l'hosting di file binari dannosi.

A dicembre la Wayback Machine conteneva 435 miliardi di pagine Web, quasi nove petabyte di dati, e cresceva a circa 20 terabyte a settimana.

A luglio 2014, la Wayback Machine conteneva circa 15 petabyte di dati.

A settembre 2018, la Wayback Machine conteneva oltre 25 petabyte di dati.

Crescita

Tra ottobre 2013 e marzo 2015, il ranking globale di Alexa del sito Web è cambiato da 163 a 208. Nel marzo 2019 il grado era di 244.

Politica di esclusione del sito Web

Storicamente, Wayback Machine ha rispettato lo standard di esclusione dei robot (robots.txt) nel determinare se un sito Web sarebbe stato sottoposto a scansione o meno; o se già sottoposto a scansione, se i suoi archivi sarebbero visualizzabili pubblicamente. I proprietari di siti Web hanno avuto la possibilità di rinunciare a Wayback Machine attraverso l'uso di robots.txt. Ha applicato le regole robots.txt in modo retroattivo; se un sito ha bloccato Internet Archive, anche tutte le pagine archiviate in precedenza dal dominio sono state immediatamente rese non disponibili. Inoltre, Internet Archive ha dichiarato che "a volte un proprietario di un sito Web ci contatterà direttamente e ci chiederà di interrompere la scansione o l'archiviazione di un sito. Rispettiamo queste richieste. " Inoltre, il sito web dice: "Internet Archive non è interessato a preservare o offrire l'accesso a siti Web o altri documenti Internet di persone che non desiderano i loro materiali nella raccolta".

Note

  • ^ The VirusTotal Team, 207.241.226.190 IP address information, su virustotal.com, VirusTotal, 25 marzo 2015. URL consultato il 25 marzo 2015 (archiviato dall'url originale il 14 luglio 2014).
    «2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe»
  • ^ Advisory provided by Google, Safe Browsing Diagnostic page for archive.org, su google.com/safebrowsing, Google, 25 marzo 2015. URL consultato il 25 marzo 2015 (archiviato dall'url originale il 6 aprile 2015).
    «2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).»
  • ^ Internet Archive Frequently Asked Questions, su archive.org. URL consultato il 17 gennaio 2015 (archiviato dall'url originale il 21 ottobre 2009).
  • ^ Internet Archive Frequently Asked Questions, su archive.org, 18 dicembre 2014. URL consultato il 13 dicembre 2018 (archiviato dall'url originale il 18 dicembre 2014).
  • ^ Can the manipulation of big data change the way the world thinks?, su The National. URL consultato il 14 maggio 2017 (archiviato dall'url originale il 12 gennaio 2017).
  • ^ Zachary Crockett, Inside Wayback Machine, the internet’s time capsule, in The Hustle, 28 settembre 2018. URL consultato il 26 ottobre 2018 (archiviato dall'url originale il 2 ottobre 2018).
  • ^ Virginia Heffernan, Things Break and Decay on the Internet—That's a Good Thing, in WIRED, 18 settembre 2018. URL consultato il 26 ottobre 2018 (archiviato dall'url originale il 25 settembre 2018).
  • ^ Archive.org Site Info, su alexa.com, Alexa Internet. URL consultato il 29 ottobre 2013 (archiviato dall'url originale il 28 ottobre 2013).
  • ^ Archive.org Site Overview, su alexa.com, Alexa Internet. URL consultato il 9 aprile 2015 (archiviato dall'url originale il 9 aprile 2015).
  • ^ Archive.org Traffic, Demographics and Competitors - Alexa, su web.archive.org, 23 marzo 2019. URL consultato il 5 aprile 2019 (archiviato dall'url originale il 23 marzo 2019).
  • ^ Some sites are not available because of Robots.txt or other exclusions Archiviato il 15 aprile 2011 in Internet Archive.
  • ^ How can I remove my site's pages from the Wayback Machine? Archiviato il 17 aprile 2014 in Internet Archive.
  • ^ Joseph Cox, The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers, 22 maggio 2018. URL consultato il 23 maggio 2018 (archiviato dall'url originale il 22 maggio 2018).
  • Altri progetti

    Collegamenti esterni

    Tags:

    Wayback Machine StoriaWayback Machine Dettagli tecniciWayback Machine NoteWayback Machine Altri progettiWayback Machine Collegamenti esterniWayback MachineArchivioInternet ArchiveOrganizzazione non a scopo di lucroSan FranciscoWorld Wide Web

    🔥 Trending searches on Wiki Italiano:

    Partito Socialista ItalianoTimothy WeahPiero DorflesPalermoDagospiaElio GermanoXaviDino FerrariFabrizio De AndréDemocrazia CristianaGeorge WeahPozzo superprofondo di KolaGervonta DavisIvan ZazzaroniCarlo III del Regno UnitoScudetto (sport)Kai HavertzEpisodi di One PieceRegioni d'ItaliaRoberto BaggioCi hai rotto papàVittoria del Regno UnitoJames GandolfiniCharlize TheronCalabriaGuerra di liberazione italianaAmadeus (conduttore televisivo)Giorgia MeloniEpisodi de Il clandestinoAlexis SánchezRonaldoFranciaJosé MourinhoDune (film 2021)Alessandro MagnoDante AlighieriInseminazione delle nuvoleITA AirwaysIKEACarlo MagnoOcean's 8Campionato europeo di calcio 2024Denise TantucciFallout 76MGM-140 ATACMSValerio LundiniJack NicholsonRomanzo popolareStella (sport)Albo d'oro della Coppa ItaliaIntelligenza artificialePalmarès dell'Associazione Calcio MilanFernando AlonsoGiuseppe MeazzaOppenheimer (film)Luigi PirandelloIl solitario di Rio GrandeEnzo MiccioAssociazione Sportiva RomaShōgun (miniserie televisiva 2024)Mostro di FirenzeInterstellarAnna Nicole SmithPartnerperfetto.comPep GuardiolaPiero CalamandreiEnzo FerrariTom HardyGiapponeVito BardiJohn CusackCento domenicheLazioRossana RossandaNBAMarcello PittellaJohn Cena🡆 More