Web Archive

Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten.

Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten.

Web ARChive
Dateiendung: .warc
MIME-Type: application/warc
Standard(s): ISO 28500:2017
https://github.com/iipc/awesome-web-archiving

Die Library of Congress verzeichnet das Format in ihrem Projekt „Sustainability of Digital Formats“.

WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt. So nutzt es beispielsweise die Bayerische Staatsbibliothek in ihren Archivierungsprojekten und die Deutsche Nationalbibliothek empfiehlt es als Standard.

Aufbau

Eine WARC-Datei besteht aus einem oder mehreren Records. Ein Record besteht dabei aus:

  • Kopfzeile bzw. Header, in dem verpflichtende Metadatenfelder (unter anderem die URL, das Datum, Typ und Länge des Records) eingetragen werden.
  • dem Content-Block, in dem der eigentliche Inhalt steht. Hier liegt im sogenannten "WARC record payload" die gespeicherte Ressource vor.

Im Standard werden acht verschiedene Record-Typen vordefiniert:

  1. warcinfo – Befindet sich in der Regel am Anfang der WARC-Datei. Der Record enthält allgemeine Informationen über die darauffolgenden Records, normalerweise also über die Datei selbst. Zu den Metadaten gehören u. a. Name und E-Mail-Adresse des Erstellers, außerdem Useragent, IP-Adresse, HTTP-Header und Software, die bei der Archivierung der Daten verwendet wurden.
  2. response – Enthält die vollständige Antwort (Response nach Client-Server-Modell) eines Webservers inklusiver ausführlicher Netzwerk- und Protokollinformationen. Folglich befinden sich in dessen Content-Blocks meist die zu speichernde Ressource.
  3. resource – Falls es nicht möglich oder nicht erwünscht ist, sämtliche Protokollinformationen mit zu speichern, ist ein Ressource-Record für die einfache Speicherung einer Ressource optimal.
  4. request – Gegenstück zum Response-Record. Enthält Anfrage und zugehörige Informationen, die zur Zeit des Crawls an den Webserver gesendet wurden.
  5. metadata – Beliebige Metadaten werden hier abgelegt. Fast immer beziehen sich diese auf einen anderen Record, welcher über die Felder WARC-Concurrent-To oder WARC-Refers-To.
  6. revisit – Wird typischerweise verwendet, falls ein schon archivierter Inhalt nochmals besucht wird. Dabei wird relativ zur schon archivierten Ressource nur ein gekürzter Content-Block gespeichert. Dadurch kann unnötige Redundanz vermieden und Speicherplatz gespart werden.
  7. conversion – Zweck eines Conversion-Records ist es, die Inhalte eines vorhandenen Records in einem anderen Format zu speichern.
  8. continuation – Der Continuation-Record (englisch für Fortsetzung) ermöglicht es, große Datenmengen über mehrere WARC-Dateien zu verteilen.

Zwar spezifiziert der WARC-Standard keine Kompression, jedoch kann diese ohne Probleme zur Reduzierung der Speichermenge verwendet werden. Empfohlen wird dabei vom IIPC das GZIP-Format. Deshalb findet man WARC-Dateien öfters mit der Dateiendung ".warc.gz" vor.

Software

Online Dienste

Einzelnachweise

Tags:

Web Archive AufbauWeb Archive SoftwareWeb Archive Online DiensteWeb Archive EinzelnachweiseWeb Archive WeblinksWeb ArchiveInternet ArchiveMetadatenWorld Wide Web

🔥 Trending searches on Wiki Deutsch:

Kampf der Realitystars – Schiffbruch am TraumstrandEintracht FrankfurtListe der Tatort-FolgenListe der Länder nach BruttoinlandsproduktRockyRodrygoBalduin IV. (Jerusalem)FC ArsenalYellowstone (Fernsehserie)Gesine SchwanRoad House (2024)Liste der Bundesstaaten der Vereinigten StaatenFlusssäureSexualpraktikFallout (Fernsehserie)Hannes JaenickePenisAtombombenabwürfe auf Hiroshima und NagasakiChristoph KrutzlerUEFA-FünfjahreswertungArne SemsrottFelix KlausElon MuskXi JinpingRicarda LangUEFA Champions League 2019/20Tank ManFrederik PleitgenRalph CaspersBMW B58FrankreichBones – Die KnochenjägerinHessenDänemarkAndreas Müller (Richter)Conor McGregorJan FedderAmazonBob Graham (Politiker)JakobswegSlowenienWaffenmeisterOppenheimer (2023)Liam NeesonMiss Marple (Fernsehserie)Schöppenstedter TurmToleranztabellen nach ISO 2768Heidi KlumHolländische SauceUrsula von der LeyenH. P. BaxxterNeuseelandChronologie des russischen Überfalls auf die UkraineFallout (Computerspielreihe)Engelbert EndrassJosé MourinhoThüringenSage StalloneBärlauchMoisés AriasJupp HeynckesSvenja JungShogun (Roman)Islamische RevolutionDortmundDiether DehmHohes VennJan Åge FjørtoftSignal Iduna ParkFranz BeckenbauerEiffelturmOlaf ScholzRömisches ReichLaura Dern🡆 More