インターネットアーカイブ

インターネットアーカイブ (Internet Archive) は、WWW・マルチメディア資料のアーカイブ閲覧サービスとして有名なウェイバックマシン (Wayback Machine)を運営しているアメリカの団体である。本部はカリフォルニア州サンフランシスコのリッチモンド地区に置かれている。

インターネットアーカイブ
Internet Archive
インターネットアーカイブ
URL archive.org ウィキデータを編集
言語 英語
タイプ 電子図書館
運営者 ブリュースター・ケール
営利性 非営利
開始 1996年 (1996)
インターネットアーカイブ
旧インターネットアーカイブ本部(1996年 - 2009年11月)
インターネットアーカイブ
新インターネットアーカイブ本部(2009年11月 - )

アーカイブにはプログラムが自動で、または利用者が手動で収集したウェブページのコピー(ウェブアーカイブ)が混在しており、これは「WWWのスナップショット」と呼ばれる。そのほか、ソフトウェア映画録音データ(音楽バンドなどの許可によるライブ公演の録音も含む)などがある。アーカイブは、それらの資料を無償で提供している。

設立の理念

アーカイブは1996年にブリュースター・ケールによって設立された。公式サイトによれば、その使命は以下のとおりである:

大抵の社会はその文化、歴史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から学ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。アーカイブの使命は、これらの電子資料の保存を支援し、研究者・歴史家・学界のためのインターネットライブラリを構築することにある。アーカイブはアメリカ議会図書館スミソニアン博物館などの他機関との恊働も行う。 — インターネットアーカイブ 公式サイト

人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、アレクサンドリア図書館に例えられることもある。

ウェイバックマシン

インターネットアーカイブ 
インターネットアーカイブ (新アレクサンドリア図書館

ウェイバックマシン (Wayback Machine)はインターネットアーカイブが保存するウェブアーカイブを閲覧することのできるサービスである。インターネットアーカイブのもっともよく知られたサービスの一つであり、ときに「インターネットアーカイブ」がウェイバックマシンと同義に使われることもある他、「ウェイバックマシン」がその背景のWebクローリングを含んだ意味で使われることもある。ウェイバックマシンを使えば、ウェブページが保存された時点の状態を閲覧することができ、また「Save Page」にURLを貼り付けることで、そのページをその場でインターネットアーカイブのウェブアーカイブに保存できる。インターネットアーカイブはウェイバックマシンの技術を「3次元インデックス」と呼んでいる。

ウェイバックマシンで閲覧可能なウェブアーカイブは、1996年のサービス開始当時はアレクサ・インターネットから提供されたデータが元であったが、インターネットアーカイブは2010年後半から独自の大規模Webクローリングを開始し、現在では自身で収集したデータが半分以上を占める。以前はデータ収集から公開まで半年から一年かかっていたが、独自のWebクローリングと2013年の技術革新により、数時間から一日で公開されるようになった。また「Save Page」で保存されたものは即時に閲覧可能である。

ウェイバックマシンが保持しているデータ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で増加を続けている。2003年に報告された増加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2012年にはデータ総量は10ペタバイトを超えた。保存されたウェブページ数では、2022年10月現在で7400億を超え、一か月あたりおよそ140億ページの割合で増加中である。このデータのコピーは新アレクサンドリア図書館にも保存されている。

ウェイバックマシンの過去のページの再生表示は、様々な理由により不完全であることがある。例えば、アレクサ・インターネットから提供されるデータにはHTMLファイルしか含まれていないため、2010年以前のアーカイブはページの画像などが表示されないものが大半である。またWebクローリングの技術的制約により、Webページの再生に必要なデータ全てが収集されないことや、Webページの再生表示技術の制約などによりページ表示が正常に行われないことなどは、特に最近の高度に動的なWebページではよく見られる。また、ウェブページを構成するスクリプトや画像などの部品はページのHTMLと同時点で収集されたものとは限らず、1年以上の時間差があることも稀ではない。さらに、いったん収集されたWebアーカイブが、関係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。

「ウェイバックマシン」という名称は「ロッキーとブルウィンクルの大冒険」の一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイをした犬のピーボディ先生と人間の助手シャーマンが「ウェイバックマシン (WABAC machine)」と呼ぶタイムマシンを使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。

公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェアの開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。

著作権

ウェイバックマシンは米国著作権法のフェアユース規定にもとづいてウェブアーカイブを構築している。後述の「インドからのアクセス遮断」のようにフェアユースに該当するとは思えない情報(営利目的の情報など)の収集も行っているのが実態である。

著作権侵害によるインターネットアーカイブに対する訴訟

ウェイバックマシンは目的の性質上、フェアユースが成立しているが、2020年にアシェット、ハーパーコリンズ、ワイリー、ペンギン・ランダムハウスなどの出版社が著作権侵害によりインターネットアーカイブを提訴。

Recall サーチエンジン

またInternet Archiveのデータベース的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。

アプリケーションプログラミングインタフェース

ウェイバックマシンはWebブラウザを使ったウェブアーカイブの閲覧だけでなく、アプリケーションプログラミングインタフェースも提供している。2015年時点では、

  • Wayback Availability JSON API
  • Memento API
  • Wayback CDX Server API

がある。

コレクション

動画、書籍、録音の多くがパブリックドメインにあるか、クリエイティブ・コモンズのライセンスで提供されている。音楽部門には、コンサートでの演奏の録音を許可しているアーティストや演奏家(グレイトフル・デッド、ストリング・チーズ・インシデント、トード・ザ・ウェット・スプロケット、311、fugaziなど)による音源とともに、独立系ミュージシャンの音源も数多く含まれている。

2020年11月, インターネットアーカイブではAdobe FlashのエミュレータとしてRuffleを導入し、Flashアニメーションやゲームのアーカイブを開始した。

オープンライブラリ

インターネットアーカイブはオープン・ライブラリの運営も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に閲覧、印刷ができる形式で入手可能である。

動画像コレクション

商用映画に加え、動画像コレクションには以下のようなものがある。

    ニュース映画コレクション、昔のアニメ(カートゥーン)コレクション、戦争映画・反戦映画などのプロパガンダコレクション、Skip ElsheimerによるA/V Geekコレクション、プレリンガー・アーカイブズによる短編ものコレクション(広告用、教育用、工業用などや家庭用の動画コレクション)

ブリックフィルムコレクションにはレゴによるストップモーション・アニメーションがあり、中には映画のリメイクものをしているものもある。Election 2004 (2004年選挙)コレクションは、2004年アメリカ合衆国大統領選挙に関連する動画資料を中立の立場からまとめた資料である。Independent NewsコレクションにはインターネットアーカイブのWorld At War competition from 2001(歴史的事物へのアクセスの重要性を示すための短編映画コンテスト)のようなサブコレクションもある。最もダウンロードされたビデオファイルは、2004年のスマトラ島沖地震の惨禍をとらえたものとなっている。

インターネットアーカイブには以下のような映画が1,500本前後存在する:

en:Special:WhatLinksHere/Template:Internet_Archive_film (英語)を参照。

論争

サイエントロジーサイト

2002年後半に、インターネットアーカイブはサイエントロジーの批判サイトをいくつもウェイバックマシンから削除した。ウェイバックマシンのエラーメッセージには、この削除は「サイトオーナーの要望による」との文言が載せられていたが、後に明らかになったところによればサイエントロジー教会の弁護士が削除を要求したものであった。この削除要求の法的根拠は不明であり、実際のサイトオーナー自身が削除を要求したものではなかった。

アーカイブ内のウェブページの証拠能力

2004年10月の「ポーランド・テレビ・SA社 対 エコースター・サテライト社」の裁判において、ウェイバックマシンのアーカイブが法的証拠の情報源として使われた。ポーランド・テレビはポーランドのテレビ局TVPポロニア (TVP Polonia) の提供元であり、エコースター・サテライトはアメリカの衛星テレビ放送ネットワークである、ディッシュ・ネットワークの運営元である。裁判の過程で、エコースター社はテレウジャ・ポルスカ社のウェブサイトの過去の内容の証拠として、ウェイバックマシンのスナップショットをあげた。テレウジャ・ポルスカ社は、伝聞および非公式情報に基づくものとしてやめさせようとしたものの、下級審判事のアーランダー・ケイズは、スナップショットを伝聞とするテレウジャ・ポルスカ社の主張を退け、インターネットアーカイブ社従業員による宣誓供述をスナップショットの信頼性を保証するものとして採用した。

グレイトフル・デッド

2005年11月、グレイトフル・デッドのコンサートの模様を収録した資料の無料ダウンロードが削除された。ニューヨーク・タイムズ紙の報道によれば、ジョン・ペリー・バーロウはこの変化の原因として、ボブ・ウィアー、ミッキー・ハート、ビル・クロイツマンのバンドの元メンバー3名の名を挙げた。元メンバーのフィル・レッシュは2005年11月30日付けでこの削除について個人サイト上でコメントを出した:

    グレイトフル・デッドのショーの全てが感謝祭前にArchive.orgから消えたのが気になった。私はこの決定に関与していないが、これら資料の引き上げについて聞かされていなかった。私はこの音源こそがグレイトフル・デッドの伝説であると信じているし、これらが求める人全ての手に入ることを望む。

ブリュースター・カールが11月30日にフォーラムへ投稿し、「観客による録音資料はダウンロードもしくはストリーム配信可能である。しかしながら、ミキサーでの録音資料はストリーム配信にのみ限られる。」とのバンドメンバーとの合意に達した内容をまとめた。

インドからのアクセス遮断

画像外部リンク
インターネットアーカイブ  [1] - インドの携帯電話通信会社であるバーティ・エアテルからインターネットアーカイブにアクセスしたときの画面。「あなたのリクエストしたURLは、インド政府の電気通信局からの命令に基づきブロックされています」と書かれている。

2017年8月から、インド国内からのインターネットアーカイブへのアクセスが禁止された。インドの映画製作会社2社が、映画の著作権侵害防止のために2,500超のウェブサイトへのアクセス遮断を訴える裁判を起こしており、その中にはインターネットアーカイブも含まれていた。インド、チェンナイにあるマドラス高等裁判所(英語版)は、8月2日にこれらの申し立てを認めている。インターネットアーカイブ側はブロックした電気通信局(英語版)と連絡を取ろうとしているが、返答がない。

ホスティング環境

ネット上のすべてのデータを収拾するサイトである性格上、そのホスティング環境は巨大なものである。2009年まではHDD4台を搭載した800台のLinuxクラスターで運用していたが、2009年春にサン・マイクロシステムズのSun Fire X4500 63台のクラスターに変更された。OSはSolaris10で、1台あたり1テラバイトHDDを48台搭載(=総計3ペタバイト)、ファイルシステムはZFSを採用していた。施設には専用のSun Modular Datacenterを使用していて、全データが輸送用コンテナひとつに収まっていた。これはその後次第にPetaboxと呼ばれる独自設計のラックマウント型Linuxサーバークラスターに置き換えられ、現在はPetaboxの第二世代が稼働中である。カリフォルニアベイエリアに3つのデータセンター拠点を持つ。

対応ブラウザ

閲覧するウェブブラウザについて、2019年8月頃からInternet Explorerで保存一覧を見ることができなくなっている。Google Chromeでは従来通り閲覧可能。

脚注

注釈

出典

関連項目

外部リンク

Tags:

インターネットアーカイブ 設立の理念インターネットアーカイブ ウェイバックマシンインターネットアーカイブ コレクションインターネットアーカイブ オープンライブラリインターネットアーカイブ 論争インターネットアーカイブ ホスティング環境インターネットアーカイブ 対応ブラウザインターネットアーカイブ 脚注インターネットアーカイブ 関連項目インターネットアーカイブ 外部リンクインターネットアーカイブWorld Wide Webアメリカアーカイブウェイバックマシンカリフォルニア州サンフランシスコサービスマルチメディア団体

🔥 Trending searches on Wiki 日本語:

かが (護衛艦)森高千里長澤まさみ中居正広コナー・マクレガー武田玲奈おかえりモネ響け! ユーフォニアム名探偵コナンのアニメエピソード一覧フロリアン・ヴィルツ約束 〜16年目の真実〜沢城みゆき大村慎一タイタニック号沈没事故金松季歩瀧内公美野口葵衣竹本貴志日本石橋杏奈第二次世界大戦向井理片岡凜賭博黙示録カイジ中宮東京卍リベンジャーズサルバドール・ダリ熊本地震 (2016年)杉咲花吉田正尚ロッシー小川金子みすゞ照ノ富士春雄森香澄ダンプ松本小泉純一郎岡部たかし橋爪淳88rising三崎優太木之内みどり蒲島郁夫竹中隼人ジャッキー・チェン石原さとみYahoo! JAPAN伊藤博文小林涼子小金沢昇司あのコードギアス 反逆のルルーシュイップス広岡達朗アルトネリコ笑福亭鶴瓶Aぇ! groupエルサレム森田望智ムーキー・ベッツ山口竜之介五・一五事件DaiGo山口勝平Fallout シリーズ王貞治PICU 小児集中治療室オッペンハイマー (映画)Travis Japanおちょやん浜辺美波BiSH飯山陽俺だけレベルアップな件OPS (野球)宇垣秀成SUPER EIGHTまじっく快斗🡆 More