ビッグデータ (英: big data)とは、組織が非常に大きなデータセットとそれらが保存されている施設を作成、操作、および管理できるようにするすべての技術を指す。一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。組織が非常に大きなデータセットを作成、操作、および管理できるようにするすべてのものと、これらが格納されている機能を指す。
この項目は内容が専門的であり、一般の閲覧者にはわかりにくくなっているおそれがあります。 |
ビッグデータを取り巻く課題の範囲は、情報の収集、取捨選択、保管、検索、共有、転送、解析、可視化等多岐にわたる。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見、疾病予防、犯罪防止、リアルタイムの道路交通状況判断」に繋がる可能性がある。
用語自体はデータマイニングで一般的に使われてきたが、2010年代に入ってある種のトレンドを示すキーワードとして、新聞・雑誌などでも広く取り上げられるようになってきた。ビッグデータに代わってAIが流行すると、マスメディアでセンセーショナルに取り上げられることは無くなった。分散型データセンター、データウェアハウス、クラウドベースのストレージは、今日の一般的な側面である。
コンピュータの性能に上限があるように、我々が取り扱えるデータ量の大きさにも上限がある。2012年現在[update]、現実的な時間内に処理することが可能なデータサイズの上限は、エクサバイトのオーダーとされる。換言すると、我々は事実上これ以上のデータは扱えないという制限を抱えていると言える。
科学者はしばしばこの制限に遭遇する。その分野にはゲノミクス、気象学、コネクトミクス、複雑な物理シミュレーション、生物調査および環境調査等がある。インターネット検索、金融、ビジネスインフォマティクスの分野でも、データ量の上限がビジネスや研究活動に制限を与える。
このように近年データが増加しているのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサネットワークの普及も1つの原因である。全世界の1人当たりの情報容量は1980年代以降40か月ごとに倍増し、2012年現在[update]、1日あたり毎日250京(2.5×1018)バイトのデータが作成されたとされる。
ビッグデータは、大部分の関係データベース管理システムやデータ分析ソフトでは処理が困難である。そのため、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる。
大企業にとっての課題には、組織全体にまたがるビッグデータの主導権を誰が握るかということもある。何を「ビッグデータ」と考えるのかを明確にするのも企業毎の課題となる。これはデータを管理する組織の能力と分析アプリケーションの能力に依存するためである。数百ギガバイトのデータに直面して始めてデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある。
データセットは、リモートセンサー、モバイルデバイス、カメラ、マイク、無線周波数識別(RFID)リーダー、および類似のテクノロジーによって収集されるものが増えるにつれて、増え続けている。2.5エクサバイト(2.5Å〜1018バイト)のデータが毎日作成され、世界のデータの90%がわずか2年間に作成されたと推定した研究も存在する。これらの数値は、おそらく今日より高くなっている。
ビッグデータアプリケーションは、ビジネス、特にキャプチャして保存する大量のデータから利益を得るためにデータ製品とサービスを構築することを志向するビジネスにとって、ますます競争力のあるソースになりつつある。ビッグデータアプリケーションのメリットを享受する企業が増えるにつれて、企業にとってデータの活用がますます重要になることを示す兆候がある。
データの収集、取捨選択、管理及び処理に関して、一般的なソフトウェアの能力を超えたサイズのデータ集合と定義される。2012年現在[update]、数十テラバイトから数ペタバイトの範囲である。NoSQLのような新たなビッグデータ技術の普及により、その数値上の定義は変わっていくと考えられる。
2001年の研究報告書で、METAグループ(現ガートナー )のアナリスト、ダグ・レイニーはビッグデータの特性としてボリューム(volume、データ量)、速度(velocity、入出力データの速度)、バラエティ(variety、データ種とデータ源の範囲)があると定義した。ガートナーはこの「3V」モデルを使用していたが、2012年、次のように定義を更新した:「ビッグデータは、高ボリューム、高速度、高バラエティのいずれか(あるいは全て)の情報資産であり、新しい形の処理を必要とし、意思決定の高度化、見識の発見、プロセスの最適化に寄与する」。さらに新しいV、正確さ(veracity)の追加の提案もある。
例としては、巨大科学、RFID、センサネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析 (ソーシャルデータ革命による)、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、他の複雑でしばしば学際的な科学研究、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマースがある。
大型ハドロン衝突型加速器 (LHC) では約1億5000万のセンサーが毎秒40万のデータを発生させる。毎秒ほぼ6億回の衝突がある。99.999%のデータをフィルタリング・除去処理し、1秒あたり100の衝突が有用なデータとなる。その後、センサデータの0.001%未満を処理する。すべての4つのLHC実験は1年に25ペタバイトを発生する。これは複製後約200ペタバイトになる。もし全てのセンサデータがLHCで記録されるなら、データの処理は著しく困難になるであろう。データは複製前で1年に1.5億ペタバイト、すなわち一日あたり約500 エクサバイトを超えてしまうであろう。この数字は一日あたり5垓(5×1020)バイトで、世界すべての情報源を合計した数値の約200倍である。
ここ数十年で情報通信技術開発 (ICT4D)の分野で研究が進み, ビッグ・データが途上国の開発にも有用であることが示唆された。ビッグデータの出現は、医療、雇用、生産性、犯罪や公衆安全、自然災害や資源管理などの重要な開発分野の意思決定を改善する。その一方でビッグデータのよく知られた問題、例えば、プライバシー、相互運用性、不完全アルゴリズムを全知全能にする問題は、技術インフラの不足、経済および人的資源の不足のような未解決課題を悪化させている。これは新たな情報格差、意思決定の格差に繋がる。
ストレージコストの継続的な低下、データマイニングおよびビジネスインテリジェンス(BI)ツールの成熟、組織に大量の備蓄を引き起こした政府の規制や裁判など、多くの要因が「ビッグデータ」とビジネスネットワークの統合に貢献している。
ビッグデータの専門家の需要は増加しておりSoftware AG、オラクル、IBM、マイクロソフト、SAP、EMC、HPといった企業は、データ管理と分析だけを専門とするソフトウェア会社に150億ドル以上を費やしている。2010年には1000億ドル以上の業界価値があり、年間約10%で成長していた。これはソフトウェアビジネス全体の約2倍の速さである。
全世界の携帯電話契約数は約46億であり、10から20億人がインターネットにアクセスしている。通信ネットワークを介して交換される容量は、1986年に281ペタバイト、1993年に471ペタバイト、2000年には2.2エクサバイト、2007年には65エクサバイトであった。インターネット上のトラフィック量は2013年までに667エクサバイトに達すると予測されている。
従来のビジネスデータストレージおよび管理テクノロジには、リレーショナルデータベース管理システム(RDBMS)、ネットワーク接続ストレージ(NAS)、ストレージエリアネットワーク(SAN)、データウェアハウス(DW)、およびビジネスインテリジェンス(BI)分析が含まれる。従来のデータウェアハウスとBI分析システムは、企業インフラストラクチャ内で高度に集中化される傾向がある。これらには、RDBMS、高性能ストレージ、およびデータのマイニングと視覚化のためのオンライン分析処理(OLAP)ツールなどの分析ソフトウェアを備えた中央データリポジトリが含まれることがよくある。
2004年、GoogleはMapReduceと呼ばれるビッグデータ処理技術の論文を発表した。これはデータ処理を分割し、複数のコンピュータで並列に実行するものである。この分割と並列処理のステップを「マップ(Map)」と呼ぶ。各コンピュータの処理結果は最終的に一つに集められ、解析者に配信される。これを「リデュース(Reduce)」と呼ぶ。この技術は成功を収めた[要説明]ので、そのアルゴリズムを再現しようとした者もいた。実際にMapReduceはHadoopという名前で、Apacheのオープンソースプロジェクトに採択された。
2011年マッキンゼーレポートによると、以下の技術が必要と示唆された。 A/Bテスト、 相関ルールの学習、 統計分類、 データ・クラスタリング、 クラウドソーシング、 データ融合と統合、 アンサンブル学習、 遺伝的アルゴリズム、 機械学習、 自然言語処理、 ニューラルネットワーク、 パターン認識 、 異常検出、 予測モデリング、 回帰分析、 感情分析、 信号処理、 教師あり学習と教師なし学習、 シミュレーション、 時系列解析、 可視化である。多次元ビッグデータはテンソルとして表現でき、これは多線部分空間学習のようなテンソル・ベース計算にて効率的に処理できる。
さらに関連技術には、超並列処理(MPP)データベース、 検索ベースのアプリケーション、データマイニンググリッド、分散ファイルシステム、分散データベース、クラウドコンピューティングとインターネットがある[要出典]。一部のMPPリレーショナルデータベースは、ペタバイトを格納および管理する能力を持っている。加えて、暗黙的にRDBMSをロード、監視、バックアップする能力も必要となる。
ビッグデータ分析の専門家は、一般的に遅い共有ストレージを敵視し、ソリッドステートドライブ(SSD)やダイレクトアタッチトストレージ(DAS)を好む。ストレージエリアネットワーク (SAN)やネットワークアタッチトストレージ (NAS)は遅く、複雑で、高価であると認識される。容易に入手可能で低コストなハードウエアをベースに成長するビッグデータ分析システムにこれらは適さない。
2012年3月に、ホワイトハウスは6連邦政府省庁および政府機関で構成される「ビッグデータイニシアティブ」を発表した。2億ドル以上の予算が付与された。
これにはカリフォルニア大学バークレー校 AMPLabへの、全米科学財団「計算機科学の探検」研究費、5年間 $1千万ドルが含まれる。AMPLabは加えてDARPAと10以上の産業界からの資金提供を受け、交通の混雑の予測、がん対策のような広範囲の課題に挑戦する。
このイニシアティブにはまた、エネルギー省のローレンス・バークレー国立研究所が率いるスケーラブル・データ管理・分析・可視化(SDAV)研究所への5年間 $25百万ドルの資金提供も含まれる。SDAV研究所は、科学者が省のスーパーコンピュータ上のデータを管理、可視化するための新しいツールの開発を目指す。このために6国立研究所と7大学の専門知識を結集することを目指している。
米国マサチューセッツ州は、2012年5月に「マサチューセッツ州ビッグデータイニシアティブ」を発表し、州政府や民間企業が資金を提供している。マサチューセッツ工科大学 はThe Intel Science and Technology Center for Big Data をMITコンピュータ科学・人工知能研究所で主催した。
欧州委員会はビッグデータ・プライベート・フォーラムに資金提供する。これには企業、教育機関、その他のビッグデータ関係者が参加している。プロジェクトの目標は、研究と技術革新の面で戦略を定義することである。このプロジェクトの成果は、次のフレームワークプログラムであるHorizon 2020で利用される。
IBMは毎年開催される学生の国際プログラミングコンテスト、"Battle of the Brains"のスポンサーとなった。ビッグデータ世界選手権は、2014年にテキサス州オースチンで初めて開催された。
実証科学の性質による根本的な限界があるので、ビッグデータパラダイムは実証科学によるものなので、ビッグデータにも実証科学と同様の限界がある。
2012年4月のハーバードビジネスレビューの記事によると、ビッグデータはどんなにわかりやすく分析されたとしても、大きな決断(ビッグディシジョン)によって補完されなければならないとされた。同時に、ビッグデータの解析結果は「過去に知られたものか、良くても現在のもの」にしかならないと指摘された。過去の経験が多数入力されれば、過去と同じ事象を予想する可能性がある。
要するに、想像力を使わずにビッグデータだけで論理的な推論を行うことは、革命的な視点を生み出すことはできない。パラダイムから独立して科学的に真偽を決定することは不可能である。オットー・ノイラートは科学を、外海に再建しなければいけないボートと比較している。
データの統計的処理では科学的であったが、なぜ錯覚が生まれるかというメカニズムの解明では、仮説を立て実験データとの照合を論じてはいたものの、その仮説自体はやはり思弁に過ぎなかった。脳科学の進歩によって急速に、認識論と存在論の2つの世界は大きく浸食されつつある。脳細胞をシミュレートする深層学習技術は、10年前の人間の想像を超えているということである。機械学習とディープラーニングを使用したビッグデータは、10年前の限界を超えている。
ダナ・ボイドは標本調査に基づき代表的な母集団を選ぶという科学の基本的原則を無視し、異種のデータ源から成る大量のデータの処理にこだわることに懸念を示した。このやり方は、偏った結果につながる可能性があるにもかかわらず、多くの科学者はこのような統合は最も有望な科学の最先端と主張している。
この節の外部リンクはウィキペディアの方針やガイドラインに違反しているおそれがあります。 |
This article uses material from the Wikipedia 日本語 article ビッグデータ, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). コンテンツは、特に記載されていない限り、CC BY-SA 4.0のもとで利用可能です。 Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki 日本語 (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.