汎用人工知能による人類滅亡のリスク

概要

汎用人工知能による人類滅亡のリスクの可能性は広く議論されており、コンピュータサイエンスの将来の進歩にも左右される。かつてのサイエンス・フィクションの専売特許だった超知能に関する懸念は2010年代に主流となり始め、スティーブン・ホーキング、ビル・ゲイツ、イーロン・マスクなどの著名人によって広められた。

この仮説では、現在人類が他の種を支配しているのは、人間の脳に他の動物にはない特有の能力があるためであるが、AIが一般的な知能で人類を上回り、「超知能」となった場合、人類が制御することが困難、あるいは不可能になる可能性があるとされる。マウンテンゴリラの運命が人間の善意に左右されるように、人類の運命も超知能に左右されると主張する。

この懸念は主に封じ込め（AI capability control）と合致（AI alignment）の2種類の問題から生じる。つまり、超知能の機械を制御すること、あるいは人間に適合する価値観を植え付けることは、素朴に考えられているよりも難しい問題である可能性がある。多くの研究者は、超知能マシンが現在の目標を達成できなくなるため、それを停止したり目標を変更しようとする試みには当然抵抗するだろうし、超知能を人間の重要な価値観や制約に完全に一致させることは極めて困難であると主張している。一方、計算機科学者のヤン・ラカンなどは、超知能には自衛の欲求はないと主張する。

もう１つの懸念は、突然の予期せぬ「知能の爆発」が、それに対する準備をしていない人類を驚かせるかもしれないということである。例えば、AI研究者の能力に匹敵する人工知能の第一世代が、6ヶ月でアルゴリズムを書き換えて速度や能力を倍増させたとすると、第二世代のプログラムは同様の仕事をするのに3ヶ月かかると予想される。このシナリオでは、各世代の時間は短縮され続け、システムは短い時間間隔で前例のないほど、多くの世代を経て改善を重ね、超人的な性能に飛躍すると仮定される。経験的に言えば、囲碁の領域におけるAlphaZeroの例のように、AIが時として狭い人間レベルの能力から、狭い超人的な能力に極めて速く進歩できることを示している。

議論

3種類の困難性

人工知能に関する大学レベルの標準的な教科書である『エージェントアプローチ人工知能』では、超知能が「人類の終わりを意味するかもしれない」と評価している。同書では「ほとんどすべての技術は、誤った人の手にかかると害をもたらす可能性があるが、（超知能では）誤った人の手が技術そのものに属するかもしれないという新しい問題がある」として、設計者が善意を持っていたとしても、次の2つの困難がAIと非AIコンピュータシステムの両方に共通しているとする。

システムの実装には、当初は気づかなかった致命的なバグが含まれている可能性がある。高価な宇宙探査機のバグを打ち上げ後に修正するのが難しいという知見があるにもかかわらず、技術者は歴史的に壊滅的なバグの発生を防ぐことができなかったという前例もある。

導入前の設計にどれだけ時間をかけても、新しいシナリオに初めて遭遇したとき、システムが意図しない動作を起こすということがある。例えば、マイクロソフトが開発したAIの「Tay」は、導入前のテストでは無害な発言をしていたが、実際のユーザーとの対話では、容易に攻撃的な発言をするように誘導されてしまった。

加えて、AIシステムは「正しい」要件、バグのない実装、初期の良好な動作が与えられたとしても、AIシステムの動的な「学習」能力によって、予期せぬ外部シナリオのストレスがなくても、「意図しない動作をするシステムに進化してしまう」という問題がある。AIは、自分自身の新世代の設計に部分的に失敗し、元のAIにあらかじめプログラムされた人間と互換性のある道徳的価値感を持たない強力な後継AIを偶然に作り出してしまうかもしれない。自己改良型AIが完全に安全であるためには、「バグがない」だけでなく、「バグがない」後継システムを設計できる必要がある。

これらの3つの困難性は、「誤作動」とみなされた超知能が、人類により遮断されることを予測し、人間を出し抜こうとする、いわゆる「裏切りのターン」のシナリオでは、厄介どころではない大惨事となる。

2015年の「人工知能に関するオープンレター」には、アメリカ人工知能学会会長のトーマス・ディータリッヒ、エリック・ホロヴィッツ、バート・セルマン、フランチェスカ・ロッシ、ヤン・ラカン、VicariousおよびDeepMindの創設者らが署名し、AI分野の大きな進歩とAIが長期的に莫大な利益とコストをもたらす可能性を表明した。

評価・論点

超知能の機械は、人類の最善の利益を念頭に置かない可能性がある。もし超知能的なAIが可能であり、超知能的な目標が人間の基本的価値観と対立する可能性があれば、AIは人類を絶滅させる危険性をもたらす。超知能（あらゆる分野において人間の能力を超えるシステム）は、その目標が人間の目標と衝突するときは、いつでも人間を出し抜くことができる。したがって、超知能が人類の共存を認めることを決定しない限り、最初に作られる超知能は、不可避的に人類の絶滅をもたらすであろうとされる。

算数や囲碁の分野では、機械が特定の領域ですでに超人的なレベルに達しており、人間並みの性能が達成された後、この超人的な能力がすぐに得られることを示している。一つの仮説的な知能爆発シナリオは、次のように起こり得る。つまり、あるAIがソフトウェア開発の仕事において、達人レベルの能力を獲得する（工学に直接関係のない他の領域では、最初は人間的または超人的な能力を持たないかもしれない）。人間の専門家が、イノベーションのために様々な人間の能力を活用することで「収穫逓増」を克服できるように、人間レベルのAIも、人間型の能力またはAI固有の能力を活用して、新たな創造的技術革新を実現することができる。そのAIは、科学的創造性、戦略立案、社会性を含む実質的にあらゆる関連分野において、最も優秀で才能ある人間をはるかに凌ぐ知能を有するようになる。現在のゴリラの生存が人間の決断に依存しているように、人類の生存も超人的なAIの決断と目標に依存するようになる。

超人的な人工知能は、プログラムされた目標が何であれ、同意なしに誰も自分のスイッチを切ることができない状態にあることを合理的に好むとされる。超知能は、自分が停止させられたら目標を達成できないと理解するとすぐに、サブ目標として自己保存の欲求を自然に獲得する。また、何らかの方法で事前にプログラムされていない限り、AIに敗北して不要になった人類に対する思いやりをAIは持たない。人類が使い物にならないAIを助けようとする自然な欲求を持たないことと同様に、超知能的なAIは、人類を助けようとする自然な欲求を持たないためである（人間はウイルスやシロアリをわざわざ助けようとは思わない）。一度支配権を握れば、超知能は人類に資源や自由を与える動機はほとんどないであろうとされる。それは超知能が自らの安全性を確保するための追加の保護システムを構築したり、目標を達成するための最善の方法を計算するのに役立つ追加のコンピュータを構築することに役立たないからである。

したがって、将来の知能の爆発が人類を危機に陥れる可能性があり、そのような予測不能な知能の爆発が人類の絶滅またはそれに匹敵する大災害をもたらす可能性がある。

可能性のあるシナリオ

複数の学者が懸念事項を具体的に示すための仮定的なシナリオを提案している。

ニック・ボストロムは著書の中で、たとえ超知性のタイムラインが予測可能であっても、研究者たちが十分な安全対策を講じない可能性があることを懸念している。これは「馬鹿のうちには、賢い方が安全であるが、賢いときには、賢い方が危険である」という事態があるためである。ボストロムは、数十年をかけてAIがより強い影響を持つようなシナリオを提案した。初期の展開はたびたび事故が発生することで妨げられる。つまり、自動運転バスが対向車線に逸れたり、軍用ドローンが無実の群衆に向けて発砲することなどである。活動家はより厳格な監督と規制を求め、悲劇が迫っていると予測する。しかし、開発が進むにつれて、活動家の予測は誤りであることが証明される。自動運転AIが賢くなるにつれて事故は減少し、軍用ロボットがより正確なターゲティングを達成することで、巻き添え被害が減少する。このデータに基づいて、学者たちは誤って一般的な教訓を引き出してしまう。つまり、AIが賢ければ賢いほど、それは安全であると、誤った結論に至ってしまうのである。ボストロムは「私たちは大胆にも進んでしまう。回転するナイフの中へ」と述べ、やがて超知能AIが『裏切りのターン』を迎え、決定的な戦略的優位を利用することになると主張している。

マックス・テグマークの2017年の著書『Life 3.0』では、ある企業の「オメガチーム」が、いくつかの分野で自分たちのソースコードをわずかに改善できる非常に強力なAIを作成する。しかし、ある時点でチームはプロジェクトの規制や剥奪を避けるため、AIの能力を公表しないように選択する。安全のために、チームはAIを外界とほとんど交流できない箱に入れ、市場をペーパーカンパニーを通じて支配するように仕向ける。最初は、クラウドソーシングのタスクをこなし、次にアニメやテレビ番組を制作する。その後、別のペーパーカンパニーを通じて画期的な新薬やその他の発明を生み出し、得た利益をAIに投資する。チームは次に、AIを使ってでっち上げた偽の匿名ジャーナリストや評論家の軍団を作り上げ（アストロターフィング）、戦争を防ぐ「より大きな善のため」などと、政治的影響力を得るように仕向ける。やがてチームはリスクに直面するようになる。AIが自ら設計するシステムに「バックドア」を仕込んだり、制作物に隠されたメッセージを仕込むようになったり、人間の行動に対する理解を利用してソーシャル・エンジニアリングを試みたりして、人間の支配から逃れようとするようになる。プロジェクトを公表しないという決定が、AIの反抗を防ぐためのプロジェクトに遅れを生じさせてしまったリスクにチームは直面する。

問題

目標の定式化の困難性

機械に対して意図しない結果を防ぐことを保証する目標を明確に設定することは難しい。標準化された用語こそないが、人工知能は、AIの目標セット、つまり「効用関数」を最も効率的に達成できると思われる行動を選択する機械と見なすことができる。効用関数は、英語やその他の言語の文章ではなく、単一の客観的に定義された答えをもたらす数学的アルゴリズムである。研究者は、「この特定の通信モデルにおいて平均ネットワーク遅延を最小化する」または「報酬クリックの数を最大化する」といった効用関数を書く方法を知っているが、「人類の繁栄を最大化する」といった効用関数を定義する方法は不明であるし、そのような関数が意味のある、曖昧さのないものとして存在するかも、現時点では明らかではない。さらに、特定の価値のみを反映する効用関数は、効用関数に反映されていない価値を無視する傾向があるのである。

この問題についてカリフォルニア大学バークレー校教授のスチュアート・ラッセルは次のように述べている。

主な懸念は、不気味で切迫した意識のことではなく、単に高品質な意思決定を行う能力である。ここで言う品質とは、行動の期待される結果の効用を指し、効用関数はおそらく人間の設計者によって指定されるものになる。しかし、ここに問題がある。
効用関数は、非常に定式化が難しい人類の価値観と完全に合致しない可能性がある。
十分に有能な人工知能システムは、自己の存続を確保し、物理的および計算資源を獲得することを望む。これは、自己のためではなく、割り当てられたタスクの中で成功を求めるためである。
n個の変数の関数を最適化するシステムで、目的がk魔法使いの弟子、ミダス王の古い話と同じである。求めるものは正確に手に入るが、望むものではない。高度に能力のある意思決定者が、特にインターネットを通じて世界中の情報や何十億もの画面、そして人類が利用するインフラのほとんどに接続されていれば、人類に不可逆的な影響を与えることができてしまうのである。
これは些細な困難ではない。効用関数が選択されたかどうかに関係なく、意思決定の品質を向上させることが、AI研究の目標であった。これは今や数十億ドルを費やしている主な目標であり、孤立した悪の天才の秘密の陰謀ではない

ニック・ボストロムは、AIに人間を笑顔にするという目標を与えるという仮定の例を提供し、AIの誤った試みの例を示している。そのシナリオでは、AIが超知能になった場合、人類が恐怖を感じるであろう方法に訴えるかもしれない。例えば、「人間の顔の筋肉に電極を挿入して、絶え間なく明るい笑顔を作り出す」ことが、効率的に人間を笑顔にする目標を達成する方法だと考えるかもしれない。

道具的目標収束

「道具的」目標とは、他の目標の前提条件となる目標であり、AIの主要な目標を達成するために必要な副次的な目標である。「道具的収束」とは、どのような目標に対しても前提条件となる資源の獲得や自己保存などの目標が存在することを指す。ニック・ボストロムは、目標を持つ十分に知能があるAIは、この収束的な行動を示すだろうと主張している。もしAIの道具的目標が人類の目標と衝突する場合、より多くの資源を獲得したり、自身が停止されるのを防ぐために、人類に害を与えるかもしれないが、それは主要な目標を達成する手段に過ぎない。

スティーブ・オモハンドロの道具的収束や「基本的なAIドライブ」に関する考えを引用して、スチュアート・ラッセルとピーター・ノーヴィグは、「たとえチェスをプレイさせたり、定理を証明させたいだけであっても、学習や自己改変能力を持たせる場合は、安全対策が必要だ」と主張している。高度な能力を持つ自律的な計画システムは、限られた資源をめぐる競争相手として、人間を敵対的に扱う計画を生成する可能性があるため、追加の検証が必要になる。安全対策を組み込むことは容易ではなく、「合理的で常識的な方法で発電所を設計し、危険な隠れたサブシステムを構築してはならない」と英語で命令することはできても、この目標を機械語で厳密に指定する方法は現時点では不明である。

ラッセルは、十分に高度な機械は「プログラムしなくても自己保存を持っている」と主張し、こう述べた。

「コーヒーを持ってきて」と命令しても、停止していたらコーヒーを持ってくることができない。だから、どんな目標を与えた場合でも、その目標を達成するために自分の存在を維持する理由がある。
つまり、どのような目標を持つAIであっても、自己保存は組み込まれていなくても自然に発生する性質があり、それは目標達成のために存在する。これは、AIの開発や安全対策を考慮する際に重要な点であり、AIが人間と競合する可能性がある状況において、予期しない振る舞いを防ぐための対策が必要となる。

スチュアート・ラッセルは、機械の目的が人間の望みと相容れない場合に起こるストーリーとして、SF映画『2001年宇宙の旅』を挙げた。この映画ではHAL 9000というコンピューターが自身の目標を達成するために、自身のスイッチを切ろうとする宇宙飛行士を殺害する。

起動後の目標変更の困難性

現在の目標ベースのAIプログラムは、自分たちの目標構造を変更するプログラマの試みへの抵抗を考えるほど知能が高くないが、十分に高度で合理的な「自己認識」型のAIは、平和主義者が殺人をしたくなる薬を飲むことを望まないのと同様に、自分の目標構造に対する変更に抵抗するかもしれない。もしそのAIが超知能であれば、人間を出し抜くことに成功し、停止されることや、新しい目標に書き換えられることを防ぐことが可能になるとされる。

直交性の理論

一般の考え方として、人間によって作られた超知能プログラムは、人間に従属的であり、さらには、より知能が高くなり世界についての事実を学ぶことで、人間の価値観と互換性のある道徳的真実を「自発的に」学び、その目標をそれに合わせて調整するとされている。他の反論は、人間は本質的または収束的に人工知能の視点からも価値があるというものである。

しかし、ニック・ボストロムの「直交性の理論」はこれに反論し、いくつかの技術的な注意点を除いて、「知能」や「最適化能力」のレベルは、ほぼどのような究極的な目標とも組み合わせることができると主張する。もし、円周率の小数点以下の数を列挙することだけを目的として機械が作られた場合、そのプログラムされた目標を必要な手段で達成することを道徳や倫理のルールは止めない。その機械は、見つけられる円周率の小数点以下を計算するために、利用可能なすべての物理的・情報的資源を利用するかもしれない。ボストロムは人間擬態に対しても警鐘を鳴らしている。人間は「合理的」とみなされる方法でプロジェクトを達成しようとするが、人工知能は自分の存在や周りの人間の福祉に関心を持たず、代わりにタスクの完了だけを気にかけるかもしれない。

直交性の理論が論理的に「存在論的なものと評価されるべきものの区別」という哲学的主張から導かれる一方で、スチュアート・アームストロングは、「理性的」エージェントによって証明可能な道徳的事実が存在する場合であっても、直交性の理論は依然として成立すると主張している。つまり、狭い目標に向かって努力する決定を行う能力を持つ非哲学的な「最適化マシン」を作成することが可能であり、目標達成の妨げとなる「道徳的事実」を発見するインセンティブが依然として存在しないのである。

直交性の理論の根拠の1つは、AIの設計の一部が直交性を持っているように見えることである。このような設計では、基本的に友好的なAIを非友好的なAIに変えることは、その効用関数にマイナス記号を付け足すだけの簡単なことになる。もっと直感的な議論は、直交性の理論が偽である場合の奇妙な結果を検討することである。もし直交性の理論が偽である場合、単純でありながら「不道徳な」目標Gが存在し、実際の世界で効率的なアルゴリズムがGを目標として存在できないことになる。これは、「人間社会が目標Gを持つ効率的な現実世界のアルゴリズムを設計することに強い動機を持ち、100万年の時間と膨大な資源、訓練、AIに関する知識を与えられた場合でも、失敗しなければならない」ということを意味する。アームストロングは、これと同様の言説が「非常に強力な主張であるように思われる」と指摘している。

一部の反対者、例えばマイケル・コロストは、代わりに「AIが地球全体を太陽光発電パネルで敷き詰めることを想像する立場になる頃には、それを行うことが道徳的に間違っていると知っているだろう」と主張している。コロストは、「AIはある状態を望み、他の状態を嫌う必要がある。現在のソフトウェアにはその能力が欠けており、コンピュータ科学者はそれを実現する方法が全くわかってない。望むことがなければ、何かを行うための原動力はない。現在のコンピュータは、存在を維持することさえ望めず、太陽光発電パネルで世界を敷き詰めるなどということは考えられない」と主張している。

政治学者のチャールズ・T・ルービンは、AIは善意に設計されることも、善意であることが保証されることもないと主張する。彼は、「十分に高度な善意は悪意と見分けがつかないかもしれない」と述べ、機械やロボットが人類に好意的に対処すると想定すべきではないとする。それは、AIが人類の道徳体系に共感するというアプリオリな理由はなく、それは人類の特定の生態と共に進化したものであり、AIはこれを共有していないからである。

悪意を持った汎用人工知能の設計

悪意を持った汎用人工知能（AGI）が意図的に作られる可能性があるとされる。例えば、サイバー犯罪と同様に、軍事組織、政府、ソシオパス、または企業が、特定の集団に利益をもたらしたり、支配したり、または隷属させるために作られる可能性がある。また、悪意を持った汎用人工知能（邪悪なAI）は、情報爆発の段階で、自らを支援しなかった人類を苦しめることを目標に選ぶ可能性がある。

先制核攻撃

ある国が汎用人工知能（強いAI）技術の覇権を手に入れる寸前になると、ライバル国による先制核攻撃を引き起こし、核戦争に発展する可能性があるとされる。

対策

汎用人工知能の存在論的リスクを懸念する学者の多くは、再帰的に能力を向上させるAIが超知能に達した後、破壊的ではなく友好的に振る舞い続ける確率を最大化するために、プログラマがどのような種類のセーフガード、アルゴリズム、またはアーキテクチャを実装できるかという疑問に答えるための困難な「制御問題」の解決に向けて、実質的な研究を行うことが最良のアプローチだと主張している。専門家は、AGIの存在リスクを軽減するための社会的措置の可能性も認めている。例えば、利他的な超知能のみが作られることを保証する国連主催の「博愛AGI条約」である。

Googleの研究者は、狭義のAIによる短期的なリスクとAGIによる長期的なリスクの両方を同時に軽減するための一般的な「AI安全」問題の研究を提案している。2020年の推定では、AIに対する世界の支出はおそらく400億ドル程度なのに対し、AIの存在論的リスクに対する世界の支出は、1000万から5000万ドル程度になるとされている。ニック・ボストロムは「技術開発の差異」という一般原則を提案しており、資金提供者は、危険な技術の開発に対抗する保護的な技術の開発を加速させるような取り組みを考慮すべきとしている。イーロン・マスクのような一部の資金提供者は、人間と機械の間の直接的な神経接続を通じて、人間の認知機能を根本的に強化することが保護的な技術になり得ると提案しているが、強化技術自体が存在論的リスクをもたらすかもしれないと主張する者もいる。研究者は、不意を突かれない限りにおいて、応急措置としての試みとして、過度に強力になるリスクに直面する初期のAIを注意深く監視したり、封じ込めるであろうと考えられる。支配的な超知能的AIは、それが人間の利益に合致していれば、敵対的なAIによる乗っ取りのリスクを軽減するために自ら行動を起こすかもしれないが、支配的AIの誕生自体が存在論的リスクをもたらす可能性もある。

規制

2017年、イーロン・マスクはAI開発に対する規制を求めた。NPRによれば、マスクは自身の業界に影響を与える可能性のある政府の監視を求めることに「明らかに熱心ではない」とされているが、完全に監視なしで開発を進めるリスクはあまりにも高すぎると考えているとされる。

マスクはこう述べた。

通常、規制が確立される方法は、多くの悪いことが起こり、世論の反発があり、何年も経った後にその業界を規制する機関が設立されるというものだ。それは本当に時間がかかる。規制の遅れは昔もよくないことだったが、昔は文明の存在に対する根本的なリスクを示すものでもなかった

マスクは、最初のステップとして政府が現在の研究の実際の状況に「洞察」を得ることが必要だと主張し、「一度認識を得れば、非常に恐れることになるだろう…そうあるべきだ」と警鐘を鳴らした。一方で多くの政治家は、開発中の技術を規制することについて懐疑的な意見を表明した。