ハードウェアマルチスレッディング(英: hardware multi-threading)は、プロセッサのマイクロアーキテクチャにおいて複数のスレッドの実行をハードウェアで提供することである。
ハードウェアマルチスレッドのパラダイムは、1990年代後半以来、命令レベルの並列性をこれ以上利用する努力が行き詰まったため、注目されるようになった。スループットコンピューティングの概念をより特化した分野であるトランザクション処理から突如再浮上させることになった。
「スループットコンピューティング」のための二つの有力な方法が、マルチプロセッシングとハードウェアマルチスレッディングである。
マルチスレッディングに対していくつか批判もある:
マルチスレッドサポートするために用いられるハードウェア技術は、コンピュータプログラムのマルチタスクのためのソフトウェア技術と匹敵する。
細粒度マルチスレッドはサイクルごとに実行スレッドの切り替えを行い、マルチスレッドに対応する方法である。実行スレッドの切り替えは、複数のスレッドからの命令実行をインターリーブ(動的割り当てによる性能向上)するため、大抵の場合ラウンドロビン方式で行われ、停止中のスレッドはスキップされる。
例:
この種類のマルチスレッディングの目的は、実行パイプラインから、データ依存によるストールをすべて排除することである。一つのスレッドが比較的他のスレッドから独立しているため、一つのパイプのステージ内の一つの命令がパイプラインの古い命令の出力結果を必要とする可能性は低い。
概念的には、オペレーティングシステムで用いられるプリエンプティブ・マルチタスクと似ている。各アクティブスレッドに与えられたタイムスライスを 1 CPU サイクルに例えることができるだろう。
細粒度のマルチスレッドの主な利点の1つは、短時間および長時間のスレッドの停止によって生じるスループット低下を隠せることである。というのも、あるスレッドが停止したとき(たとえ数サイクルの停止であったとしても)、サイクルごとに実行スレッドの切り替えを行うので、他のスレッドの命令が実行されるためである。
細粒度のマルチスレッドの主な欠点は、個々のスレッドの実行速度が遅くなることである。サイクルごとに実行スレッドの切り替えを行うので、停止せずに実行可能なスレッドが、他のスレッドからの命令によって遅れてしまうからである。その代償として、シングルスレッドの性能(レイテンシーで測定)が低下するため、マルチスレッドのスループットも向上しない。
この種のマルチスレッディングは初め「バレルプロセッシング」と呼ばれ、樽 (barrel) の段がパイプラインのステージと、実行スレッドを表す。「細粒度 (fine-grained) マルチスレッディング (FGMT)」、「インターリーブ型 (interleaved) マルチスレッディング」、「プリエンプティブ (pre-emptive) マルチスレッディング」、「タイムスライス (time-sliced) マルチスレッディング」などが、より現代的な用語である。
「#粗粒度マルチスレッディング」で議論されているハードウェアコストに加え、「細粒度マルチスレッディング」はさらに各パイプラインステージが処理する各命令のスレッド ID を追跡するためのコストがかかる。また、パイプライン内でより多くのスレッドが並列に実行されるため、異なるスレッド間のスラッシングを避けるためキャッシュや TLB などの共有リソースを大きくする必要がある。
例
もっともシンプルなタイプのマルチスレッディングは、一つのスレッドが、通常長い遅延のあるストールを発生させるイベントによりブロックされるまで動作しつづけるものである。こうしたストールはチップの外にあるメモリにアクセスする必要があり、データを取得して復帰するまで数百 CPU サイクルかかるキャッシュミスである可能性がある。スレッド化されたプロセッサは、ストールが解決されるのを待たず、動作の準備ができている別のスレッドに実行を切り替える。以前のスレッドにデータが到着した場合にのみ、以前のスレッドが実行可能なスレッドのリスト上に復帰する。
例:
概念的には、リアルタイムオペレーティングシステムで使用される協調マルチタスクに似ている。これは、特定のイベントを待つ必要がある場合にタスクが自主的に実行時間を引き渡す。
この種類のマルチスレッディングは「ブロック型 (block) マルチスレッディング」、「協調 (cooperative) マルチスレッディング」、「粗粒度 (coarse-grained) マルチスレッディング (CGMT)」、「垂直 (vertical) マルチスレッディング (VMT)」として知られる。
マルチスレッディングをハードウェアでサポートすることの目標は、ブロックされたスレッドと、実行可能な別のスレッドの切り替えを高速に行うことである。この目標を達成するためのハードウェアのコストは、プログラムから見えるレジスタといくつかのプロセッサ制御レジスタ(プログラムカウンタなど)を複数持つことである。あるスレッドから別のスレッドへの切り替えは、使用するレジスタセットを別のものに切り替えることを意味する。
こうしたハードウェアの追加は以下の利点がある:
アクティブなスレッド同士を効率的に切り替えるため、それぞれのアクティブなスレッドは専用のレジスタを一式持つ必要がある。たとえば、二つのスレッドを高速に切り替えるため、レジスタのハードウェアは二つ作成する必要がある。
もっとも進歩したタイプのマルチスレッディングはスーパースケーラ CPU に適用するものである。通常のスーパースケーラプロセッサは一つのスレッドから毎サイクル複数の命令を発行する。同時マルチスレッディング (SMT) ではスーパースケーラプロセッサは複数のスレッドから毎サイクル複数の命令を発行する。各シングルスレッドの命令レベルの並列性が限定されていることを認識し、この種のマルチスレッディングは、使用されていない命令発行スロットに関連した無駄を削減するため、スレッド間で利用できる並列性を活用しようとするものである。
例:
SMT をその他のマルチスレッディングの種類と区別するため、同時に一つのスレッドからの命令しか発行できない場合には経時的マルチスレッディング (temporal multi-threading) という用語が用いられる。
「#粗粒度マルチスレッディング」で議論されているハードウェアコストに加え、SMTは各パイプラインのステージが処理する命令のスレッド ID を「各命令ごとに」認識するコストがかかる。さらに多数のアクティブのためキャッシュや TLB などの共有リソースを大きくしなければならない。
研究の主な領域は、実行可能スレッドのリストの中から次に実行するものを高速に選択し、同時に実行可能およびストールしたスレッドのリストを管理するスレッドスケジューラである。スレッドスケジューラは、完全にソフトウェアでも完全にハードウェアでも、ハード/ソフトの組み合わせでも実現することができる。
それ以外の研究の領域として、キャッシュミス、スレッド間通信、DMA の完了など、どの種類のイベントがスレッドの切り替えを起こすべきか、という問題がある。
もしマルチスレッディングの方法としてすべてのソフトウェアから見える状態、権限管理レジスタ、TLB などを含めて複製するのであれば、それは各スレッドに仮想マシンを有効にすることである。これにより各スレッドが自分のオペレーティングシステムを同じプロセッサ上で実行できる。一方で、もしユーザーモードの状態のみが保存されるのであれば、ハードウェアへの要求は少なく、同じダイエリア/コストでより多くのスレッドが一度にアクティブに動作できるようになる。
This article uses material from the Wikipedia 日本語 article ハードウェアマルチスレッディング, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). コンテンツは、特に記載されていない限り、CC BY-SA 4.0のもとで利用可能です。 Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki 日本語 (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.