Verteilte Hashtabelle

Eine verteilte Hashtabelle (englisch distributed hash table, DHT) ist eine Datenstruktur, die zum Beispiel dazu genutzt werden kann, den Speicherort einer Datei in einem P2P-System zu speichern.

Dabei steht die Dezentralisierung und die Effizienz der Datenspeicherung im Vordergrund.

Die Daten werden möglichst gleichmäßig über die vorhandenen Speicherknoten verteilt. Jeder Speicherknoten entspricht dabei einem Eintrag in der Hashtabelle. Die selbstorganisierende Datenstruktur kann den Ausfall, Beitritt und Austritt von Knoten abbilden. Die Grundlage für verteilte Hashtabellen bilden konsistente Hash-Funktionen.

Man unterscheidet DHTs nach dem Speicherschema. Die Daten können direkt innerhalb der DHT abgelegt werden (direct storage) oder in der DHT kann ein Verweis auf die Daten vorgehalten werden (indirect storage). Direct Storage bietet sich nur für kleine Daten (< 1 kB) an, da sonst das System zu unflexibel werden würde.

Eigenschaften

Eigenschaften von DHTs sind:

  • Fehlertoleranz: Das System sollte zuverlässig funktionieren, auch wenn Knoten ausfallen oder das System verlassen.
  • Lastenverteilung: Schlüssel werden gleichmäßig auf alle Knoten verteilt.
  • Robustheit: Das System sollte „korrekt“ funktionieren können, auch wenn ein Teil (möglicherweise ein Großteil) der Knoten versucht, das System zu stören.
  • Selbstorganisation: Es ist keine manuelle Konfiguration nötig.
  • Skalierbarkeit: Das System sollte in der Lage sein, auch mit einer großen Anzahl von Knoten funktionsfähig zu bleiben.

Prinzipielle Arbeitsweise

Mittels einer Hashfunktion werden den Datenobjekten Schlüssel in einem linearen Wertebereich vergeben, welcher möglichst gleichmäßig über die Knoten der Knotenmenge verteilt wird. Für jeden Teilbereich des Schlüsselraumes ist dabei mindestens ein Knoten zuständig. Oft sind jedoch auch mehrere Knoten für denselben Bereich verantwortlich, wobei sich die Zuständigkeiten dynamisch ändern. Ein Beitrittsprotokoll regelt die Aufnahme neuer Knoten in das existierende System. Das Protokoll stellt dann die Verbindungen zu den Nachbarknoten her und regelt üblicherweise auch die Konstruktion von Routingtabellen.

Die Routingtabellen werden von den DHT-Knoten zur Ermittlung anderer Knoten benutzt, die für bestimmte Datensätze zuständig sind. Die Definition der „Entfernung“ ist dabei mit der Struktur und der Topologie verbunden und variiert in unterschiedlichen Systemen. Sie muss nicht zwingend mit der physischen Organisation der Knoten übereinstimmen. Eine verteilte Hashtabelle, die ihre Knoten in einem euklidischen Raum platziert, könnte den Knoten mit dem geringsten euklidischen Abstand zu einem Schlüssel wählen. Die Routingtabellen sollen es jedem Knoten erlauben, den nächsten Knoten zu einem Schlüssel in O(log n) Suchschritten zu erreichen.

Durch eine generische Schnittstelle, die nur zwei Funktionen publish(Schlüssel, Inhalt) und lookup(Schlüssel) anbietet, lassen sich die implementierten Algorithmen auswechseln.

Partitionierung des Schlüsselraums

Bei den meisten DHTs geschieht die Abbildung von Schlüsseln auf Knoten mittels einer Variante von konsistentem Hashing oder Rendezvouz-Hashing. Diese beiden Varianten wurden wohl gleichzeitig, aber unabhängig entwickelt, um das DHT-Problem zu lösen.

Sowohl konsistentes Hashing als auch Rendezvouz-Hashing haben die grundlegende Eigenschaft, dass sich bei Beitritt oder Austritt eines Knotens nur die Schlüssel der benachbarten Knoten ändern und alle anderen Knoten nicht beeinträchtigt werden. In konventionellen Hashtabellen hingegen wird bei hinzufügen oder entfernen eines Buckets fast der vollständige Schlüsselbereich neu verteilt. Wenn sich die Zuständigkeit von Datenobjekten ändert, ist eine Daten-Umverteilung notwendig. Diese belastet das Netzwerk und die Datenbandbreite. Deshalb werden DHTs so gestaltet, dass sie auch häufige Ein- und Austritte von Knoten effizient unterstützen können.

Konsistentes Hashing

Beim konsistenten Hashing wird eine Distanzfunktion Verteilte Hashtabelle  verwendet. Diese gibt die Distanz zwischen zwei Schlüsseln Verteilte Hashtabelle  und Verteilte Hashtabelle  an. Die Distanz ist dabei unabhängig von der geographischen Distanz oder der Latenz im Netzwerk. Außerdem erhält jeder Knoten Verteilte Hashtabelle  des Netzwerks einen Schlüssel, welchen wir seinen Identifikator Verteilte Hashtabelle  (ID von Knoten Verteilte Hashtabelle ) nennen. Jeder Knoten ist dann für die Speicherung derer Elemente zuständig, deren Distanz zu seiner ID am geringsten ist: Verteilte Hashtabelle .

Beispielsweise setzt Chord konsistentes Hashing ein, wobei die Knoten als Punkte auf einem Kreis und Verteilte Hashtabelle  als der Kreisbogen von  Verteilte Hashtabelle  nach Verteilte Hashtabelle  im Uhrzeigersinn aufgefasst werden. Der kreisförmige Schlüsselraum besteht also aus zusammenhängenden Segmenten, deren Endpunkte die Knoten-IDs sind. Wenn also zum Beispiel Verteilte Hashtabelle  und Verteilte Hashtabelle  zwei im Kreis aufeinander folgende Knoten-IDs sind, dann ist der Knoten Verteilte Hashtabelle  für alle Schlüssel zwischen Verteilte Hashtabelle  und Verteilte Hashtabelle  zuständig.

Rendezvous-Hashing

Beim Rendezvouz-Hashing benutzen alle Clients, welche einen Schlüssel auf einen der Verteilte Hashtabelle  Knoten abbilden wollen, die gleiche, zu Beginn gewählte Hashfunktion Verteilte Hashtabelle . Außerdem haben alle Clients die gleiche Liste von IDs Verteilte Hashtabelle , eine für jeden Knoten. Um den richtigen Knoten für einen Schlüssel Verteilte Hashtabelle  zu bestimmen, werden zunächst Verteilte Hashtabelle  Hash-Gewichte Verteilte Hashtabelle  berechnet. Der Schlüssel wird dann mit dem dem Maximum dieser Werte entsprechenden Knoten assoziiert. Ein Knoten mit ID Verteilte Hashtabelle  ist also für alle Schlüssel Verteilte Hashtabelle  zuständig, deren Hash-Gewicht Verteilte Hashtabelle  höher als die Hash-Gewichte aller anderen Knoten für den Schlüssel ist.

Lokalitätserhaltendes Hashing

Lokalitätserhaltendes Hashing stellt sicher, dass ähnliche Schlüssel auch ähnlichen Knoten zugeteilt werden. Dadurch können effizientere Range Queries ermöglicht werden. Dabei kann es allerdings vorkommen, dass die Verteilung des Schlüsselraums auf die Knoten und damit deren Auslastung nicht mehr uniform zufällig ist. Das Framework Self-Chord zum Beispiel macht Objektschlüssel von Knoten-IDs unabhängig und sortiert Schlüssel entlang eines Ringspeichers mit Hilfe eines statistischen Ansatzes, der auf dem Schwarmintelligenz-Paradigma beruht. Das Sortieren stellt sicher, dass benachbarte Knoten für ähnliche Schlüssel zuständig sind und Abfragen wie z. B. Range Queries so in logarithmischer Zeit ausgeführt werden können.

Overlay-Netz

Das Overlay-Netz verbindet die Knoten, sodass diese den jeweiligen zuständigen Knoten für Schlüssel finden können. Dabei hält jeder Knoten in einer Routingtabelle Verbindungen zu anderen Knoten (seinen Nachbarn). Ein Knoten wählt seine Nachbarn entsprechend der Netzwerktopologie (Struktur des Netzwerks).

Alle DHT-Topologien verbindet eine grundlegende Eigenschaft: für jeden Schlüssel Verteilte Hashtabelle  weiß jeder Knoten entweder die ID des Knotens, der für Verteilte Hashtabelle  zuständig ist, oder er hat einen Link zu einem Knoten, dessen ID näher an Verteilte Hashtabelle  ist, definiert durch ein Distanzmaß in Abschnitt Partitionierung des Schlüsselraums. Eine Nachricht kann dann einfach an den zuständigen Knoten von Verteilte Hashtabelle  geroutet werden: Bei jedem Schritt wird die Nachricht an denjenigen Knoten weitergeleitet, dessen ID Verteilte Hashtabelle  am nächsten ist, bis der zuständige Knoten erreicht wird. Dieser Algorithmus ist im Allgemeinen nicht global optimal. Manchmal wird dieses Verfahren Schlüssel-basiertes Routing genannt.

Das Overlay-Netz hat zwei Parameter, welche einen großen Einfluss auf seine Leistung haben. Die maximale Routenlänge sollte klein sein, damit Pakete schnell ankommen, und der maximale Knotengrad sollte klein sein, damit der Overhead pro besuchtem Knoten klein ist. Dabei stehen die beiden Parameter in einem Tradeoff-Verhältnis. Einige typische Verhältnisse sind in der folgenden Tabelle beschrieben.

Max. Knotengrad Max. Routenlänge Benutzt in Bemerkung
Verteilte Hashtabelle  Verteilte Hashtabelle  Schlechtestmögliche Routenlänge, Anfragen werden sehr langsam
Verteilte Hashtabelle  Verteilte Hashtabelle  Chord
Kademlia
Pastry
Tapestry
Am verbreitetsten aber nicht optimal (Nachbargrad/Routenlänge-Verhältnis). Chord ist die einfachste Version, Kademlia scheint die beliebteste optimierte Variante zu sein (sollte verbesserte durschn. Zeit für Anfragen haben)
Verteilte Hashtabelle  Verteilte Hashtabelle  Koorde

Wohl komplexere Implementierung aber Anfragen können schneller sein (niedrigere Worst-Case-Schranke)

Verteilte Hashtabelle  Verteilte Hashtabelle 

Höchste lokale Speicherplatzanforderungen, hohe Kommunikationslast nach Beitritt und Austritt eines Knotens

Verteilte Hashtabelle  als maximaler Nachbargrad und maximale Routenlänge ist die am weitesten verbreitete Parametrisierung. Obwohl der Nachbargrad/Routenlänge-Tradeoff bei ihr nicht optimal ist, ermöglicht sie oft eine höhere Flexibilität bei der Wahl der Nachbarn. Viele DHTs nutzen diese Flexibilität, um Nachbarn mit möglichst geringer Latenz im darunterliegenden physikalischen Netzwerk auszuwählen. Im Allgemeinen erstellen DHTs navigierbare kleine-Welt-Netzwerk-Topologien mit dem Tradeoff zwischen Routenlänge und Netzwerkgrad.

Die maximale Routenlänge ist eng verwandt mit dem Durchmesser (des Netzwerks): der maximalen Anzahl Hops in einem beliebigen kürzesten Pfad zwischen zwei Knoten. Die Worst-Case-Routenlänge des Netzwerks ist offensichtlich mindestens so groß wie der Durchmesser, folglich haben DHTs die in der Graphentheorie fundamentale Limitierung des Knotengrad/Durchmesser-Tradeoffs. Die Routenlänge kann auch größer als der Durchmesser sein, da der greedy Routingalgorithmus kürzeste Pfade eventuell nicht findet.

Algorithmen für Overlay-Netze

Neben Routing gibt es viele Algorithmen, welche die Struktur von Overlay-Netzen in DHTs ausnutzen, um Nachrichten an alle Knoten oder eine Teilmenge zu senden. Diese Algorithmen werden von Anwendungen für Overlay-Multicasts, Range Queries oder zum Sammeln von Statistiken eingesetzt. Zwei auf diesem Ansatz basierende Systeme sind Structella, das Flooding und Random Walks auf einem Pastry-Overlay implementiert, sowie DQ-DHT, das einen dynamischen Query-Suchalgorithmus über einem Chord-Netzwerk implementiert.

Implementierungen

Auf vielen Rechnern ist das Senden von Nachrichten deutlich teurer als lokale Hashtabellen-Zugriffe. Deshalb ist eine Bündelung vieler Nachrichten in einen Batch sinnvoll. Die Nachrichten werden unter der Annahme, dass jeder Knoten einen lokalen Batch von maximal Verteilte Hashtabelle  Nachrichten hat, wie folgt gebündelt. Jeder Knoten sortiert seinen lokalen Batch zunächst nach der ID des für die Nachricht zuständigen Knotens. Dies ist in Verteilte Hashtabelle  Zeit mit Bucketsort möglich, wobei Verteilte Hashtabelle  die Knotenanzahl in der DHT ist. Falls es in einem Batch mehrere Operationen für denselben Key gibt, wird der Batch noch vor dem Senden reduziert. Zum Beispiel können mehrere Anfragen für denselben Key zu einer reduziert werden oder mehrere inkrement-Operationen zu einer add-Operation. Dies kann mit einer lokalen Hashtable realisiert werden. Schließlich werden die Operationen an die jeweiligen Knoten geschickt.

Derzeit existieren unter anderem folgende Implementierungen verteilter Hashtabellen:

  • IPFS
  • Kademlia – Strukturen basierend auf diesem Algorithmus existieren in mehreren P2P-Netzwerken, sind allerdings meist nicht untereinander kompatibel. Implementierungen:
    • KAD – Entwicklung des eMule-Entwicklungsteams, basierend auf dem Kademlia-Algorithmus, um die mit der Zeit ausfallenden Server des eDonkey2000-Netzwerks zu ersetzen.
    • Mojito – Entwicklung des LimeWire-Entwicklungsteams zur schnellen Quellenermittlung innerhalb des Gnutella-Netzwerks.

Anwendungen

DHTs zur Datenspeicherung

Software

DHT-Forschung

Einzelnachweise

Tags:

Verteilte Hashtabelle EigenschaftenVerteilte Hashtabelle Prinzipielle ArbeitsweiseVerteilte Hashtabelle Partitionierung des SchlüsselraumsVerteilte Hashtabelle Overlay-NetzVerteilte Hashtabelle ImplementierungenVerteilte Hashtabelle AnwendungenVerteilte Hashtabelle EinzelnachweiseVerteilte HashtabelleDatenstrukturDezentrales NetzwerkEnglische SprachePeer-to-Peer

🔥 Trending searches on Wiki Deutsch:

Ilich Ramírez SánchezAnnie MooreKai HavertzBoris PistoriusRobert OppenheimerS.A.S. Red NoticeUrsula StraussHeinrich VIII. (England)Toleranztabellen nach ISO 2768Saudi-ArabienAnne FrankHelmut SchmidtMercedes-Benz E-KlasseMustafa Kemal AtatürkDienstgrade der BundeswehrBundeswehrEspresso MartiniBerlinDonald TrumpNelson MandelaRenate BlumeJenny ElversDer talentierte Mr. Ripley (Film)Wladimir Wladimirowitsch PutinStormy DanielsDeclan RiceBärlauchNosferatu-SpinneMercedes-Benz Baureihe 205StellantisCaspar David FriedrichGeorg BüchnerSerenity – Flucht in neue WeltenFallout 4BDSMNigeriaVaginalverkehrJoe BidenSofie CramerMarcel HirscherFußball-EuropameisterschaftListe der italienischen FußballmeisterBones – Die KnochenjägerinBarbra StreisandAlexander der GroßeWolfgang NiedeckenAngelina Jolie24. AprilPfingstenXavier NaidooMercedes-Benz G-KlasseMarwa EldessoukyMönchsgrasmückeEva MendesEva-Maria Lemke (Journalistin)Back to Black (Film)AnalverkehrMálagaHolger WaldenbergerAnna StolzNorovirusBMW 3erMaibaumMarie-Antoinette von Österreich-LothringenGoogle ÜbersetzerZendayaShōgun (2024)Olympische Sommerspiele 2024Battleship (Film)Die Rosenheim-CopsKlaus Bräunig (Doppelmörder)Quentin TarantinoFirefly – Der Aufbruch der SerenitySyrienItalienSkitour-Unglück im Wallis (2018)Paris🡆 More