Consistent Hashing

Consistent hashing é um conceito fundamental em sistemas distribuídos para distribuir dados de forma uniforme entre múltiplos servidores enquanto minimiza a necessidade de reorganização dos dados quando os servidores são adicionados ou removidos da rede. Esse método é amplamente utilizado em caches distribuídos, bancos de dados distribuídos, sistemas de armazenamento de arquivos e balanceamento de carga, entre outros.

Princípios Básicos do Consistent Hashing:

Círculo de Hash: O espaço de hash é imaginado como um círculo (ou anel), com cada servidor e cada chave de dados mapeados para um ponto no círculo usando uma função de hash.
Mapeamento de Chaves: Cada dado (como uma chave de cache ou uma chave de banco de dados) é mapeado para um ponto no círculo de hash usando a mesma função de hash. Isso determina qual servidor será responsável por armazenar ou processar essa chave.
Redistribuição Balanceada: Quando um servidor é adicionado ou removido do sistema, apenas uma fração mínima das chaves precisa ser remapeada para novos servidores. Isso é alcançado através da utilização de um algoritmo de hash que minimiza as mudanças necessárias.

Benefícios do Consistent Hashing:

Balanceamento de Carga: Distribui uniformemente as chaves de dados entre os servidores, evitando sobrecarga em servidores individuais.
Escalabilidade: Permite adicionar ou remover servidores sem a necessidade de redistribuir todas as chaves, o que simplifica o gerenciamento e a escalabilidade do sistema.
Tolerância a Falhas: Se um servidor falha, apenas as chaves mapeadas para esse servidor precisam ser remapeadas para outros servidores, minimizando o impacto da falha.

Exemplo Simplificado de Consistent Hashing:

Vamos criar um exemplo simples de como o Consistent Hashing pode ser implementado em Python:

import hashlib

class ConsistentHashing:
    def __init__(self, nodes):
        self.nodes = nodes
        self.circle = {}
        self._build_circle()

    def _hash(self, key):
        return int(hashlib.md5(key.encode()).hexdigest(), 16)

    def _build_circle(self):
        for node in self.nodes:
            node_hash = self._hash(node)
            self.circle[node_hash] = node

    def get_node(self, key):
        key_hash = self._hash(key)
        sorted_keys = sorted(self.circle.keys())
        for hash_val in sorted_keys:
            if key_hash <= hash_val:
                return self.circle[hash_val]
        return self.circle[sorted_keys[0]]

# Exemplo de uso
nodes = ['Server1', 'Server2', 'Server3']
consistent_hashing = ConsistentHashing(nodes)

# Mapeamento de chaves para servidores
keys = ['Key1', 'Key2', 'Key3', 'Key4']
for key in keys:
    server = consistent_hashing.get_node(key)
    print(f"Chave '{key}' mapeada para o servidor '{server}'")

Explicação do Código:

Inicialização: A classe ConsistentHashing é inicializada com uma lista de nós (servidores) disponíveis.
Função de Hash: A função _hash usa MD5 para gerar um número hash de 128 bits a partir da chave fornecida.
Construção do Círculo: O método _build_circle cria um círculo de hash onde cada nó é mapeado para um ponto no círculo usando o hash da sua identificação (como nome do servidor).
Obtenção do Nó: O método get_node recebe uma chave de dados, calcula seu hash e encontra o servidor correspondente usando o círculo de hash. Ele percorre os nós no círculo de hash até encontrar o primeiro nó cujo hash é maior ou igual ao hash da chave.
Exemplo de Uso: Cada chave (Key1, Key2, Key3, Key4) é mapeada para um servidor específico (Server1, Server2, Server3) com base no seu hash.

Conclusão

Consistent hashing é uma técnica eficiente e escalável para distribuir dados entre múltiplos servidores em sistemas distribuídos. Ele proporciona um balanceamento de carga eficiente, facilita a escalabilidade e é crucial para manter a disponibilidade e a performance em grandes sistemas distribuídos.

Daniel Gehlen - Tech Blog

Pesquisar neste blogue