Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para garantizar la alta disponibilidad de los datos.

Planear con anticipación para el desastre, el cerebro detrás de HDFS tomaron la decisión de configurar el sistema para que se almacenaría tres (contar 'em - tres) copias de cada bloque de datos.

HDFS asume que cada disco y cada nodo esclavo es inherentemente poco fiables, por lo que, claramente, se debe tener cuidado en la elección de la que se almacenan las tres copias de los bloques de datos.

La figura muestra cómo los bloques de datos desde el archivo anterior son rayas en el clúster Hadoop - lo que significa que se distribuyen uniformemente entre los nodos esclavos para que una copia del bloque seguirá estando disponible, independientemente de los fallos de disco, nodo, o rack.

imagen0.jpg

El archivo se muestra cuenta con cinco bloques de datos, etiquetados a, b, c, d, y e. Si usted echa un vistazo más de cerca, se puede ver este grupo en particular se compone de dos bastidores con dos nodos de cada uno, y que los tres ejemplares de cada bloque de datos se han extendido a través de los distintos nodos esclavos.

Cada componente del clúster Hadoop es visto como un punto de falla potencial, así que cuando HDFS almacena las réplicas de los bloques originales de todo el clúster Hadoop, trata de asegurar que las réplicas de bloques se almacenan en diferentes puntos de falla.

Por ejemplo, echar un vistazo en el Bloque A. En el tiempo que necesitaba para ser almacenados, Nodo esclavo 3 fue elegido, y la primera copia del bloque A se almacena allí. Para múltiples sistemas de estantes, HDFS determina entonces que las dos copias restantes del bloque A necesitan ser almacenados en un soporte diferente. Así que la segunda copia de bloque A se almacena en el nodo esclavo 1.

La copia final se puede almacenar en el mismo bastidor que la segunda copia, pero no en el mismo nodo esclavo, por lo que se almacena en el nodo esclavo 2.


» » » » Replicar los bloques de datos en el sistema de archivos distribuido hadoop