Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de esta área clave. Sin la NameNode, no hay grupo de Hadoop.

El uso de Hadoop 2, puede configurar HDFS por lo que hay una NameNode activa y un NameNode espera. La espera NameNode necesita estar en un nodo maestro dedicado que está configurado de forma idéntica al nodo principal utilizado por el NameNode Activo.

imagen0.jpg

La espera NameNode no está sentado de brazos cruzados mientras el NameNode maneja todas las solicitudes de direcciones bloque. La espera NameNode, encargado de la tarea de mantener el estado de la ubicaciones de bloque y bloque de metadatos en la memoria, se encarga de las responsabilidades checkpointing HDFS.

El Activo NameNode escribe entradas de diario en los cambios de archivos a la mayoría de los servicios JournalNode, que se ejecutan en los nodos principales. (Nota: La solución HDFS alta disponibilidad requiere al menos tres nodos maestros, y si hay más, sólo puede haber un número impar.)

Si se produce un fallo, el nodo en espera primero lee todas las entradas de diario completados (donde la mayoría de revistas nodos tienen una entrada, en otras palabras), para asegurar que el nuevo NameNode activa es plenamente coherente con el estado del clúster.

Zookeeper se utiliza para controlar la NameNode Activo y manejar la logística de conmutación por error si el NameNode activo deja de estar disponible. Controladores Tanto los NameNodes activos y en espera han dedicado Zookeeper de conmutación por error (ZFC) que llevan a cabo las tareas de vigilancia y de conmutación por error. En el caso de un fallo, la ZFC informa los casos Zookeeper en el clúster, que luego eligen un nuevo NameNode Activo.

Apache Zookeeper ofrece servicios de coordinación y de configuración para sistemas distribuidos, por lo que no es de extrañar la vemos usada por todo el lugar en Hadoop.


» » » » Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad