Actualizaciones de puntos de control en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) es un sistema de archivos de diario, donde se capturan los nuevos cambios en los archivos en HDFS en un registro de edición que se almacena en el NameNode en un archivo llamado. Periódicamente, cuando el archivo alcanza un cierto umbral o después de que haya transcurrido un cierto período, las entradas por diario tienen que estar comprometidos con el archivo maestro.

El NameNode sí no lo hace, porque está diseñado para responder a las solicitudes de aplicación lo más rápidamente posible. Más importante aún, un considerable riesgo está involucrado en tener esta operación de actualización de metadatos administrados por un único servidor maestro.

Si los metadatos que describen las asignaciones entre los bloques de datos y sus correspondientes archivos se corrompe, los datos originales es tan buena como perdido.

Servicios de puntos de control para un clúster Hadoop están a cargo de uno de los cuatro demonios posibles, que deben ejecutarse en su propio nodo maestro dedicado junto nodo principal del demonio NameNode:

  • NameNode secundario: Antes de Hadoop 2, este fue el único demonio de puntos de control, realizar el proceso de puntos de control se describe en esta sección. El NameNode secundaria tiene un nombre notoriamente inexactos debido a que es de ninguna manera " secundaria " o una " de espera " para la NameNode.

  • Nodo Punto de control: El Checkpoint Nodo es el reemplazo para el NameNode Secundaria. Realiza los puntos de control y nada más.

  • Nodo de copia de seguridad: Proporciona servicio de puntos de control, sino que también mantiene una copia de seguridad del archivo y ediciones.


  • Standby NameNode: Realiza servicio de puntos de control y, a diferencia de la antigua NameNode Secundaria, la espera NameNode es un verdadero servidor de reserva, lo que permite un intercambio en caliente del proceso NameNode para evitar cualquier tiempo de inactividad.

El proceso de puntos de control

Los siguientes pasos describen el proceso de puntos de control, ya que está a cargo de la NameNode y el servicio de puntos de control (tenga en cuenta que cuatro demonios posibles se pueden utilizar para los puntos de control):

  1. Cuando sea el momento de realizar el punto de control, el NameNode crea un nuevo archivo para aceptar los cambios en el sistema de archivos de diario.

    Nombra el nuevo archivo.

  2. Como resultado, el archivo no acepta más cambios y se copia en el servicio de los puntos de control, junto con el archivo.

  3. El servicio de los puntos de control se fusiona estos dos archivos, crear un archivo llamado.

  4. Los puntos de control de servicios de copia el archivo a la NameNode.


  5. El NameNode sobrescribe el archivo con.

  6. El NameNode cambia el nombre del archivo.

    imagen0.jpg

Consideraciones de nodo de copia de seguridad

Además de proporcionar la funcionalidad de los puntos de control, el Nodo de copia de seguridad mantiene el estado actual de todos los metadatos bloque HDFS en la memoria, al igual que el NameNode. En este sentido, se mantiene una copia de seguridad en tiempo real del estado del NameNode.

Como resultado de mantener los metadatos de bloque en la memoria, el Nodo de copia de seguridad es mucho más eficiente que el Nodo Checkpoint en la realización de la tarea puntos de control, debido a que el y los archivos no tienen que ser transferidos y luego fusionado. Estos cambios ya se fusionan en la memoria.

Otra ventaja de utilizar el nodo de respaldo es que el NameNode se puede configurar para delegar el Nodo de copia de seguridad de manera que persiste datos de diario en el disco.

Si usted está utilizando el nodo de copia de seguridad, no se puede ejecutar el nodo de Checkpoint. No hay necesidad de hacerlo, porque el proceso de puntos de control ya está siendo atendido.

Consideraciones NameNode Standby

El NameNode espera es el servidor de reserva caliente designado maestro para el NameNode. Mientras se desempeñaba como espera, sino que también lleva a cabo el proceso de puntos de control. Como tal, no se puede ejecutar el nodo de copia de seguridad o de espera Nodo.

NameNode Secundaria, Checkpoint Node, Nodo de copia de seguridad, y espera NameNode Maestro diseño de servidor

El servidor principal que ejecuta el NameNode Secundaria, Checkpoint Node, Nodo de copia de seguridad, o en espera NameNode demonios tienen los mismos requisitos de hardware como las desplegadas para el servidor maestro NameNode. La razón es que estos servidores también se cargan en la memoria todos los datos de metadatos y la ubicación de todos los bloques de datos almacenados en HDFS.


» » » » Actualizaciones de puntos de control en el sistema de archivos distribuido hadoop