La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación distribuida.

El sistema de archivos distribuido Hadoop (HDFS) fue desarrollado para permitir a las empresas a gestionar más fácilmente grandes volúmenes de datos de una manera simple y pragmática. Hadoop permite grandes problemas que se descomponen en elementos más pequeños por lo que el análisis se puede realizar de forma rápida y rentable. HDFS es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande.

HDFS no es el destino final de los archivos. Más bien es un "servicio" de datos que ofrece un conjunto único de capacidades necesarias cuando los volúmenes y la velocidad de datos son altas.

MapReduce es un marco de software que permite a los desarrolladores escribir programas que pueden procesar grandes cantidades de datos no estructurados en paralelo a través de un grupo distribuido de procesadores. MapReduce fue diseñada por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en el modo por lotes.

El "mapa" componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas de una manera que equilibra la carga y gestiona la recuperación de fallos. Después de que se complete la computación distribuida, otra función llamada "reducir" agrega todos los elementos de nuevo juntos para proporcionar un resultado. Un ejemplo de uso de MapReduce sería determinar el número de páginas de un libro están escritos en cada uno de los 50 idiomas diferentes.


» » » » La gestión de grandes datos con Hadoop HDFS y MapReduce: