El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no todos) de estos proyectos están alojados por la Apache Software Foundation. La tabla muestra algunos de estos proyectos.

Hadoop Proyectos relacionados
Nombre del proyectoDescripción
AmbariUn conjunto integrado de herramientas de administración de Hadoop forinstalling, el seguimiento y el mantenimiento de un cluster Hadoop. Alsoincluded son herramientas para agregar o quitar nodos esclavos.
AvroUn marco para la serialización eficiente (una oftransformation especie) de datos en un formato binario compacto
FlumeUn servicio de flujo de datos para el movimiento de grandes volúmenes de logdata en Hadoop
HBaseUna base de datos columnar distribuida que utiliza HDFS para itsunderlying almacenamiento. Con HBase, puede almacenar datos en tablas extremelylarge con estructuras de columnas variables.
HCatalogUn servicio para proporcionar una vista relacional de los datos almacenados inHadoop, incluyendo un enfoque estándar para datos tabulares
ColmenaUn almacén de datos distribuida para los datos que se almacenan en HDFS-también proporciona un lenguaje de consulta que se basa en SQL (HiveQL)
MatizUna interfaz de administración Hadoop con herramientas visuales prácticos forbrowsing archivos, emitir consultas Colmena y cerdo, y el desarrollo de Oozieworkflows
MahoutUna biblioteca de aprendizaje automático algoritmos estadísticos que wereimplemented en MapReduce y se pueden ejecutar de forma nativa en Hadoop
OozieUna herramienta de gestión de flujo de trabajo que puede manejar la programación andchaining conjunto de aplicaciones de Hadoop
CerdoUna plataforma para el análisis de grandes conjuntos de datos que Runson HDFS y con una capa de infraestructura que consiste en una compilerthat produce secuencias de programas MapReduce y un layerconsisting idioma del lenguaje de consulta llamado Pig Latin
SqoopUna herramienta para mover eficientemente grandes cantidades de datos y las bases de datos betweenrelational HDFS
ZooKeeperUna interfaz sencilla para la coordinación centralizada de servicios (tales como nombres, configuración y sincronización) utiliza aplicaciones bydistributed

El ecosistema Hadoop y sus distribuciones comerciales siguen evolucionando, con tecnologías y herramientas nuevas o mejoradas emergentes todo el tiempo.


La figura muestra los diferentes proyectos del ecosistema Hadoop y cómo se relacionan con un otro:

imagen0.jpg

» » » » El ecosistema Hadoop de Apache