Cómo utilizar mahout apache para análisis predictivo

Una herramienta de código abierto que es únicamente útil en el análisis predictivo es Apache Mahout. Esta biblioteca de aprendizaje de máquinas incluye versiones a gran escala de la agrupación, clasificación, filtrado colaborativo y otros algoritmos de minería de datos que pueden apoyar un modelo de análisis predictivo a gran escala.

Una manera muy recomendable para procesar los datos necesarios para este modelo es ejecutar Mahout en un sistema que ya está corriendo Hadoop. Hadoop designa una máquina maestra que orquesta las otras máquinas (como máquinas Mapa y Reducir máquinas) empleados en su procesamiento distribuido. Mahout debe instalarse en la máquina principal.

Imagina que tienes gran cantidad de datos por streaming - artículos de noticias de Google - y que le gustaría a agruparse por temas, usando uno de los algoritmos de agrupamiento. Después de instalar Hadoop y Mahout, puede ejecutar uno de los algoritmos - como el K-means - en sus datos.

La aplicación de K-means bajo Mahout utiliza un enfoque de MapReduce, que hace que sea diferente de la aplicación normal de K-means. Mahout subdivide el K-means algoritmo en estos sub-procedimientos:

  • KmeansMapper lee el conjunto de datos de entrada y se asigne a cada punto de entrada para sus medios más cercanos seleccionados inicialmente (representantes del clúster).

  • KmeansCombiner procedimiento se llevará todos los registros - pares - producidos por KmeansMapper y produce sumas parciales para facilitar el cálculo de los representantes posteriores racimo.

  • KmeansReducer recibe los valores producidos por todas las subtareas (combinadores) para calcular los centroides reales de los racimos que es la salida final del K-means.

  • KmeansDriver maneja las iteraciones del proceso hasta que todos los grupos han convergido. La salida de una iteración dada, una salida de la agrupación parcial, se utiliza como entrada para la siguiente iteración. El proceso de mapeo y la reducción de la base de datos hasta que la asignación de registros y grupos no muestran más cambios.

Apache Mahout es un recientemente desarrollado proyecto- su funcionalidad todavía tiene mucho espacio para dar cabida a las extensiones. Mientras tanto, Mahout ya utiliza MapReduce para implementar la clasificación, agrupación, y otras técnicas de aprendizaje automático - y puede hacerlo a gran escala.


» » » » Cómo utilizar mahout apache para análisis predictivo