Big data y los orígenes de MapReduce

MapReduce es cada vez más útil para grandes datos. En la década de 2000, algunos ingenieros de Google miraron hacia el futuro y determinaron que mientras sus soluciones actuales para aplicaciones tales como rastreo web, frecuencia de consulta, y así sucesivamente eran adecuadas para la mayoría de los requisitos existentes, que eran inadecuados para la complejidad que anticiparon que el Web a escala en más y más usuarios.

Estos ingenieros determinaron que si el trabajo podría ser distribuido a través de las computadoras de bajo costo y luego se conecta en la red en forma de un " clúster, " podrían resolver el problema. Distribución por sí sola no era una respuesta suficiente. Esta distribución del trabajo debe ser realizado de forma paralela por las tres razones siguientes:

  • El tratamiento debe ser capaz de expandirse y contraerse de forma automática.

  • El tratamiento debe ser capaz de continuar sin tener en cuenta los fallos en la red o los sistemas individuales.

  • Desarrolladores aprovechando este enfoque debe ser capaz de crear servicios que son fáciles de aprovechar por otros desarrolladores. Por lo tanto, este enfoque debe ser independiente de que los datos y los cálculos se han ejecutado.

MapReduce fue diseñado como un modelo de programación genérica. Algunas de las implementaciones iniciales previstos todos los requisitos clave de la ejecución en paralelo, la tolerancia a fallos, equilibrio de carga y manipulación de datos. Los ingenieros a cargo del proyecto nombrado el MapReduce iniciativa, ya que combina dos capacidades de los lenguajes de programación funcionales existentes: mapa y reducir.

Los ingenieros de Google diseñados MapReduce para resolver un problema práctico específico. Por lo tanto, se diseñó como un modelo de programación combinado con la aplicación de dicho modelo - en esencia, una implementación de referencia.

La implementación de referencia se utilizó para demostrar la viabilidad y la eficacia del concepto y para ayudar a asegurar que este modelo sería ampliamente adoptada por la industria de la computación. Con los años, otras implementaciones de MapReduce se han creado y están disponibles como tanto de código abierto y los productos comerciales.


» » » » Big data y los orígenes de MapReduce