Los fundamentos de la gran integración de datos

Los elementos fundamentales de la plataforma de datos grande gestionar los datos de nuevas maneras, en comparación con la base de datos relacional tradicional. Esto es debido a la necesidad de contar con la escalabilidad y alto rendimiento necesario para gestionar los datos estructurados y no estructurados.

Componentes del gran ecosistema de datos que van desde Hadoop para NoSQL DB, MongoDB, Cassandra, y HBase todos tienen su propio enfoque para la extracción y carga de datos. Como resultado, los equipos pueden tener que desarrollar nuevas habilidades para gestionar el proceso de integración a través de estas plataformas. Sin embargo, muchos de gestión de datos de las mejores prácticas de su empresa se convertirá en aún más importante a medida que se mueve en el mundo de los grandes datos.

Si bien los datos grande introduce un nuevo nivel de complejidad de la integración, se siguen aplicando los principios fundamentales básicos. Su objetivo de negocio debe centrarse en la entrega de la calidad y de datos fiables para la organización en el momento adecuado y en el contexto adecuado.

Para garantizar esta confianza, es necesario establecer normas comunes para la calidad de los datos con un énfasis en la exactitud e integridad de los datos. Además, se necesita un enfoque integral para el desarrollo de los metadatos de la empresa, hacer el seguimiento de linaje de datos y la gobernanza para apoyar la integración de los datos.


Al mismo tiempo, las herramientas tradicionales para la integración de datos están evolucionando para manejar la creciente variedad de datos no estructurados y el creciente volumen y la velocidad de datos grandes. Mientras que las formas tradicionales de integración adquieren nuevos significados en un mundo de datos grande, sus tecnologías de integración necesitan una plataforma común que soporta calidad de los datos y elaboración de perfiles.

Para tomar decisiones de negocio de sonido basado en el análisis de datos grande, esta información debe ser confiable y comprendido en todos los niveles de la organización. A pesar de que probablemente no se le costó u hora efectiva sea demasiado preocupado con la calidad de los datos en la fase exploratoria de un análisis de datos grande, con el tiempo la calidad y la confianza deben desempeñar un papel si los resultados se han de incorporar en el proceso de negocio.

La información debe ser entregado a la empresa de una manera grande, controlado, consistente y flexible en toda la empresa, independientemente de los requisitos específicos de los sistemas individuales o aplicaciones. Para lograr este objetivo, se aplican tres principios básicos:

  • Debe crear un entendimiento común de definiciones de datos. En las etapas iniciales de su análisis de datos grande, no es probable que tengan el mismo nivel de control sobre las definiciones de datos como lo hace con sus datos operacionales. Sin embargo, una vez que haya identificado los patrones que son más relevantes para su negocio, usted necesita la capacidad para asignar elementos de datos a una definición común.

  • Usted debe desarrollar un conjunto de servicios de datos para calificar los datos y que sea coherente y, finalmente, digno de confianza. Cuando las fuentes de datos no estructurados y grandes se integran con los datos operativos estructurados, usted necesita estar seguro de que los resultados sean significativos.


  • Usted necesita una manera ágil para integrar sus fuentes y sistemas de registro de datos grandes. Con el fin de tomar buenas decisiones basadas en los resultados de su análisis de datos grande, que necesita para ofrecer la información en el momento adecuado y con el contexto adecuado. Su proceso de integración de datos grande debe garantizar la coherencia y fiabilidad.

Para integrar los datos a través de entornos de aplicaciones mixtas, obtener datos de un entorno de datos (origen) a otro entorno de datos (objetivo). Extracción, transformación y tecnologías (ETL) de carga se han utilizado para lograr esto en entornos de almacenamiento de datos tradicionales. El papel de ETL está evolucionando para manejar entornos nuevos de gestión de datos como Hadoop.

En un entorno de datos grande, es posible que necesite combinar herramientas que apoyan los procesos de integración de lotes (utilizando ETL) con la integración en tiempo real y la federación a través de múltiples fuentes. Por ejemplo, una empresa farmacéutica puede tener que mezclar los datos almacenados en su sistema de gestión de datos maestros (MDM) con fuentes de datos grandes en los resultados médicos de consumo de drogas de los clientes.

Las empresas utilizan MDM para facilitar la recogida, agregación, la consolidación, y la entrega de datos coherentes y fiables de una manera controlada en toda la empresa. Además, las nuevas herramientas como Sqoop y Scribe se utilizan para apoyar la integración de entornos de datos grandes. Usted también encontrará un énfasis creciente en el uso de extraer, cargar y transformar tecnologías (ELT). Estas tecnologías se describen a continuación.


» » » » Los fundamentos de la gran integración de datos