Asuntos de desempeño en la gestión de arquitectura de datos grande

Su gran arquitectura de datos también tiene que actuar en concierto con infraestructura de apoyo de su organización. Por ejemplo, usted podría estar interesado en el funcionamiento de los modelos para determinar si es seguro para perforar en busca de petróleo en un área marina dada en tiempo real los datos de temperatura, salinidad, la resuspensión de sedimentos, y una serie de otros biológicos, químicos y las propiedades físicas de la columna de agua.

Podría tomar días para ejecutar este modelo utilizando una configuración de servidor tradicional. Sin embargo, utilizando un modelo de computación distribuida, lo que tuvo días ahora podría tener minutos.

El rendimiento también puede determinar el tipo de base de datos que utilizaría. Por ejemplo, en algunas situaciones, es posible que desee entender cómo se relacionan dos elementos de datos muy distintos. ¿Cuál es la relación entre el zumbido de una red social y el crecimiento en las ventas? Esta no es la consulta típica que se puede pedir de una base de datos estructurada, relacional.

Una base de datos de gráficos puede ser una mejor elección, ya que está específicamente diseñado para separar el " nodos " o entidades de su " # 148 propiedades; o la información que define dicha entidad, y la " borde " o la relación entre los nodos y las propiedades. Utilizando la base de datos a la derecha también mejorará el rendimiento. Típicamente, la base de datos de gráfico que se utilizará en aplicaciones científicas y técnicas.

Otros importantes enfoques de bases de datos operacionales incluyen las bases de datos de columnas que almacenan información de manera eficiente en columnas en lugar de filas. Este enfoque conduce a un rendimiento más rápido, porque de entrada / salida es extremadamente rápido. Cuando el almacenamiento de datos geográficos es parte de la ecuación, una base de datos espacial está optimizado para almacenar y datos de consulta en base a cómo los objetos están relacionados en el espacio.

Organizar los servicios de datos grandes y herramientas

No todos los datos que las organizaciones utilizan es operativa. Una cantidad creciente de datos provienen de una variedad de fuentes que no son tan organizada o sencillo, incluidos los datos que proviene de máquinas o sensores, y fuentes de datos masivos públicas y privadas. En el pasado, la mayoría de las empresas no fueron capaces de capturar o almacenar esta gran cantidad de datos. Era simplemente demasiado caro o demasiado abrumador.

Incluso si las empresas fueron capaces de capturar los datos, no tenían las herramientas para hacer algo al respecto. Muy pocas herramientas podrían dar sentido a estas grandes cantidades de datos. Las herramientas que existían eran complejos de usar y no produjeron resultados en un plazo razonable.

Al final, los que realmente quería ir al enorme esfuerzo de analizar estos datos se vieron obligados a trabajar con instantáneas de datos. Esto tiene el efecto indeseable de desaparecidos eventos importantes debido a que no estaban en una instantánea en particular.

MapReduce, Hadoop, y Big Mesa para grandes datos

Con la evolución de la tecnología informática, ahora es posible gestionar inmensos volúmenes de datos. Los precios de los sistemas se han reducido, y como resultado, las nuevas técnicas de computación distribuida son la corriente principal. El verdadero avance ocurrió cuando empresas como Yahoo !, Google y Facebook llegó a la conclusión de que necesitaban ayuda en la monetización de las grandes cantidades de datos que estaban creando.

Estas empresas emergentes necesitaban encontrar nuevas tecnologías que les permitan almacenar, acceder y analizar grandes cantidades de datos en tiempo real para que pudieran obtener beneficios económicos de los beneficios de ser propietario de esta cantidad de datos sobre los participantes en sus redes.

Sus soluciones resultantes están transformando el mercado de gestión de datos. En particular, el MapReduce innovaciones, Hadoop, y Big Tabla demostraron ser las chispas que dieron lugar a una nueva generación de gestión de datos. Estas tecnologías abordan uno de los problemas más fundamentales - la capacidad para procesar grandes cantidades de datos de manera eficiente, rentable, y en el momento oportuno.

Mapa reducido

MapReduce fue diseñada por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en el modo por lotes. los " un mapa " componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas. También equilibra la carga y gestiona la recuperación de errores. Otra función llamada " reducir " agregados todos los elementos de nuevo juntos para proporcionar un resultado.

Gran mesa

Gran Mesa fue desarrollado por Google para ser un sistema de almacenamiento distribuido destinado para administrar datos estructurados altamente escalables. Los datos se organizan en tablas con filas y columnas. A diferencia de un modelo de base de datos relacional tradicional, Big tabla es un distribuido, persistente mapa Ordenado escasa, multidimensional. Se tiene la intención de almacenar grandes volúmenes de datos a través de los servidores de las materias primas.

Hadoop

Hadoop es un marco de software administrado Apache derivado de MapReduce y Big Table. Hadoop permite a las aplicaciones basadas en MapReduce se ejecuten en grandes racimos de hardware de los productos básicos. El proyecto es la base para la arquitectura de computación apoyo a la empresa Yahoo! 'S. Hadoop está diseñado para paralelizar procesamiento de datos a través de los nodos de computación para acelerar los cálculos y ocultar la latencia.

Dos componentes principales de Hadoop existen: un sistema de archivos distribuido masivamente escalable que puede soportar petabytes de datos y un motor de MapReduce masivamente escalable que calcula los resultados en lotes.


» » » » Asuntos de desempeño en la gestión de arquitectura de datos grande