
Databricks
Azure Databricks es un servicio de análisis de Big Data e inteligencia artificial totalmente optimizado. Para ello, utiliza el marco de referencia Apache Spark de computación en clúster, lo que permite dividir tareas muy grandes en otras más pequeñas y ejecutarlas en paralelo. Es lo que se llama Massively Parallel Processing (MPP).
Con Databricks puedes configurar tu entorno de Spark en pocos minutos de forma 100% personalizable y escalable, pudiendo elegir la cantidad y potencia de los nodos de trabajo. Además, permite la opción de escalado automático en caso necesario, lo que permite ahorrar costes al máximo.
Entorno de desarrollo
El entorno de desarrollo es altamente interactivo y soporta distintos lenguajes de programación, incluidos los más utilizados en el análisis de datos, como Python, SQL o Scala. Además, integra a la perfección un sistema de control de versiones, compatible con repositorios Git, que permite controlar los flujos de desarrollo y despliegue continuos. Esto facilita y enriquece enormemente el trabajo en equipo entre expertos en distintas áreas: ingenieros de datos, analistas, científicos de datos…
Machine Learning e inteligencia artificial
Databricks también facilita el desarrollo de modelos de aprendizaje automático, ofreciendo en un solo click entornos preconfigurados y de última generación como son Tensorflow y Pytorch, Además, gracias a su motor de Spark optimizado, el equipo de Data Scientist puede utilizar macrodatos para maximizar el potencial de los modelos de inteligencia artificial.
DeltaLake y el paradigma Lakehouse
Azure Data Lake es un repositorio de datos sin límite, ideado para almacenar y analizar petabytes de datos. El Delta Lake es una capa de almacenamiento totalmente compatible con Spark utilizada por Databricks. El Delta Lake permite transacciones ACID y control de versiones, a la vez que mantiene toda la libertad de los Data Lake.
Esta moderna arquitectura ha llevado a replantearse los modelos más antiguos, como el Data Warehouse. Históricamente, los DWH se han utilizado para almacenar grandes cantidades de datos estructurados. No obstante, hoy en día es necesario lidiar con cantidades ingentes de datos no-estructurados, como podrían ser imágenes, textos de las redes sociales (análisis de sentimiento) o incluso vídeos. Para ello, es necesario evolucionar hacia un repositorio adecuado y sin límites. La combinación de Databricks con Data Lake permite solventar este problema, dando lugar a un nuevo paradigma, el Lakehouse.
El Lakehouse combina lo mejor de los Data Warehouse tradicionales con la libertad de los Data Lake, eliminado así las limitaciones de ambos. En otras palabras, permite usar un repositorio de bajo coste y sin límites, pero manteniendo las estructuras de datos y transacciones típicas de una base de datos tradicional. Junto con Databricks, hacen posible el almacenaje, procesamiento y análisis de macrodatos de forma óptima, rápida, segura, confiable, escalable y de bajo coste.
¿Quieres saber más? ¡No dudes en contactar con nosotros!
Excelente articulo, se nota el know-how y expertise de la empresa. Muy bien explicado, felicitaciones al miembro del equipo que lo haya escrito.