Actualización Microsoft Synapse Noviembre 2022

Actualización Azure Synapse Analytics Marzo 2023

Bienvenid@ a la actualización de noviembre de 2022 de Azure Synapse Analytics. Este mes, encontrarás secciones sobre el aumento del rendimiento de Spark, el nuevo emulador de Kusto, así como actualizaciones adicionales en Apache Spark para Synapse, Synapse Data Explorer y Machine Learning.

 

Apache Spark para Synapse

Aumento del rendimiento de Spark

Siempre se está trabajando para mejorar el rendimiento de Azure Analytics Spark, esta vez realizando cambios significativos que aumentarán el rendimiento de Spark hasta en un 77%.

Basándonos en las pruebas con la referencia del sector TPC-H de 1 TB, es probable que veas un aumento del rendimiento de hasta el 77%. Aunque la carga de trabajo puede tener un rendimiento diferente al de la referencia TPC-H, se espera que todo el mundo vea una mejora del rendimiento. Estas mejoras en el rendimiento de Spark se deben al cambio a las últimas máquinas virtuales Azure v5, que han mejorado el rendimiento de la CPU, han aumentado el rendimiento temporal de las unidades SSD y, por último, han aumentado las IOPS del almacenamiento remoto.

Hay más de 40 regiones en todo el mundo en las que se aplicará este cambio región por región, siendo Canadá Central la primera región en ver los cambios. Estos cambios tardaran varios meses en implantarse en todo el mundo. Publicaremos cada región que actualicemos y los clientes recibirán automáticamente el aumento de rendimiento en cada región sin coste alguno.

No es necesario realizar ninguna acción. Después de actualizar cada región, tus trabajos se completarán en menos tiempo. Puedes optar por reducir el tamaño o el número de nodos si el ahorro de costes es más importante para ti que el tiempo transcurrido en la finalización de los trabajos.

 

Explorador de datos de sinapsis

Emulador ADX

El emulador ADX es una imagen Docker que expone un punto final del motor de consultas ADX.  Puedes utilizarlo para crear bases de datos e ingerir y consultar datos.  El emulador entiende Kusto Query Language (KQL) de la misma forma que el servicio Azure.  Por tanto, podemos usarlo para desarrollo local y estar seguros de que el código va a ejecutarse igual en un clúster de Azure Data Explorer.  También podemos desplegarlo en una pipeline CI/CD para ejecutar suites de pruebas automatizadas y asegurarnos de que nuestro código se comporta como se espera.

Ingesta de archivos desde AWS S3

Amazon S3 es uno de los servicios de almacenamiento de objetos más populares. Los clientes de AWS utilizan Amazon S3 para almacenar datos para diversos casos de uso, como data lakes, sitios web, aplicaciones móviles, backup y restauración, archivos, aplicaciones, dispositivos IoT, análisis de logs y análisis de big data.

Con el soporte nativo de ingestión de S3 en ADX, los clientes pueden traer datos desde S3 de forma nativa sin depender de complejas canalizaciones ETL. Los clientes también pueden crear una canalización de ingesta de datos continua para traer datos de S3.

Azure Stream Analytics ADX output (Generalmente disponible)

La salida ASA-ADX ha estado disponible en Preview desde el año pasado.  Los clientes pueden crear una potente arquitectura de análisis en tiempo real aprovechando conjuntamente ASA y ADX. Con esta nueva integración, el trabajo de Azure Stream Analytics puede ingerir los datos de forma nativa en las tablas de Azure Data Explorer y Synapse Data Explorer.

Open Telemetry exporter

OpenTelemetry (OTel) es un marco de trabajo de observación, de código abierto y de proveedor neutral para instrumentar, generar, recopilar y exportar datos de telemetría como trazas, métricas y registros.

El exportador OpenTelemetry de ADX admite la incorporación de datos de muchos receptores en Azure Data Explorer, lo que permite a los clientes instrumentar, generar, recopilar y almacenar datos utilizando un marco de trabajo de código abierto de proveedor neutral.

Soporte de streaming en el conector Telegraf

Telegraf es un agente de código abierto, ligero y con una huella de memoria mínima para recopilar, procesar y escribir datos de telemetría, incluidos registros, métricas y datos de IoT.  El plugin de salida Azure Data Explorer sirve como conector de Telegraf y soporta la ingesta de datos de muchos tipos de plugins de entrada en Azure Data Explorer.

Se ha añadido soporte para la ingesta “gestionada” de streaming en Telegraf, que por defecto proporciona una latencia de hasta un segundo cuando la tabla de destino está habilitada para streaming, con un fallback a la ingesta por lotes o en cola.

Soporte de Protobuf en Kafka sink

Los búferes de protocolo (Protobuf) son un mecanismo extensible independiente del lenguaje y la plataforma para serializar y deserializar datos estructurados para su uso en protocolos de comunicaciones y almacenamiento de datos. Azure Data Explorer Kafka sink, un conector Confluent con certificación de oro, ayuda a ingerir datos de Kafka a Azure Data Explorer. Se ha añadido compatibilidad con Protobuf en el conector para ayudar a los clientes a introducir datos de Protobuf en ADX.

Soporte de compartición a nivel de tabla a través de Azure Data Share

Con Azure Data Share, puedes establecer el uso compartido in situ con las bases de datos de Azure Data Explorer. Esto te permite compartir tus datos de forma fácil y segura con personas de su empresa o socios externos. La compartición se produce casi en tiempo real, sin necesidad de crear o mantener una canalización de datos.

Ahora se ha añadido la posibilidad de compartir a nivel de tabla a través de Azure Data Share UX, donde puedes compartir tablas específicas de la base de datos incluyendo o excluyendo determinadas tablas o utilizando comodines. Esto te permite proporcionar un subconjunto de los datos utilizando diferentes conjuntos de permisos, lo que permite soluciones ISV multitenant que mantienen ocultas las tablas propietarias, pero comparten datos específicos del tenant con los clientes.

Detección de líderes y seguidores

Se ha mejorado la visibilidad de las bases de datos líderes y seguidoras en sus clústeres ADX. Puedes visitar la hoja de base de datos en el portal Azure para identificar fácilmente todas las bases de datos seguidoras que siguen a una líder, y la líder para una seguidora dada. El panel de detalles también proporciona granularidad en torno a qué tablas específicas, tablas externas y vistas materializadas se han incluido o excluido.

Detección de bases de datos seguidoras

La función de base de datos seguidora te permite adjuntar una base de datos ubicada en un clúster diferente a tu clúster Azure Data Explorer. Antes de la capacidad de detección, una base de datos denominada DB creada en el clúster seguidor tenía prioridad sobre una base de datos con el mismo nombre creada en el clúster líder, lo que no permitía la coexistencia de bases de datos con el mismo nombre.  Pero ahora se puede anular el nombre de la base de datos al establecer una relación de seguimiento. Esto permite seguir varias bases de datos con el mismo nombre desde varios clústeres líderes o incluso poner una base de datos a disposición de los usuarios con un nombre más fácil de usar.

Puedes utilizar una propiedad databaseNameOverride para proporcionar un nuevo nombre de base de datos seguidor o utilizar databaseNamePrefix al seguir un clúster completo para añadir un prefijo a todos los nombres originales de las bases de datos del clúster líder.

Operador Parse-kv

Nuevo operador que extrae información estructurada de una expresión de cadena y representa la información en forma de clave/valor.

Admite los siguientes modos de extracción:

  • Delimitador especificado: Extracción basada en delimitadores especificados que dictan cómo se separan entre sí las claves/valores y los pares.
  • Delimitador no especificado: Extracción sin necesidad de especificar delimitadores. Cualquier carácter no alfanumérico se considera un delimitador.
  • Regex: Extracción basada en la expresión regular RE2.

Operador de exploración

Este potente operador permite la extracción eficiente y escalable de procesos y el análisis de secuencias y usuarios en ADX. El usuario puede definir una secuencia lineal de eventos y “escanear” extraerá rápidamente todas las secuencias de esos eventos. Los escenarios comunes para el uso de ‘scan’ incluyen mantenimiento preventivo para dispositivos IoT, análisis de embudo de clientes, cálculo recursivo, escenarios de seguridad en busca de pasos de ataque conocidos y más.

 

Machine Learning

Compatibilidad con R (Vista previa pública)

Azure Synapse Analytics ofrece ahora compatibilidad integrada con R para Apache Spark; esta capacidad se encuentra actualmente en vista previa pública. El lenguaje R permite a los científicos de datos aplicar el lenguaje R estándar del sector para procesar datos y desarrollar modelos de ML y realizar análisis de sus datos. Los científicos de datos y los analistas ahora pueden aprovechar R en Azure Synapse Analytics a través de las siguientes capacidades:

  • Azure Synapse Analytics R runtime: Azure Synapse Analytics admite un tiempo de ejecución de R que cuenta con muchos paquetes populares de R de código abierto.
  • Acceso a Apache Spark a través de R: Azure Synapse Notebooks también incluye compatibilidad con SparkR y SparklyR, lo que permite a los usuarios interactuar con Spark utilizando interfaces Spark o R conocidas.
  • Importe paquetes R personalizados: Los usuarios pueden estandarizar los paquetes de R en un pool de Azure Synapse Apache Spark cargando el paquete como un paquete de espacio de trabajo.
  • Instalar paquetes de sesión: Al realizar análisis de datos interactivos o aprendizaje automático, es posible que pruebe paquetes más nuevos o que necesite paquetes que actualmente no están disponibles en su pool de Apache Spark. En lugar de actualizar la configuración del pool, ahora los usuarios pueden utilizar la conocida sintaxis de R para añadir, gestionar y actualizar las dependencias de sesión.

Con el nuevo soporte de R, puedes instalar una librería R desde CRAN y CRAN snapshots. En el ejemplo siguiente, Highcharter es un paquete popular para visualizaciones R. Puedes instalar este paquete en todos los nodos de tu pool de Apache Spark utilizando el siguiente comando:

install.packages(“highcharter”, repos = https://cran.microsoft.com/snapshot/2021-07-16/)

Otra característica es que puedes crear un marco de datos SparkR utilizando la API Spark Data Source usando el siguiente código:

# Read a csv from ADLSg2

df <- read.df(‘abfss://<container name>@<storage account name>.dfs.core.windows.net/<file name>.csv’, ‘csv’, header=”true”)

head(df)

Entradas relacionadas