
¡Bienvenid@ a la actualización de enero de 2023 de Azure Synapse Analytics!
Este mes podrás disfrutar de las novedades sobre Apache Spark Advisor en Azure Synapse y el nuevo tiempo de ejecución Apache Spark 3.3, así como actualizaciones adicionales en Apache Spark para Synapse, Synapse Data Explorer y Data Integration.
Apache Spark para Synapse
Límites de concurrencia de trabajos y API para Apache Spark para Synapse
Azure Synapse Analytics permite a los usuarios manejar y crear Spark Pools en sus espacios de trabajo para procesamiento de datos, exploración de datos, aprendizaje automático y flujos de trabajo de procesamiento de datos en tiempo real.
Hay un límite de 1000 trabajos activos en un solo espacio de trabajo, y para evitar fallos en el envío de trabajos en momentos de alto tráfico, se recomienda usar el valor “Retry-After” en lugar de un intervalo de tiempo aleatorio o exponencial.
Reserva de Ejecutores como parte de la Asignación Dinámica
El tamaño de los ejecutores en una aplicación Spark puede ser difícil de determinar debido a su variabilidad. La Asignación Dinámica soluciona este problema al permitir la configuración de un número mínimo y máximo de ejecutores, ya que la plataforma asigna los ejecutores automáticamente, reservando un conjunto para cada aplicación para asegurar una ejecución confiable y una experiencia satisfactoria para el usuario.
Azure Synapse Runtime para Apache Spark 3.3 [Vista previa pública]
Ya es posible crear Azure Synapse Runtime para Apache Spark 3.3 con mejoras de Apache Spark 3.3.1 y Delta Lake. Revisa las notas oficiales de Apache Spark 3.3.0 y 3.3.1 para ver las funciones y correcciones completas, y evalúa los posibles cambios en tus aplicaciones, trabajos y cuadernos con las directrices de migración de Spark 3.2 a 3.3.
Spark Advisor para Azure Synapse Notebook [Vista previa pública]
Synapse Spark Advisor analiza el código ejecutado por Spark y muestra consejos en tiempo real para Notebooks. Spark advisor ofrece recomendaciones para la optimización del código basadas en patrones comunes incorporados, realiza análisis de errores y localiza la causa raíz de los fallos.
Synapse Data Explorer
Enlace de Synapse de Cosmos DB a Azure Data Explorer [Vista previa pública]
Azure Cosmos DB es una base de datos NoSQL totalmente gestionada para aplicaciones que requieren manejar grandes cantidades de datos en tiempo real. Azure Data Explorer es una plataforma de análisis de big data optimizada para series temporales y diferentes formatos de datos.
Ahora, con Cosmos DB to Azure Data Explorer Synapse Link, ambas tecnologías se combinan de forma gestionada para brindar la ingesta nativa de ADX de Cosmos DB, permitiendo analizar datos transaccionales de alto rendimiento y baja latencia. Los datos pueden ser ingresados en tiempo real para analizar datos actualizados o auditar cambios.
Conector Apache log4j2 sink para Azure Data Explorer
El conector Log4j2-ADX permite transmitir fácilmente los datos de registro de Log4j2 a Azure Data Explorer. Es un conector de código abierto que utiliza una estrategia personalizada, KustoStrategy, en el RollingFileAppender. Los registros se escriben en un archivo rodante para evitar la pérdida de datos y luego se descargan en el clúster ADX. El conector también incluye una aplicación de demostración para facilitar el uso.
Ingesta de eventos de Event Hub preexistentes a ADX
ADX ahora puede recuperar datos de Event Hub que existían antes de la creación de una conexión con el clúster. Esto se puede hacer a través del portal de Azure, en la interfaz de usuario de Kusto o la API REST. Puedes utilizar esta función especificando la fecha de inicio de recuperación en la “Configuración avanzada”.
Detección de anomalías multivariantes en Azure Data Explorer
ADX ofrece soporte para la detección de anomalías en series temporales utilizando la función series_decompose_anomalies(). Esta función permite analizar múltiples series temporalmente de manera rápida y escalable.
ADX One Click file ingestion acaba de hacerse mucho más escalable
La carga de archivos de ADX One Click ahora admite hasta 1000 archivos (antes 10) de una sola vez. Esto será muy útil para los usuarios que tienen muchos archivos pequeños y desean completar el proceso de ingesta de una sola vez.
Mejoras en los cuadros de mando ADX: Formato condicional
El formato condicional ayuda a destacar anomalías o simplemente datos interesantes en un conjunto de resultados. Se ha renovado el componente de formato condicional en los visuales de tablas, estadísticas y estadísticas múltiples para incluir más opciones. Ahora se puede dar formato a un visual utilizando condiciones o aplicar temas a columnas numéricas o valores discretos a columnas no numéricas, ya sea para una columna específica o para toda la fila.
Mejoras en los cuadros de mando ADX: Visualización de gráficos circulares
Las nuevas opciones de visualización de gráficos circulares en los cuadros de mando te permiten centrarte en los datos que te interesan. Seleccionando la columna por la que se ordena y los N valores superiores, puedes obtener una imagen más clara de la distribución de los datos.
ADX Kusto Web Explorer (KWE) Visor JPath
La notación JPath describe la ruta a uno o más elementos de un documento JSON. El uso del visor JPath en la vista expandida de un resultado permite obtener rápidamente un elemento específico de un texto JSON y copiar fácilmente su expresión de ruta. Esto resulta extremadamente útil cuando se realiza una investigación de datos (es decir, resultados de consultas) que contienen campos dinámicos.
Data Integration
Módulo de red virtual exprés para SSIS [Disponible de forma general]
Este método de inyectar tu entorno de ejecución de integración (IR) SSIS en una red virtual permite que tu entorno de ejecución de integración SSIS se aprovisione e inicie más rápidamente. El tráfico entrante tampoco es necesario para cumplir con los requisitos de seguridad de la empresa.
Flowlets ahora soporta el cambio de esquema
Los flowlets ahora tienen la capacidad de adaptarse a cambios en el esquema de los datos, lo que les permite ser más flexibles y reutilizables en diferentes flujos de datos. Esta característica se activa fácilmente en el origen y el destino al seleccionar “Permitir desvío de esquema” en las opciones.
La extracción incremental de SQL CDC soporta ahora columnas numéricas
Ahora es posible activar la extracción incremental en fuentes SQL en los flujos de datos de asignación para procesar solo las filas que han cambiado desde la última vez que se ejecutó la canalización. Además de la columna de fecha/hora, los tipos de columnas incrementales admitidos incluyen columnas numéricas.
Esto es todo por este mes. Esperamos que pongas en práctica todas las nuevas funcionalidades y las disfrutéis al máximo. Además, no olvides contarnos qué te ha parecido la actualización, ¡nos encantaría saber tu opinión!