
Microsoft Azure Cognitive Speech Services se enfoca en acelerar la implementación de la tecnología de habla en las aplicaciones y mejorar la diferenciación en el mercado.
La IA para la educación es una tecnología emergente que podría transformar la educación de idiomas.
1. Evaluación de pronunciación
La nueva función proporciona información instantánea a los usuarios sobre la precisión, fluidez y entonación del habla al aprender un nuevo idioma.
Utiliza modelos de Azure Neural Text-to-Speech y Transformer para mejorar la precisión de la evaluación a nivel de palabra.
Está disponible en más de 10 idiomas y ofrece varias ventajas como:
- Evaluaciones completas para profesores.
- Servicio cognitivo del habla para proveedores.
- Forma cómoda de practicar y recibir comentarios para estudiantes.
2. Speech-to-text
Azure Speech to text permite identificar idiomas en tiempo real durante la conversación de aprendizaje de idiomas multilingües, lo que ayuda a mejorar la comprensión y el contexto legible.
La tecnología utiliza modelado multilingüe y técnicas de aprendizaje por transferencia para desarrollar nuevos idiomas de voz a texto, con acústica y conocimiento del lenguaje en distintos idiomas, y puede manejar dictados y conversaciones en una gran variedad de dominios lingüísticos.
Los desarrolladores pueden integrar fácilmente estos lenguajes en sus proyectos mediante una API de transmisión en tiempo real o la transcripción por lotes.
3. Voz neuronal preconfigurada y personalizada (CNV)
Microsoft Azure AI ofrece más de 449 voces neuronales predefinidas en 147 idiomas y Custom Neural Voice (CNV) permite a los usuarios crear una voz sintética personalizada para sus aplicaciones, utilizando muestras de habla humana como datos de entrenamiento. CNV se basa en la tecnología neural de conversión de texto en voz y permite a las empresas educativas personalizar el aprendizaje de idiomas y mejorar la evaluación de la pronunciación.
Duolingo y Pearson son ejemplos de empresas que han utilizado CNV para crear personajes únicos con voces distintas para representar marcas y personificar máquinas en interacciones conversacionales con los usuarios.