
¿Puede aprender una máquina? Seguramente ésta sea una pregunta que te has plantado alguna vez a lo largo de tu vida, especialmente en los últimos años debido a la revolución informática que estamos experimentando. Cada día salen nuevas herramientas y tecnologías que nos ayudan a hacer nuestro trabajo (tanto profesional como doméstico) más fácil y ameno, empujándonos a vivir en un entorno cada vez más digitalizado.
Esta misma pregunta la formuló uno de los matemáticos más brillantes del siglo XX, el británico Alan Turing, el cual, gracias a su obra se sentaron las bases de la informática actual. Turing propuso en sus estudios diferentes tipos de pruebas para demostrar la existencia de inteligencia en una máquina, fundamentándose en la hipótesis positivista de que, si una máquina se comporta en todos los aspectos como inteligente, entonces debe de ser inteligente. Los resultados del test no lograron superar a la inteligencia humana y demostrar que las máquinas pueden pensar o aprender por sí solas, pero han abierto la puerta al inicio de debates e investigaciones a cerca de la inteligencia artificial, demostrando que hoy en día, aplicando modelos, las máquinas pueden aprender y mejorar ciertas acciones desarrolladas por humanos.
En BertIA somos conscientes de que es clave tener presente que las máquinas pueden aprender y que hay diferentes tipos de aprendizaje que se pueden implementar en el desarrollo de modelos y proyectos de analítica de datos.
En el presente articulo intentaremos explicar con definiciones y ejemplos sencillos qué es el Machine Leraning y los diferentes tipos de aprendizaje que se pueden aplicar en las máquinas para aplicar en proyectos de Data Science.
Según la definición aportada por Arthur Samuel en 1959, el Machine Learning es el subcampo de la informática que da a las computadoras la capacidad de aprender sin ser explícitamente programado.
Se interpreta de tal manera de que las máquinas aprendan de forma similar a como lo hacen los humanos. Sin embargo, para que un algoritmo de ML sea robusto, depende de varios aspectos como:
- La extracción de conocimiento desde los datos.
- Aprendemos de comportamientos/patrones del pasado y realizamos predicciones o tomamos decisiones en base a dicho conocimiento.
El Machine Learning se puede clasificar en tres principales categorías: Aprendizaje Supervisado, Aprendizaje No Supervisado y Aprendizaje Reforzado.
Aprendizaje Supervisado
En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados”, intentado encontrar una función que, dadas las variables de entrada (input data), se asigna una etiqueta a los valores de la variable de salida adecuada. El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida.
Generalmente, el aprendizaje supervisado se suele aplicar en los siguientes escenarios:
- Problemas de clasificación (identificación de dígitos, diagnósticos, o detección de fraude de identidad).
- Problemas de regresión (predicciones meteorológicas, de expectativa de vida, de crecimiento etc.).
Los dos principales tipos principales de aprendizaje supervisado se distinguen por el tipo de variable objetivo. Pues bien, la variable objetivo en los problemas de clasificación suele ser de tipo categórico (por ejemplo, valores de variables de salido de tipo SI o NO, 0 o 1, rojo o azul), mientras que, en los casos de problemas de regresión, la variable objetivo es un valor real de tipo numérico (por ejemplo, predicción del precio de un activo en bolsa).
Aprendizaje No Supervisado
Al contrario que en el caso anterior, el aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados” para el entrenamiento. Es decir, sólo conocemos los datos de entrada, pero no existen datos de salida previos que correspondan a un determinado input, por lo que no sabemos lo que obtendremos en la variable de salida con anterioridad al entrenamiento y construcción del modelo.
Por lo tanto, sólo se puede describir la estructura de los datos para intentar encontrar algún tipo de organización que simplifique el análisis. Por esta razón, los modelos de aprendizaje no supervisado tienen un carácter exploratorio.
A continuación, detallamos algunas posibles aplicaciones del aprendizaje no supervisado para que se comprenda mejor el concepto descrito:
- Segmentación de clientes para análisis de marketing.
- Identificación de tipos de fraudes o morosidad en los sectores bancarios o de seguros.
- Clasificación de plantas y animales dadas sus características en laboratorios de biología.
- Modelos de recomendación aplicando algoritmos de asociación.
Aprendizaje Reforzado
Por último, finalizaremos el artículo explicando lo que es el aprendizaje reforzado.
No todos los algoritmos de Machine Learning se pueden clasificar como algoritmos de aprendizaje supervisado o no supervisado. Pues bien, existe una tercera clasificación que engloba diversas técnicas de aprendizaje por refuerzo, el cual se basa en mejorar la respuesta del modelo usando un proceso de retroalimentación. Es decir, el algoritmo aprende observando el mundo que le rodea. Su información de entrada es la retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende a base de ensayo-error. El objetivo es maximizar la ganancia o la recompensa, maximizando el buen comportamiento y penalizando al malo.
No es un tipo de aprendizaje supervisado, porque no se basa estrictamente en un conjunto de datos etiquetados, sino en la monitorización de la respuesta a las acciones tomadas. Tampoco es un aprendizaje no supervisado, ya que, cuando modelamos al algoritmo, sabemos de antemano cuál es la recompensa esperada.
Algunos escenarios en los que se puede aplicar aprendizaje reforzado, entre otros, son los siguientes:
- Sistemas de reconocimiento de voz, como el de Siri de Apple o Cortana de Microsoft.
- Desarrollo de vehículos autónomos en el sector de la automoción.