Todos hemos oído hablar de la ciencia de datos, el Big data, la Inteligencia Artificial o Machine Learning, ¿pero realmente conocemos su significado?
En el presente artículo intentaremos explicar con definiciones sencillas lo que abarcan cada una de las disciplinas nombradas anteriormente y desmitificar mitos o conceptos erróneos que a veces se asocian a dichas disciplinas.
Empezamos explicando lo qué es el Big Data.
El Big Data son el conjunto de datos o combinaciones de conjuntos de datos cuyo volumen, variabilidad y velocidad de crecimiento dificultan su captura, gestión, procesamiento o análisis mediante las tecnologías informáticas tradicionales. Por ello se han desarrollado tecnologías para la recopilación, análisis y gestión de los datos.
El Big Data se suele caracterizar comúnmente por las 3 Vs: volumen, velocidad y variedad.
Sin embargo, es cierto que en algunos ámbitos al Big Data se le asigna 5 Vs en vez de 3 Vs, dónde se incluyen las características de Veracidad (revisar toda la información que llega para evaluar cuál es verdadero y cuál es falsa) y Valor (cumpliendo las características de Volumen, Velocidad, Variedad y Veracidad, se obtiene información útil y de calidad para las organizaciones).
Por último, remarcar que el Big Data se enfrenta a la resolución de problemas englobados en diferentes marcos de actuación:
- ETL (Extract, Transform and Load)
- BI / Analytics (analizar el pasado)
- Advanced Analytics (predecir el futuro)
- Visualización.
La ciencia de datos, comúnmente conocida como Data Science, es una multidisciplinar metodología que nos ayuda a definir lo que queremos hacer con los datos, cómo evaluamos nuestros algoritmos, qué decisiones pueden ser basadas en datos, cómo combinamos evidencias de varias fuentes, etc.
La ciencia de datos no es una “ciencia” en sí, sino un nuevo modelado de procesos de datos centrado en convertir datos en acciones.
Por norma general, todo Data Scientist debe de seguir los siguientes pasos a la hora de abordar un problema de Data Science:
- Paso 1: Hacerse preguntas con el fin de encontrar respuestas que solucionen un problema o una casuística.
- Paso 2: Obtener información para entender el problema y buscar soluciones. La información o los datos puede ser muy heterogénea y no estar estructurada.
- Paso 3: Procesamiento de los datos (limpieza de datos, data mining, etc.).
- Paso 4: Analizar los datos transformados y procesados.
- Paso 5: Tomar una decisión y actuar.
En la siguiente imagen se puede evaluar con más claridad el camino que debe de recorrer un Data Scientist en la búsqueda de la solución a un problema:
Por lo tanto, mientras que el Big Data hace referencia a la tecnología que utilizamos para procesar cantidades masivas de datos, la ciencia de datos es la metodología basada en el conocimiento multidisciplinar.
Respecto a la Inteligencia Artificial, o común conocida como Artificial Intelligence (IA), es la capacidad de un sistema informático de imitar funciones cognitivas humanas, como el aprendizaje y la solución de problemáticas. Esto es posible mediante el uso de matemáticas y la lógica que consiguen que un sistema informático simule el razonamiento humano para aprender nueva información y tomar decisiones.
La inteligencia artificial se puede clasificar en dos partes principales: inteligencia artificial general (general artificial intelligence) e inteligencia artificial estrecha (narrow artificial intelligence).
- Inteligencia Artificial General: Se refiere a la conversión de máquinas inteligentes en una amplia gama de actividades que implican pensar y razonar
- Inteligencia Artificial Estrecha: Involucra el uso de la inteligencia artificial en una o varias tareas concretas.
Los sistemas informáticos que incluyen IA pueden generar predicciones y realizar acciones en base a patrones generados por los datos que este tiene disponible, además se le puede dar la capacidad de aprender de sus propios errores.
Por último, finalizaremos el artículo explicando lo qué es el Machine Learning.
El Machine Learning es una rama de la inteligencia artificial, es lo que permite que las máquinas aprendan sin ser expresamente programadas para ello. Es una habilidad indispensable para hacer sistemas capaces de identificar patrones entre los datos para, posteriormente, poder realizar predicciones sobre estos.
Un claro ejemplo son los sistemas usados por Netflix, que a través de la selección de series o películas vistes de un usuario es capaz de hacer recomendaciones.