¿Qué significa concretamente Data Science? ¿Qué es el Big Data? ¿Y Business Intelligence?
¡Saludos, investigadores e investigadoras sociales! Bienvenidos/as a una nueva entrada de la serie Ciencia de Datos (Data Science) del Blog de la Fundación iS+D de la mano de María García-Maroto García, técnica de investigación social de la Fundación iS+D, y Rosalía Santamaría Muñoz, experta en análisis de datos (Business Intelligence Analyst) e investigadora asociada de la Fundación iS+D.
Tras hablar sobre la definición y el origen de la Ciencia de Datos, en este artículo se han propuesto definir y aclarar los conceptos más esenciales para un/a profesional de la ciencia de datos, pues en muchas ocasiones se confunden conceptos, siendo imprescindibles y para nada intercambiables.
Data Science (Ciencia de Datos): aclaración de conceptos básicos
Cuando hablamos de Ciencia de Datos o Data Science nos referimos a la disciplina que se encarga del estudio de grandes volúmenes de datos. Es una disciplina que combina conocimiento desde distintas áreas. Por tanto, un/a data scientist (científico/a de datos) debería contar con conocimiento estadístico, conocimiento computacional y aquellos conocimientos que acompañen a la finalidad del estudio. Es decir, el objetivo a perseguir tras la realización del estudio, ya sea de tipo académico, empresarial o profesional, determinaría el conocimiento específico a comprender.
Data Science o Ciencia de Datos, data scientist, Data Analysis, data analyst, Big Data, Business Intelligence, etc… son sin duda toda una amalgama de términos y en muchos casos se desconoce su significado concreto. De ellos, quizás el más utilizado sea el de “Big Data”, por lo que es interesante preguntarse: ¿a qué se refiere?
- Los ámbitos de aplicabilidad más conocidos del Big Data serían el Business Intelligence y el Business Analytics
El Big Data o lo que sería traducido como “Macrodatos” o “Metadata” se refiere a la ciencia que analiza enormes volúmenes de datos. La tipología de datos a analizar sería tanto estructurada como no estructurada. La diferencia entre estos últimos sería la naturaleza del dato. Es decir, los datos no estructurados serían aquellos que para poder ser analizados deben de pasar por un proceso de codificación. Esto quiere decir que son datos que las herramientas del/la profesional no pueden leer si no han sido tratados con anterioridad. Los datos estructurados, por el contrario, son datos organizados y son aptos para su manipulación. Si simplificamos esta idea, podríamos decir que los datos no estructurados son datos cualitativos, mientras que los datos estructurados son aquellos cuantitativos.
¿Para qué se utiliza el Big Data?
El mundo de los datos es tan diverso como áreas de investigación existan. Sin embargo, el sector empresarial es uno de los grandes testigos de la evolución de la Ciencia de Datos. Cabe destacar que la aplicabilidad no es específica. El Data Science ha revolucionado el sector del análisis de los datos, pudiendo ser utilizado para múltiples aplicaciones: desde la mejoría de la salud pública o el rendimiento deportivo; el mundo de las telecomunicaciones; o la regulación del tráfico en las ciudades entre otros. Por ello, el perfil del/la data scientist es variado y no requiere una especialización concreta.
Los ámbitos de aplicabilidad más conocidos del Big Data serían el Business Intelligence y el Business Analytics. Este último se encargaría de analizar datos que ya han sido estructurados con anterioridad y que tienen el foco en el futuro. Se centra en las tendencias o en los indicadores macroeconómicos trabajando para no repetir fallos anteriores.
Una de las herramientas que es utilizada en el Business Analytics es el Data Mining o la Minería de Datos, siendo una técnica cuantitativa que se encarga de procesar, identificar y extraer grandes cantidades de datos para detectar patrones y tendencias, haciendo así comprensible y útil para su aplicación. La metodología utilizada en la minería de datos se basaría en métodos estadísticos, aprendizaje automático, gestión de bases de datos, procesamiento de datos y la conocida inteligencia artificial. Esta herramienta ha sido utilizada en diferentes disciplinas de las Ciencias Sociales como Sociología, Antropología, Estadística o Ciencias Políticas, entre otros.
- La rápida evolución de la inteligencia artificial ha propiciado el desarrollo de esta disciplina a través de herramientas como el Machine Learning o el Deep Learning
Por otro lado, el Business Intelligence centra su atención en datos estructurados del pasado. Almacena los datos de manera central y corrige errores para la toma de decisiones. En resumen, estas serían las dos grandes áreas de aplicabilidad más utilizadas en la Ciencia de Datos.
Así pues, podemos concluir que la Ciencia de Datos, el Big Data o el Análisis de Datos (Data Analysis) serían el “cómo”, mientras que los ya mencionados Business Analytics y Business Intelligence podrían ser el “para qué” de la Ciencia de Datos. Cabe destacar, a pesar de estos últimos son los campos de aplicación más usados y conocidos, existen también otros muchos dependiendo del área de aplicabilidad, como es el áreas de las Smart Cities (o Ciudades Inteligentes) y, dentro la Sociología, es conocido el ejemplo de la campaña de Donald Trump dentro del campo de la Sociología electoral.
Otros términos: inteligencia artificial, Machine Learning y Feature Engineering
La inteligencia artificial (IA) ha estado en boca de todos en los últimos años. Los drones, smartphones, electrodomésticos y otros aparatos domóticos están en nuestro día a día. Desde su aparición, en el siglo XX, no ha dejado de sorprendernos. Su rápida evolución ha propiciado el desarrollo de esta disciplina a través de herramientas como el Machine Learning o el Deep Learning.
El Machine Learning, o Aprendizaje Automático, se encarga del uso de algoritmos matemáticos que le dan la habilidad a las máquinas de aprender a solucionar problemas de forma analítica. De esta forma, aprenden a sacar conclusiones tras la introducción de datos. Esta herramienta utiliza árboles de decisión o algoritmos de regresión e imitan la forma de aprender del cerebro humano, siendo una de las similitudes que tendría con el Deep Learning (o Aprendizaje Profundo). Este último utiliza redes neuronales artificiales, parecidas a las redes neuronales del cerebro humano. La tipología de algoritmos también es distinta según la rama de la Inteligencia Artificial a tratar, siendo una de las ramas del Machine Learning. Podríamos decir entonces que el Deep Learning es una evolución del algoritmo del Machine Learning.
En cuanto a los algoritmos utilizados, estos pueden ser supervisados o no supervisados, es decir que necesiten o no supervisión del ser humano. Este es otro de los parecidos entre estas ramas de la Inteligencia Artificial.
Por último encontraríamos el no tan conocido, pero fundamental, Feature Engineering o Ingeniería de Características, siendo una de las primeras etapas para la preparación de los datos antes de llevar a cabo el modelado de Machine Learning. Con esta fase, se reduce la carga de datos, lo que mejora e incrementa el rendimiento de los mismos, pudiendo extraerse así información relevante.
María García-Maroto García
Técnica de investigación social de la Fundación iS+D
Rosalía Santamaría Muñoz
Experta en análisis de datos (Senior Data Scientist) e investigadora asociada de la Fundación iS+D
¿Necesitas aprender a programar con R?
Descubre el curso online:
- Introducción a Data Science: Programación Estadística con R"