¿Qué es la Ciencia de Datos (Data Science)? ¿Cuál fue su origen? ¿Cómo ha sido su evolución?
¡Saludos, investigadores e investigadoras sociales! Comenzamos una nueva serie de artículos en el Blog de la Fundación iS+D dedicada a la Ciencia de Datos (o Data Science).
Para ello, contaremos con la colaboración de dos investigadoras que actualmente se dedican y se forman, respectivamente, en esta pionera ciencia: María García-Maroto García, técnica de investigación social de la Fundación iS+D; y Rosalía Santamaría Muñoz, experta en análisis de datos (Business Intelligence Analyst) e investigadora asociada de la Fundación iS+D.
En esta ocasión hablarán sobre el origen o surgimiento de la historia de la Ciencia de Datos, así como su definición y actuales etapas. Ambas profesionales se dedican y se forman respectivamente en esta pionera ciencia.
El origen y evolución de la Ciencia de Datos (Data Science)
La Ciencia de Datos tiene su origen en el año 1962, cuando el estadístico estadounidense John W. Tukey, conocido por el desarrollo de complejos algoritmos y el famoso diagrama de caja y bigotes (Box Plot), escribe y se cuestiona el futuro de la estadística como ciencia empírica. Escribiría así en El futuro del análisis de datos (1962):
«Durante mucho tiempo pensé que era un estadístico interesado en inferencias de lo particular a lo general. Pero a medida que observé la evolución de las estadísticas matemáticas, tuve motivos para preguntarme y dudar […] Llegué a sentir que mi interés central está en el análisis de datos… El análisis de datos, y las partes de las estadísticas que se adhieren a él, deben […] asumir las características de la ciencia en lugar de las matemáticas […] el análisis de datos es intrínsecamente una ciencia empírica».
En estas declaraciones se habla por primera vez de la evolución de la estadística matemática como Ciencia de Datos. Sin embargo, no sería hasta más adelante en 1974 cuando Peter Naur, científico danés conocido por sus trabajos en las ciencias computacionales y ganador del premio Turing en el año 2005, acuñara el término que actualmente conocemos.
Más tarde en 1977, la Asociación Internacional de Computación Estadística (IASC) se establece como una Sección del ISI (Institute for Scientific Information). Tal y como describen fuentes secundarias: “La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de expertos en el dominio para convertir los datos en información y conocimiento”. Es decir, la Ciencia de Datos empieza a relacionar la metodología estadística tradicional para convertir los datos en información y conocimiento, así como se describe.
- La Ciencia de Datos podría ser entendida como una disciplina que combina campos como la estadística, los métodos científicos y el análisis de datos, para extraer el valor de estos últimos
Por otro lado, la Federación Internacional de Sociedades de Clasificación (IFCS), organización no gubernamental sin ánimo de lucro con sede en Londres y perteneciente a la ONU, se reúne en Japón en 1996 y por primera vez se incluye el término Ciencia de Datos en el título de la conferencia. Esta asociación tiene como objetivo promover la seguridad de la vida humana en el mar y propiedades (buques y plataformas), así como la protección del entorno natural marino. Esto refleja la diversidad de aplicaciones que tiene la Ciencia de Datos y su no exclusiva aplicación en un solo área.
Por su parte, William S. Cleveland, informático y estadístico estadounidense, famoso por sus aplicaciones en la visualización de datos, introdujo en 2001 a la Ciencia de Datos como una disciplina unificada y con independencia de lo que hasta ese momento se había conocido como Estadística. Un año más tarde, en 2002, comienzan las publicaciones de la primera revista científica en lo referente a los datos, la conocida como Data Science Journal. Esta revista fue fundada con el fin de promover a través de sus artículos la Ciencia de Datos y su correspondiente aplicación en áreas como las políticas públicas, las prácticas y la gestión de Datos Abiertos (datos accesibles en los que se garantiza su fiabilidad y su estructuración) para contribuir a la eficacia y eficiencia en el conocimiento y el aprendizaje.
Actualmente, es una herramienta estadística y de investigación que se utiliza como plataforma para ampliar, compartir y difundir el conocimiento.
Pero… ¿qué es la Ciencia de Datos?
La Ciencia de Datos o Data Science podría ser entendida como una disciplina que combina múltiples campos, tales como la estadística, los métodos científicos y el análisis de datos, para extraer el valor de estos últimos.
Los datos son información que se utiliza para encontrar patrones, extraer significado y descubrir conocimiento en base a ello. Esta ciencia, a través del análisis de los mismos, busca obtener respuestas óptimas en la toma de decisiones y para detectar nuevas tendencias.
Fuente: https://www.avances.ai/metodologia-de-ciencia-de-datos/
Las etapas en la implementación de la metodología en la ingeniera de datos
Desde el surgimiento desde esta disciplina, surge una metodología fundamental basada en la necesidad que tienen los y las científicas de datos para formalizar el proceso y para el desarrollo de buenas prácticas. Esta metodología cuenta con las siguientes etapas:
- Comprensión del marco de actuación del negocio, institución o programa
Esta fase se considera el comienzo del análisis. Sienta las bases para el proyecto a tratar. Es decir, se trata de entender el conjunto de negocio para resolver con éxito el problema que se plantea.
- Enfoque analítico
En el enfoque analítico entran las bases estadísticas para identificar cuál sería el procedimiento que nos puede ayudar para obtener nuestro resultado exitoso o esperado.
- Requisitos de datos
El enfoque analítico determina los requisitos de datos. Como requisitos de datos entendemos las características para registrar que tipos de datos se van a recoger, que respuestas se esperan obtener de ellos y los datos necesarios para el diseño.
- Recopilación de datos
Esta etapa recopila los recursos necesarios para la consecución del proyecto en bases de datos y otros archivos de similar índole.
- Comprensión de datos
Una vez creada la base de datos, se utiliza la estadística descriptiva y la visualización de datos, no solo para entenderlos si no también para ser consciente de las carencias existentes en esta primera recogida de datos.
- Preparación de datos
Esta etapa es crucial para el posterior análisis de los datos, ya que hay que proceder a una limpieza y transformación de los datos para convertirlos en información práctica para su utilización.
- Modelado
En esta etapa se utiliza la base de datos creada con anterioridad. El objetivo sería la creación de modelos predictivos, conjuntos de procesos, que utilizan los datos a partir del aprendizaje automático y llevan a cabo predicciones extrayendo patrones para identificar riesgos y oportunidades en el proyecto.
- Evaluación
La evaluación se basa en la estimación de la validez del modelo creado y garantiza su correcta utilización de cara al problema planteado.
- Implementación
Una vez desarrollado el modelo, se implementa en el entorno a tratar el proyecto y sus objetivos.
- Retroalimentación
Esta etapa final utiliza los resultados ya implementados y alimenta el modelo de nuevo para ajustarlo a la realidad, a las necesidades del negocio y mejorar tanto su precisión como su utilidad.
María García-Maroto García
Investigadora asociada de la Fundación iS+D
Rosalía Santamaría Muñoz
Experta en análisis de datos (Senior Data Scientist) e investigadora asociada de la Fundación iS+D
¿Necesitas aprender a programar con R?
Descubre el curso online:
- Introducción a Data Science: Programación Estadística con R"