¿Cuáles son las herramientas necesarias en Data Science (Ciencia de Datos)? ¿Qué habilidades debe tener un/a profesional y analista de datos?
Después del anterior artículo de la serie Ciencia de Datos (Data Science) del Blog de la Fundación iS+D, en el que fueron explicados algunos conceptos básicos en la Ciencia de Datos, María García-Maroto García, técnica de investigación social de la Fundación iS+D, y Rosalía Santamaría Muñoz, experta en análisis de datos (Business Intelligence Analyst) e investigadora asociada de la Fundación iS+D, nos traen una nueva entrada dedicada en esta ocasión a las herramientas que serían más habituales para cualquier científico/a de datos (data scientist) en el implementación de un proyecto de Data Science.
Más concretamente, en este post veremos las herramientas materiales, herramientas «humanas» o soft skills y herramientas académico-formativas. Posteriormente, en una próxima entrada hablaremos de las herramientas computacionales, las cuales dividiremos entre herramientas de software y herramientas estadísticas.
Es necesario señalar que, lejos de pertenecer a ninguna categorización oficial, esta conceptualización y segmentación de conceptos en los distintos tipos de herramientas que ahora veremos se ha realizado para un mejor entendimiento de los utensilios analíticos en la Ciencia de Datos.
Herramientas materiales
Como herramientas materiales podemos entender aquellas herramientas que pertenecen a la realidad física. Las personas que se dedican a esta ciencia necesitan un ordenador (PC) para que, con los programas pertinentes –que serán explicados en las siguientes líneas– se lleven a cabo las tareas a realizar. Por lo general, es necesario que el hardware que utilicemos no sea muy antiguo y que, en específico, se disponga de una RAM (Random Access Memory o Memoria de Acceso Aleatorio) con una relativa alta capacidad de almacenamiento.
En la Ciencia de Datos no existe una preferencia concreta por los ordenadores de sobremesa o los portátiles, pero se recomienda contar con una pantalla o monitor lo suficientemente grande para una correcta salud visual. Aunque pensemos que los dobles monitores son para “hackers”, “gamers” o profesionales de la ciencia de la computación, es habitual encontrar a un/a trabajador/a de la ciencia de datos con dos monitores que tengan un ancho a partir de los 40 cm, y es que, cuando llevas horas delante del ordenador “picando código”, el tamaño y la cantidad de los monitores cobra importancia como factor de bienestar para el/la profesional.
Además y en referencia a la salud visual, en el último tiempo y debido al auge del teletrabajo y de la automatización de procesos, cada vez son más los trabajadores y trabajadoras que, aún sin tener un problema de vista concreto, utilizan gafas para protegerse de la llamada luz azul que habitualmente envuelve las pantallas de móviles y ordenadores.
Herramientas “humanas” o soft skills
A las capacidades blandas –soft skills– le hemos dado el nombre de herramientas humanas, pues se refieren a las habilidades que tienen las personas y que son necesarias para su adaptación al puesto de trabajo en referencia a la relación que tiene con sí misma y con el resto de trabajadores/as dentro de la empresa o institución.
Así pues, se ha llevado a cabo una enumeración de las habilidades que, a título personal, hemos experimentado durante nuestra formación y las cuales hemos venido observando en el trabajo basado en la Ciencia de Datos:
- Paciencia y gestión de la frustración: habitualmente estos proyectos requieren de una gran paciencia, pues es una disciplina expuesta al error debido a la codificación. Escribir código es un trabajo detallista y milimétrico, pues si no se escribe la totalidad del código de forma correcta, directamente el programa a realizar no funciona. Por poner un ejemplo personal a lo largo de nuestra carrera, no sería la primera, la segunda ni la tercera vez que se nos olvida un punto en el código. Y es que, solo por ese punto, puedes estar varias horas comprobando que todas las partes del mismo estén bien. Por ello, las personas que trabajan en la Ciencia de Datos y en todas aquellas disciplinas que utilizan la codificación están más que acostumbradas a tratar con errores de este tipo.
- Agilidad: teniendo en cuenta en la Ciencia de Datos podemos llegar a tener este tipo de errores que describíamos en el párrafo anterior, es necesaria cierta agilidad o, si no se tiene por falta de experiencia, entre otros motivos, es necesario algunas técnicas para agilizar el proceso. Por ejemplo, las personas que se dedican a la Ciencia de Datos utilizan habitualmente diversos atajos de teclado, pues en Data Science, ¡el tiempo es oro!
- Descansos: debido a las pequeñas letras en los lenguajes de programación o la reparación de errores continuos en el programa que se está codificando, es necesario saber cuándo y cómo tomarse los descansos. En nuestra formación y posteriores trabajos realizados, ambas coincidimos en que tomarse un respiro de 15 o 20 minutos cuando llevamos mucho tiempo con un error específico en el programa nos hace ver las cosas mucho más claras. Cuanto más relajado/a se esté para programar, mejores resultados se obtendrán. Es más, algunos de nuestros compañeros y compañeras en la Ciencia de Datos, y nosotras mismas, hemos experimentado en varias ocasiones como, en el momento más inesperado, vienen las mejores ideas a la cabeza para conseguir codificar de la manera más adecuada o dando con el código perfecto con el que “te estabas pegando” durante horas.
- Buscar ejemplos: una de las cosas que más nos sorprendió cuando comenzamos a formarnos en Ciencia de Datos, es que “copiar de Google”, no solo es que esté permitido, sino que es necesario. Es decir, las consultas en Google para buscar ejemplos de códigos es el pan de cada día de un/a científico/a de datos. En esta ciencia, es muy importante saberse manejar en los exploradores de Internet y contar con páginas, foros y herramientas online que ayudan al trabajo del/a programador/a. Algunas de las páginas web más utilizadas por los y las data scientist serían: Stack Overflow, Python Tutor, Programiz, GitHub o O’Reilly.
- Proactividad: si bien es cierto que esta habilidad se viene reclamando a trabajadores y trabajadoras en todas las disciplinas, debido al mundo cambiante en el que vivimos (modernidad líquida, que decía Zygmunt Bauman), la proactividad en la programación es algo imprescindible. Esto se debe en gran parte por la naturaleza de este tipo de ciencia, pues es constante el avance en materia tecnológica de las nuevas versiones de los programas que se utilizan, por lo que sin duda es muy necesaria esta soft skill.
Herramientas académico formativas
Por herramientas académicas nos referimos a la formación necesaria que han de tener los y las profesionales del Data Science.
Estamos aconteciendo en el último tiempo la gran necesidad de oferta de trabajadores/as en el ámbito de la Ciencia de Datos –debido a la velocidad desenfrenada en la que se ha desarrollado este sector–. Por ello, y aunque anteriormente esta disciplina era desarrollada por profesionales de la computación, la tipología de sus perfiles se ha diversificado y, por tanto, la oferta formativo-académica también.
En este sentido, es cierto que desde poco tiempo atrás ya existen grados específicos enfocados a la Ciencia de Datos, así como máster de especialización con distintas aplicaciones (Smart Cities, análisis de datos, automatización de procesos… etc.). Es por esto que las universidades y otros actores dentro del mundo de la formación, han ido implementando sus grados, máster y cursos de especialización, así como el nuevo concepto americano de Bootcamp –metodología intensiva de estudio enfocada a adquirir conocimientos prácticos y específicos relacionados con el desarrollo de software– para la formación en este tipo de disciplina.
Por último, cabe destacar la inteligencia lógico-matemática, que aún no siendo imprescindible o al menos no para todas las etapas de implementación de un proceso de Data Science, es necesario apoyarse en ella.
María García-Maroto García
Técnica de investigación social de la Fundación iS+D
Rosalía Santamaría Muñoz
Experta en análisis de datos (Senior Data Scientist) e investigadora asociada de la Fundación iS+D
¿Necesitas aprender a programar con R?
Descubre el curso online:
- Introducción a Data Science: Programación Estadística con R"