Transformación y avances del análisis de datos

Autor Sergio A. Castañeda el 12/5/19 12:59 PM

Transformación y avances del análisis de datos

Hace más de 50 años el gran estadístico estadounidense John Tukey proponía un cambio en el manejo de la estadística académica. En lo que él consideró en dicho momento, “el futuro del análisis de datos” estaría involucrada una ciencia aún no reconocida la cual tendría como objetivo el estudio y manejo de estos: ciencia de datos (Donoho, 2017).

Tukey no estaba para nada equivocado, cuando había previsto la manera en la que serían abordados los datos décadas después. Actualmente, la ciencia de datos combina un conjunto amplio de técnicas provenientes de disciplinas tales como ciencias de la computación, matemáticas, estadística, econometría, entre otras. Desde ese entonces la evolución en estas disciplinas ha permitido realizar avances a pasos agigantados en lo que respecta al análisis de datos. (https://amstat.tandfonline.com/doi/full/10.1080/10618600.2017.1384734#.XW1YyihKjIV)

Con el aumento en la cantidad y complejidad de los datos, se han desarrollado paralelamente estrategias que permiten procesarlos y utilizarlos para la obtención de información. De acuerdo con lo planteado anteriormente, es tal la importancia de la transformación y evolución del análisis de datos que es evidenciable un fenómeno relativamente reciente y progresivamente en crecimiento: la aparición de programas académicos específicamente dirigidos a la ciencia de datos. Por ejemplo, universidades como el MIT han implementado inversiones económicas bastante importantes con el objetivo de extender y mejorar la formación en este campo. (https://www.technologyreview.com/artificial-intelligence/)

Es claro que los datos masivos sin procesar tienen poco valor por sí mismos, siendo este valor adquirido luego de pasar por un procesamiento completo y apropiado. Este valor está directamente relacionado con la información que se obtiene de estos en busca del mejoramiento de procesos, y de contribuir a la toma de decisiones (Wiley, 2013).

Para tal fin, se consideran al menos 6 pasos que constituyen el Ciclo de Vida de la Ciencia de Datos:

  • Explorar
  • Preparar Datos
  • Planificar Modelo
  • Elaborar Modelo
  • Comunicar
  • Utilizar

Este ciclo se puede agrupar en dos grandes momentos: gestión de los datos y analítica de los datos. La gestión de los datos incluye todo lo relacionado con la adquisición, almacenamiento, limpieza, depuración y preparación de los datos. La analítica de datos se refiere al proceso inferencial a partir de técnicas de modelamiento y análisis.

Teniendo claro lo anterior, podemos establecer que en la analítica de datos existen distintas metodologías para obtener información a partir de los mismos, muchas de las cuales han tenido avances y adaptaciones que han optimizado y diversificado su utilización. Por ejemplo, la mayoría de las técnicas usadas hoy en día para el análisis de datos nacieron en los programas espaciales que buscaban manejar la gran cantidad de datos obtenidos por satélites y que se pueden evidenciar en el procesamiento de imágenes médicas. (También puede leer: Herramientas comunes y barreras en la implementación de Big Data)

Una de las técnicas que ha mostrado un gran avance en lo que respecta a robustez y diversificación en los últimos años han sido las técnicas de aprendizaje automático (i.e., del inglés ‘machine learning’). Este grupo de técnicas, que constituyen una subespecialidad de la Inteligencia Artificial, facilitan el diseño y desarrollo de algoritmos que permiten inferir comportamientos basados en datos. Son de gran utilidad para casos en los que buscamos predecir un evento en estudio o procesar información basada en texto o en voz.

El aprendizaje automático de hoy en día no es el mismo que se realizaba hace unos años gracias al avance en las ciencias de la computación. A pesar de que muchos modelos matemáticos existían tiempo atrás, su implementación con volúmenes enormes de datos ha sido posible recientemente. La evolución de las técnicas de aprendizaje automático ha generado que hoy en día para el 90% de las empresas financieras del mundo, su implementación sea una necesidad fundamental e indispensable.

La amplia diversificación que ha tenido esta metodología en los campos esenciales como el de la salud y la investigación es evidente, de hecho, la transformación de los últimos años en el aprendizaje automático ha permitido el avance en diferentes áreas como el procesamiento de imágenes, salud pública y epidemiología, genética, entre otros, que claramente representan un panorama favorable para este sector en particular y en lo que a calidad de vida se refiere.  (También puede leer: Herramientas comunes y barreras en la implementación de Big Data) 

Uno de los avances que ha adquirido especial atención, en lo que tiene que ver con el aprendizaje automático, es el denominado aprendizaje profundo (deep learning), en el cual son las máquinas quienes son capaces de aprender de manera independiente y adaptarse a los cambios de su entorno. Realizando una analogía simple, el aprendizaje profundo no es más que intentar imitar el modo de funcionamiento del sistema nervioso central y trasladar hasta las máquinas el mecanismo del comportamiento de la mente humana.

La aplicabilidad y diversificación del aprendizaje profundo en salud es también algo que ha adquirido gran relevancia recientemente. En Copenhague, Dinamarca, por ejemplo, los servicios de emergencia están implementando un asistente de voz llamado Corti. Su objetivo es analizar las conversaciones entre profesionales y los pacientes extrayendo todos los datos que sean posibles. Otro ejemplo, en este caso relacionado con la lucha contra el cáncer, fue el sistema RadIO lanzado por el Departamento TI del Gobierno de Moscú. Se trata de un código fuente abierta para detección de cáncer. Esta aplicación implementa el aprendizaje profundo para identificar signos de cáncer de pulmón en imágenes diagnósticas tales como radiografías.

La transformación y avance de las nuevas tecnologías y metodologías para en análisis de datos provenientes de distintos tipos de fuentes es un factor que genera un indudable impacto en diversos ámbitos de la sociedad. Cada vez más individuos de todas las disciplinas acceden y aprovechan todas las ventajas que ofrecen estas herramientas, motivo por el cual la diversificación de las diferentes técnicas y estrategias es una de las principales razones de su amplio espectro de aplicación. Sin embargo, es indispensable que se realice un manejo concienzudo y teóricamente bien soportado de estas herramientas con el objetivo de obtener resultados apropiados y útiles para la toma de decisiones.

Lo invitamos a descargar nuestra infografía sobre el Ciclo de vida del análisis de datos, dónde podrá identificar las actividades necesarias dentro de este modelo.

 

Sergio Andrés Castañeda Garzón. BSc. Esp.

Coordinador de Operaciones. CAIMED

 

Ciclo de vida del análisis de datos - Infografía

 

Referencias

- David Donoho (2017) 50 Years of Data Science, Journal of Computational and Graphical Statistics, 26:4, 745-766, DOI: 1080/10618600.2017.1384734
- Schmarzo, Big Data: Understanding How Data Powers Big Business. Wiley, 2013
- Gandomi and M. Haider, “Beyond the hype: Big Data concepts, methods, and analytics,” Int. J. Inf. Manag., vol. 35, no. 2, pp. 137–144, Abril 2015.

Etiquetas: Tecnologia, Big Data, Análisis de datos

Suscríbase al Blog

Lists by Topic

see all