Xiomara Blanco
El análisis predictivo se define como el proceso de utilizar el análisis de datos para realizar predicciones basadas en esa información.
Las matemáticas tienen enorme influencia en nuestras acciones cotidianas. Aunque a veces puede parecer lo contrario (y las vemos ‘alejadas’ de numerosas situaciones ‘terrenales’) están mucho más presentes de lo imaginamos. Asistimos a la era de los algoritmos. En plena revolución digital, vamos dejando un rastro continuo en Internet… Esas acciones se traducen también en datos, que -entre otras ventajas- sirven para elaborar modelos matemáticos de predicción.
¿Y en qué consisten? El análisis predictivo se define como el proceso de utilizar el análisis de datos para realizar predicciones basadas en esa información. En este proceso se hace uso de los datos junto a técnicas analíticas, estadísticas y de aprendizaje automático. La finalidad es crear un modelo predictivo para predecir eventos futuros.
En estos días, una palabra se ha instalado en boca de prácticamente toda la Humanidad: coronavirus. Hoy está generando un impacto mundial de consecuencias colosales. Desde el punto de vista de las matemáticas (y, en ese contexto, del Big Data, el análisis de datos y los algoritmos) estas disciplinas pueden ayudar a predecir la explosión del (técnicamente denominado) COVID-19.
Crisis sanitaria, económica y social
A finales de 2019 algunos casos de neumonía surgieron en Wuhan, capital de la provincia de Hubei, en China. Posteriormente, ese tipo de virus fue nombrado como nuevo ‘coronavirus 2019’ (actualmente SARS-Cov-2). Ya ha causado una de las mayores crisis sanitarias de los últimos años, con consecuencias no solo sanitarias, sino también económicas y sociales.
El SARS-CoV-2 es un coronavirus, una extensa familia de virus que afectan al ser humano y varias especies animales. Se tenían identificados seis: cuatro que causan el resfriado común, el SARS y el MERS. El nuevo coronavirus afecta a las vías respiratorias, puede ser leve o presentar síntomas graves, como insuficiencia respiratoria aguda y neumonías.
La enfermedad se denomina COVID-19. Se extiende ya a casi 90 países y afecta a más de 100.000 personas, según las últimas cifras publicadas por el diario EL PAÍS. La Organización Mundial de la Salud (OMS) ha decidido subir el nivel de riesgo de expansión e impacto global a “muy alto”. Debido a la expansión del virus, cada persona llega a contagiar a otras 2,68, un índice alto.
“¿Estamos frente a una emergencia global que necesita nuevos enfoques?”. Así titula su editorial el European Review for Medical and Pharmacological Sciences. Existe una necesidad urgente de desarrollar más actividades de salud pública para comprender mejor la epidemiología del nuevo virus y caracterizar el impacto en la salud pública.
En 2003, con el brote de SARS, se llevaron a cabo estrategias para contener la infección. En la actualidad el enfoque está siendo el mismo, pero parecen no ser efectivas las medidas. ¿Nuevo virus, la misma estrategia? En 17 años, el enfoque no ha cambiado, a pesar de la existencia de nuevas herramientas para el control de enfermedades infecciosas.
La mejor estrategia
Prevenir sigue siendo la mejor estrategia. Los modelos de pronóstico de la propagación local y global de infecciones basadas en aprendizaje automático (ML), la Inteligencia Artificial (IA) y la Visualización Analítica (Visual Analytics), pueden ayudar a comprender la evolución del brote, particularmente en el caso del COVID-19.
Asimismo, enfoques basados en el aprendizaje automático pueden servir para aplicar nuevas medidas correctivas e intentar detener la tendencia de propagación. Un artículo publicado en la revista IJIMAI de UNIR propone un modelo predictivo de pronóstico de datos para el coronavirus. En esta iniciativa participan investigadores de China, India y España.
Se trata de una metodología para construir modelos más precisos, con pocos datos. El conjunto de datos pasa por procesos de optimización, para posteriormente aplicar los modelos a los candidatos.
Los datos utilizados se extraen del archivo de las autoridades sanitarias chinas. Abarcan desde el 21 de enero hasta el 3 de febrero del 2020. Los modelos se aplican sobre una serie temporal de 14 casos para pronosticar en 6 días, es un escenario desafiante para la minería de datos por ser un conjunto pequeño.
Se ponen a prueba tres grupos de algoritmos: clásicos, modelos de aprendizaje automático y redes neuronales polinómicas para el pronóstico de series de tiempo. Para evaluar el rendimiento se utiliza el Root-mean-square-error (RMSE). Los algoritmos basados en redes neuronales polinómicas con retroalimentación correctiva tienen el mejor rendimiento. El RMSE es el más bajo.
El mejor escenario se encuentra con la combinación de sospechosos + confirmados + críticos. Intuitivamente, esta es una secuencia natural que se asemeja al ciclo de vida de un paciente infectado. Aunque el experimento demuestra la posibilidad de elegir un modelo de pronóstico adecuado, es una tarea dinámica en sí misma.
El resultado es muy sensible a los parámetros, al modelo, y sobre todo al conjunto de datos de entrenamiento. Cualquier adición o modificación en los datos de entrenamiento influye en el pronóstico.
Modelo suavizado
Otro ejemplo de aplicaciones de ML es un modelo suavizado exponencial simple que pronostica de manera iterativa los valores futuros de una serie temporal de valores regulares, a partir de promedios ponderados de eventos pasados.
Investigadores de Nápoles lo implementan en tableau, herramienta que ofrece técnicas de visualización para explorar y analizar bases de datos. Los datos utilizados para este modelo fueron los suministrados por fuentes oficiales sobre contagios y muertes diarias en China, del 23 de enero hasta el 2 de febrero.
A pesar de la cantidad reducida de datos, el modelo es capaz de predecir el número de contagios y el número de muertes en China, del 3 al 19 de febrero. Como ejemplo de predicción se puede ver que el 17 de febrero se pronostican 62.814 casos y 1.565 muertes; el dato real fue de 72.436 y 1.868, respectivamente.
La firma canadiense de IA BlueDot advirtió sobre los nuevos casos de coronavirus 9 días antes de ser publicados por la OMS. La compañía pudo hacer esto al aprovechar diferentes fuentes de información.
La firma canadiense de IA BlueDot advirtió sobre los nuevos casos de coronavirus 9 días antes de ser publicados por la OMS. La compañía pudo hacer esto al aprovechar diferentes fuentes de información y aplicar un modelo basado en redes neuronales que se organizan en capas. Los datos se evalúan en cada capa para ser descartados, o pasar a la siguiente capa. Este algoritmo mejora a medida que procesa más datos, reúne noticias en docenas de idiomas, informes de redes de seguimiento de enfermedades y datos de aerolíneas. Con estas fuentes de datos se obtienen mejores resultados, que solo teniendo como entrada los datos de salud pública.
La IA, clave en la identificación de enfermedades
De esta revisión podemos concluir que la IA puede ayudar en la identificación y propagación de enfermedades, con el fin de actuar a tiempo. Pero la precisión de los sistemas de IA depende de la calidad de los datos.
No siempre podemos obtener información oficial. Datos no estructurados en forma de noticias pueden aprovecharse para obtener más datos. Sin embargo, hay que ser cuidadoso antes de enviarlos a los modelos. Y, como dice Kamran Khan, “donde los humanos pueden distraerse fácilmente, podemos tener una máquina vigilando todo lo que está sucediendo”.
La IA puede ayudar en la identificación y propagación de enfermedades, con el fin de actuar a tiempo. Pero la precisión de los sistemas de IA depende de la calidad de los datos.
Como bien queda reflejado en el contenido académico del Máster Universitario en Visual Analytics & Big Data de UNIR, el tratamiento y análisis de datos adquiere cada vez mayor importancia y se torna vital en prácticamente en todos los campos. En el de la salud ya es esencial, tal y como refleja este artículo.
Los graduados de la titulación de UNIR podrán manejar a la perfección las tres técnicas clave que se necesitan para saber desempeñarse en este ámbito: captura y almacenamiento de información, minería de datos para el análisis inteligente y visualización de la información.
El Máster profundiza en las tecnologías más vanguardistas de la Ciencia de Datos y Machine Learning para preparar en uno de los perfiles profesionales más demandados del presente, y con mayores perspectivas de cara al futuro. Además, otras titulaciones de esta Universidad, como el Grado en Matemática Computacional, el Máster online en Inteligencia artificial, o el Máster Universitario en Ingeniería Matemática y Computación, aportan las herramientas y conocimientos necesarios para destacar en los campos referidos.
- Máster Universitario en Big Data & Visual Analytics