Open Source And Security Services

Open Source And Security Services

COVID-19: La importancia del gobierno del dato

Tiempo de lectura: 5 minutos

Ayer, dando un paseo por LinkedIn, llegué a un post en el que se debatía sobre el COVID-19 y su impacto. Es cierto que son tiempos convulsos a nivel mundial, en los que la afectación del virus a nivel sanitario, social y económico está siendo enorme.

Hay múltiples recursos en los que informarse y vivimos un bombardeo de noticias que, en ocasiones, no nos permite ser críticos sobre la calidad de la información que recibimos. Como ya sabréis si nos seguís, en Open3s hemos desarrollado una web para que podáis seguir la evolución del COVID-19. En ella, aparecen indicadores fácilmente comprensibles, calculados en base a los datos que publica de manera diaria el Ministerio de Sanidad.

Pensando en la veracidad de distintos indicadores, en estos tiempos en que se instaura una especie de ‘conspiranoia‘ sobre si un país está actuando mejor o peor que otros en base a números tales como contagios, ratio de fallecimiento, ingresos en UCI, curados, etc…, nos planteamos si el problema quizás sea que no hay una definición de calidad estandarizada de indicadores a nivel global. Extrapolándolo a nuestro mundo tecnológico, a la monitorización y al análisis, por todos es sabido que para poder gestionar de manera correcta un proyecto, medir la salud del negocio, o el estado de la infraestructura, es primordial la correcta definición de indicadores.

COVID-19: La importancia del Gobierno del Dato

Para poder medir, extraer conclusiones y comparar, es necesario saber qué hay detrás de los indicadores y definir éstos de manera correcta.

 

Cómo se calcula el COVID-19 por país

En cuanto a la crisis del COVID-19, distintos países están publicando sus métricas, pero… para poder comparar cómo está siendo la afectación en cada uno de estos, debería haber indicadores calculados con la misma lógica, independientemente del país.  Habría que plantearse cómo está calculando cada país sus números. Para ello, hemos intentado recabar información sobre este proceso de obtención del dato en distintos países.

 

China

En el caso de China, cabe destacar algunos datos referentes a la forma de obtener métricas. Al ser el primero que contrajo el virus, fue una referencia para el resto de países en cuanto a la evolución de la situación. Por ello, se convierte la transparencia en un factor fundamental a la hora de exponer los datos.

En el ultimo mes, se publicó en varios periódicos que el número de casos de COVID-19 reportado por China era erróneo debido a las siguientes cuestiones:

  • Los pacientes con síntomas eran enviados a casa sin ser realizarles tests.
  • Aquellas personas infectadas pero asintomáticas no eran incluidas en el recuento oficial de casos confirmados.
  • Aquellas personas que murieron antes de ser testeadas no se registraron en el recuento oficial.

En referencia al número de muertes no registradas, se confirmaron hace 10 días en los medios 1.290 muertes adicionales en la ciudad de Wuhan, lo que equivaldría a un 50% más de los reconocidos hasta el momento.

 

Alemania

En Alemania, las muertes de pacientes con alguna condición subyacente de salud no eran registradas como muertes por coronavirus. A dichas personas, no se les realizó el test por lo que, no se sabe cuantas pudieron ser causadas por el virus. Alemania podría estar teniendo un número alto de contagios porque está poniendo medios a la hora de detectar el virus, pero podría estar registrando menos fallecidos de los que realmente tiene.

 

Estados Unidos

En Estados Unidos no se realizan tests a aquellas personas asintomáticas, incluyendo en este grupo al personal medico que trata con pacientes del virus cada día. En cuanto al numero de muertes, la CDC (Centers for Disease Control and Prevention) anotó que las muertes causadas por el COVID-19 pueden ser erróneamente clasificadas como muertes por neumonía en ausencia de resultados positivos del test.

Por otra parte, como sucedía en China, en el registro oficial solo se incluían los nuevos casos y muertes que hubieran sido previamente confirmadas por un test en laboratorio. Hace pocos días, la CDC anunció que empezarían a incluirse aquellos posibles casos y muertes de COVID-19 de ahora en adelante.

Contando, además, con que en la mayoría de países no se contabilizan por COVID-19 aquellas personas que hayan fallecido fuera de un hospital. Otros países han llegado incluso a contabilizar fallecidos como curados por considerar que ya no son contagiosos.

 

La importancia del gobierno del dato

Tras un análisis exhaustivo, no hemos podido dar con una clave común entre distintos países a la hora de contabilizar los datos del COVID-19.

Para hacer un seguimiento de la situación, conocer realmente la magnitud y poder ayudarse entre distintos países, se debería estar aplicando un gobierno generalizado del dato a nivel global. En otras palabras, definir de manera estandarizada distintos puntos/criterios desde:

  • Responsabilidad del dato: En primer lugar, y más importante, quién es el responsable del gobierno del dato; quién va a dirigir los datos, a decidir cómo se obtienen, gestionan, mejoran, etc…
  • Origen del dato: Definir una política generalizada acerca de dónde viene es importante de cara a estandarizar el proceso.
  • Definición de un modelo de datos: ¿Qué datos son necesarios para evaluar y medir la situación actual?
  • Factores condicionantes y procesamiento del dato: Esto es de suma importancia, porque permite calcular globalmente los indicadores. Es decir, ¿qué se tendrá en cuenta para contabilizar contagios? ¿Y fallecimientos?
  • Mejora del dato: Definir mecanismos de mejora y cambios sobre los datos. Hay que ser conscientes de que un cambio en la manera de calcular, puede hacer que no se pueda dar seguimiento a los indicadores y no se puedan analizar sus tendencias. De hecho nos ha pasado recientemente en España, que pasamos de calcular contagios en base a PCRs positivas a añadir también positivos en tests rápidos, lo que cambió el indicador drásticamente y días después se tuvo que volver al modelo de cálculo anterior. En todo caso, de aplicar un cambio, éste debería ser generalizado en todos los países.
  • Accesibilidad al dato: Este es un gran problema que hemos encontrado. Así como no hay un modelo estándar global de cálculo, tampoco hay un repositorio común donde obtener estos datos. Cada país cuenta con sus propias fuentes donde se puede consultar, sin seguir mismos criterios, ni formatos. Además, al menos en España, no hemos encontrado una manera automatizada de obtener el dato.
  • Integridad del dato: Así mismo, en este gobierno del dato, se debería estar analizando y garantizando su integridad. ¿Cumple el dato con el cometido y la necesidad para los cuales se está generando? ¿Es un dato de calidad?

 

Aplicando este gobierno del dato, todos los países estarían midiendo por igual y se podrían comparar de manera fehaciente. Desde hace algún tiempo, los datos son la base de la toma de decisiones, por lo que, independientemente del caso, hay que darles la importancia que tienen, cuidarlos y trabajarlos para que aporten el valor que realmente tienen.

En Open3s llevamos desde 2009 trabajando con datos, ayudando a nuestros clientes a definir y ejecutar el Plan de Gobierno del Dato, y sabemos la importancia que tiene. Si necesitas ayuda con el Gobierno del Dato, no dudes en contactarnos.

 

Una vez más, nos damos cuenta de la importancia del dato.

 

Autoras: Nerea Sánchez Fernández y Sara Estévez Manteiga, Área Big Data

Los Hackers no descansan ni con el COVID-19

No es algo nuevo, las crisis generan nuevas oportunidades de negocio. El ransomware no es un negocio nuevo, pero los ciberdelincuentes están aprovechando la crisis del COVID-19 para tratar de llegar a más víctimas.

A raíz de la crisis, algunas mafias prometieron no atacar al sector sanitario (puede verse detalle en este enlace). Lejos de cumplirse dicha promesa, se han identificado múltiples casos de intento de extorsión, campañas de ransomware y ataques de phishing a empresas del sector sanitario. También se han detectado campañas que utilizan temáticas relacionadas con el COVID-19 para tener mayor probabilidad de éxito en el ataque.

Los delincuentes se mueven principalmente por motivos económicos y, desgraciadamente, los atacantes saben que las organizaciones sanitarias se encuentran en una situación mucho más vulnerable de lo habitual, lo cual incrementa la probabilidad de que se ceda a extorsiones.

Si quieres más información para evitar que tu empresa sea la próxima víctima de los ciberdelincuentes, descárgate nuestra Guía Rápida, donde encontrarás los consejos y las soluciones para estar protegido:

DESCARGAR GUÍA RÁPIDA

Finalmente, a modo informativo, os adjuntamos algunos ejemplos de ataques que se están produciendo relacionados con la temática del COVID-19:

Los ciberdelincuentes utilizan correos electrónicos con información sobre el COVID-19 para realizar estafas. Los ciberdelincuentes utilizan correos electrónicos con información sobre el COVID-19 para realizar estafas.

Los ciberdelincuentes utilizan correos electrónicos con información sobre el COVID-19 para realizar estafas.Los ciberdelincuentes utilizan correos electrónicos con información sobre el COVID-19 para realizar estafas.

Los ciberdelincuentes utilizan correos electrónicos con información sobre el COVID-19 para realizar estafas.

COVID-19: Análisis de la futura situación (Parte II)

Tiempo de lectura: 5 minutos

Como comentábamos en el anterior artículo, en Open3S hemos querido realizar un par de ejercicios para analizar la evolución del COVID-19. En el anterior, explicábamos el crecimiento de los nuevos casos y fallecimientos basándonos en el modelo de crecimiento que presentó China. En este, queremos pasar a la aplicación de técnicas de Machine Learning para su predicción futura.

Además de analizar la evolución de los nuevos casos, expondremos también el problema de la escasez de camas de UCI que está afrontando España.

Os dejamos a continuación las conclusiones del segundo ejercicio.

Aplicando Técnicas de Machine Learning

Para realizar predicciones de series cronológicas de datos, es decir, datos que varían con el paso del tiempo, se utilizan los algoritmos de Forecasting. Para entender un poco más el funcionamiento de estos algoritmos, son los usados por ejemplo para las predicciones de las Bolsa de Valores. Dichos algoritmos, realizan predicciones del comportamiento futuro basándose en los datos pasados y presentes. De esta forma se puede predecir el valor futuro de la variable que se desee, siempre y cuando se posean histórico de esa variable.

En relación al análisis realizado a continuación, es importante tener en cuenta que el histórico del COVID-19 en el caso de España no alcanza el mes. Por ello, las predicciones realizadas pueden darnos una intuición de cómo será el comportamiento de las variables analizadas pero no son los valores futuros exactos.

Predicción Nuevos Casos COVID-19

España

Observando el comportamiento de la gráfica en los tres últimos días, parece que nos acercamos al famoso ‘pico’. Como tercer día consecutivo ha disminuido el número de nuevos casos a nivel nacional, lo cual son buenas noticias, pero sin olvidarnos de que a nivel autonómico cada Comunidad lleva un ritmo diferente con respecto al virus. En la gráfica, la línea verde pertenece a la predicción y las barras azules al número de nuevos casos en España por día.

Por lo que, a nivel nacional, parece que la situación comienza a estabilizarse.

Predicción de nuevos casos de COVID-19 en España

Mundialmente

A nivel mundial la curva presenta un crecimiento más irregular, ya que aquí se consideran todos los países del mundo y cada uno lleva un ritmo diferente en cuanto a la evolución del coronavirus.

Por otra parte, en países como EE.UU. y Reino Unido el virus ha llegado más recientemente. Esto quiere decir que, si la evolución en aquellos países en los que el COVID-19 ha impactado más tarde es similar a la de Italia y España, en breves días el aumento de casos crecerá considerablemente.

Predicción de nuevos casos de COVID-19 en el mundo

Predicción Total Camas UCI ocupadas por pacientes de COVID-19

En este apartado se lleva a cabo un análisis de cual será el número de camas de UCI ocupadas en los próximos 10 días por pacientes de COVID-19. El crecimiento observado hasta el momento es bastante lineal. Este dato es preocupante ya que, a este paso, en menos de medio mes no habría camas suficientes.

Predicción del total de ocupación de camas UCI en España

En la gráfica se presenta un análisis de cómo es la situación a nivel España, donde la línea roja nos indica el número total de Camas UCI (sin tener en cuenta las nuevas añadidas en algunas CC.AA.), la línea verde es la que indica la predicción de cómo evolucionará la situación. En este caso, se puede ver que dicha predicción es optimista ya que, el crecimiento actual (barras naranjas) es mas exponencial de lo que la línea predictiva muestra. Esto quiere decir, que se llegará al límite antes de lo previsto si el crecimiento sigue este ritmo.

Pero para realmente visualizar el impacto del coronavirus se debe realizar un análisis nivel autonómico, que es donde se encontraran las situaciones más preocupantes.

A continuación se presenta la situación de las Comunidades Autónomas en estados mas críticos con respecto al número de camas de UCI.

Madrid

En Madrid, la Comunidad Autónoma con la situación mas crítica en España, la línea de predicción pasa de lineal a un comportamiento casi exponencial al inicio. Este cambio, marca totalmente la diferencia entre ambas situaciones. En esta Comunidad Autónoma, se llevó a cabo un aumento de camas de UCI que pasó de 1.100 a 1.500. Aun así, como se observa en la gráfica, será necesario otro aumento en el número de camas ya que en 10 días (período predecido por la línea gris) se alcanzaría este nuevo límite.

También se puede observar que en los 4 últimos días, la línea de crecimiento con respecto a los anteriores (14 – 22 de Marzo) presenta una inclinación menor, lo que indica que puede que la situación esté poco a poco estabilizándose.

Predicción de ocupación de camas UCI en Madrid

A pesar de este indicio de estabilización, se observa que en menos de 10 días se alcanzaría otra vez este nuevo número de camas tras el aumento que se realizó.

Cataluña

El aumento en la ocupación de camas de UCI en los últimos días en Cataluña es muy grave. Se habla de que se necesitan alrededor del triple de las camas de UCI existentes hasta ahora. Esto se puede ver reflejado en la gráfica, donde las 640 camas de UCI iniciales han pasado a ser 1.406. De todas formas, si el crecimiento en la ocupación de camas sigue igual de precipitado como lo hace desde el 24 de Marzo, en poco tiempo se alcanzaría el nuevo límite.

Sorprende esta situación en Cataluña, ya que es la Comunidad Autónoma con mas camas por habitantes en España.

Predicción de ocupación de camas UCI en Cataluña

País Vasco

La situación que nos encontramos aquí es más segura que las dos descritas anteriormente. El aumento sigue un crecimiento lineal. En este caso, cabe tener en cuenta que es también una de las comunidades autónomas con mayor número de camas por habitante. En este caso tendría que llegar a alrededor de 200 camas ocupadas para considerarse como muy crítica la situación.

El problema en el País Vasco está mas focalizado a nivel provincial, debido a que los contagios se han producido de forma masiva en localidades de Álava. Dato que no vemos del todo reflejado a nivel autonómico debido a que es en las grandes ciudades de la Comunidad donde se encuentra el mayor número de camas.

Predicción de ocupación de camas UCI en el País Vasco

 

Como se muestra en el artículo, poco a poco la situación va adquiriendo cierta estabilidad. Esperamos que la situación evolucione prósperamente, tanto en España como en el resto de países del mundo que la sufren.

Autora: Sara Estévez Manteiga, Área Big Data

COVID-19: Análisis de la futura situación (Parte I)

Tiempo de lectura: 4 minutos

Dada la situación que estamos viviendo actualmente, en Open3s decidimos crear un dashboard que permitiese a la ciudadanía consultar de manera sencilla el estado actual frente a la pandemia del COVID-19.

Teniendo tantos datos, no sólo de España sino a nivel mundial, hemos querido realizar dos ejercicios para analizar la evolución futura de la situación. Por un lado, hemos aplicado el modelo de crecimiento que hubo en China a los números de casos de España para ver a futuro cómo sería aquí la situación de seguir su modelo; y por otro lado, hemos aplicado técnicas de Machine Learning a los datos de contagios para obtener una predicción a futuro.

Hoy queremos compartir con vosotros las conclusiones del primer ejercicio.

Aplicando el Modelo de Crecimiento de China

Para llevar a cabo la aplicación del modelo de China a los datos de España, éste se implementa a partir del paciente infectado número 600. Esto es debido a que los datos de los primeros fines de semana de expansión del virus en España no se publicaban.

En los próximos apartados se presenta un análisis de los resultados obtenidos tanto para los futuros nuevos casos como para las futuras defunciones.

Nuevos Casos

En la gráfica, las barras naranjas hacen referencia a los Datos reales de nuevos casos de COVID-19 en España durante los 10 primeros días (del 9 al 19 de Marzo), las barras verdes son los Nuevos Casos futuros en España basándonos en el crecimiento de casos en China, representado por la línea azul.

Previsión de Nuevos Casos futuros de COVID-19 en España basándonos en el crecimiento de casos en China.

Como se puede observar en la gráfica, el crecimiento que presentó China y el que, hasta el momento, presentaba España son muy similares. Pero para un análisis mas exacto, es necesario hablar de valores concretos.

En la tabla a continuación aparecen reflejados los datos reales de España y los datos de las predicciones que se realizaban de nuevos pacientes infectados por el COVID-19.

Fecha Casos Reales Casos Estimados
28/03/2020 50817
27/03/2020 47873
26/03/2020 56188 44323
25/03/2020 47610 41166
24/03/2020 39673 37137
23/03/2020 33089 33388
22/03/2020 28572 28990

 

Como se puede observar, hasta el 23 de Marzo las estimaciones obtenidas siguiendo el modelo de China son muy cercanas a la situación que España presenta en la realidad. La diferencia entre valores no es superior a 300. Pero a partir del día 24 de Marzo, la diferencia comienza a ser notable. Lo que se esperaba siguiendo el modelo aplicado eran 37,137 nuevos casos, pero la realidad es que se registraron 39,673. La diferencia sigue aumentando en los próximos días, y actualmente tenemos 12000 casos más de los que deberíamos si siguiésemos el modelo de China, por lo que estamos frente a una situación mucho mas crítica que la que China presentó.

Defunciones

En este caso, las barras azules de la grafica representan los casos reales de Fallecimientos en España, las verdes representan los Fallecimientos futuros basándose en el modelo de fallecimientos en China, representados por la línea roja.

Previsión de Fallecimientos futuros por COVID-19 en España basándose en el modelo de fallecimientos en China.

Sabiendo interpretar lo observado en la gráfica, está claro que el número de fallecimientos en China fue mucho menor que el que presenta España. Esto quiere decir que, aplicando la evolución del número de fallecidos en China a los datos de España, obtendríamos resultados realmente preocupantes.

Para evaluar como de acertadas son las estimaciones obtenidas, se compararán esos datos con los reales obtenidos en los últimos días.

Fallecimientos Reales Fallecimientos estimados
28/03/2020 2564
27/03/2020 2292
26/03/2020 4089 2047
25/03/2020 3434 1823
24/03/2020 2696 1606
23/03/2020 2182 1422
22/03/2020 1720 1238
21/03/2020 1326 1072
20/03/2020 1002 910

Como se puede observar, los datos estimados son considerablemente mas optimistas que la realidad. El primer día de estimación (20 de Marzo), el resultado real ya superaba en casi 100 a los fallecidos que deberíamos tener de seguir el modelo chino. Por lo tanto, la línea de crecimiento de fallecidos será mucho mas pronunciada de lo que fue en China, encontrándonos a día de hoy con el doble de fallecidos que si nuestro modelo de crecimiento hubiera sido similar al de China.

Como conclusión en este apartado, se puede afirmar que la situación futura de España en cuanto al número de fallecidos será mucho más crítica que la que China vivió.

Esperamos que la situación mejore y podamos tener una evolución favorable como la que está experimentando China en estos momentos. En el próximo artículo explicaremos cómo hemos analizado la situación futura aplicando Machine Learning y qué limitaciones hemos experimentado.

Autora: Sara Estévez Manteiga, Área Big Data

Mitos sobre el Machine Learning

Tiempo de lectura: 4 minutos.

El Aprendizaje Automático, del inglés machine learning, es una rama de la Inteligencia Artificial. Su principal objetivo es desarrollar técnicas que permitan a las computadoras aprender. Se centra en el desarrollo de programas informáticos con la capacidad de cambiar cuando se exponen a nuevos datos. En otras palabras, detectar patrones en los datos estudiados y que las acciones del programa se ajusten en consecuencia.

Algoritmos

Dentro del Machine Learning, los algoritmos existentes se dividen en dos grandes grupos. Por una parte están los Supervisados, del inglés Supervised Learning, que se dividen en algoritmos de clasificación y de regresión. Por otra parte tenemos los No Supervisados, del inglés Unsupervised Learning, donde encontramos algoritmos de clustering y de reducción de la dimensionalidad. Dependiendo de los datos que poseamos, terminaremos usando un algoritmo u otro dentro de esos dos grandes grupos.

En el Supervised Learning, los datos de entrada son inicialmente de entrenamiento y están etiquetados. Estos datos son proporcionados al algoritmo, el cual, los procesa y extrae un modelo. Este modelo podrá etiquetar los nuevos datos que lleguen al sistema. Un ejemplo sería el correo spam. Cada vez que clasificamos un correo recibido como spam, el algoritmo mejora su precisión para catalogarlo automáticamente como tal. Así, el algoritmo llega a tener la suficiente confianza para clasificar los correos sin necesidad de consultar al usuario.

En el Supervised Learning, los datos de entrada son inicialmente de entrenamiento y etiquetados. El algoritmo los procesa y extrae un modelo que podrá etiquetar los nuevos datos que lleguen al sistema, mejorando su precisión.

En el Unsupervised Learning, los datos de entrada no tienen ninguna etiqueta, es el propio algoritmo el que debe extraer patrones para crear un modelo. De esta forma, es capaz de detectar anomalías o semejanzas que los datos posean. Un ejemplo serían las técnicas de marketing usadas en los supermercados para la colocación de los productos. Se estudian un número de cestas de la compra, como datos de entrada, y se construyen modelos de tendencias con un cierto nivel de confidencia.

En el Unsupervised Learning, los datos de entrada no tienen etiqueta y es el propio algoritmo el que debe extraer patrones para crear un modelo, detectando anomalías o semejanzas que los datos posean.

Mitos

Como ocurre con muchas nuevas tecnologías, el Machine Learning ha causado un efecto ‘fiebre del oro’ en muchas industrias. Hoy en día, se habla de tal cantidad de productos que “incorporan” el aprendizaje automático que el concepto está comenzando a perder su actual significado. Los mitos e ideas erróneos sobre el tema pueden volverse muy densos. Por ello, a continuación expondremos los más importantes para tener una idea más clara sobre el panorama actual.

“Inteligencia Artificial y Machine Learning son lo mismo

La diferencia entre estos dos conceptos es probablemente el punto más importante. Sin tener conocimientos en este campo, es normal que nunca te hayas planteado si realmente el Machine Learning y la Inteligencia Artificial hacen referencia a lo mismo. La Inteligencia Artificial es un campo de la informática. Está destinada al desarrollo de ordenadores capaces de hacer tareas normalmente realizadas por personas, más en concreto, tareas asociadas a personas actuando de forma inteligente. En cambio, el Machine Learning es un tipo de Inteligencia Artificial que le permite a un dispositivo acceder a datos de los que más tarde aprenderá.Machine Learning e Inteligencia Artificial no son lo mismo. El Machine Learning es un tipo de Inteligencia Artificial que le permite a un dispositivo acceder a datos de los que más tarde aprenderá.

“El modelo aprende por sí solo, así que no hay mucho que hacer”

Está muy generalizada la idea de que el Machine Learning mejora automáticamente con el tiempo, como si tuviera algún tipo de súperpoder. La realidad es que todavía está muy lejos de ser autónomo. El modelo encontrará relaciones, pero necesita direcciones y datos. En cuanto a su funcionamiento, el primer paso es entrenar el sistema con datos históricos. Más tarde utiliza lo aprendido para clasificar nuevas observaciones recibidas que nunca haya visto. Estas clasificaciones deben ser revisadas por un técnico, ya que pueden ser incorrectas y habría que modificar o re-entrenar el algoritmo.

Dentro de este mito es interesante mencionar la existencia del Aprendizaje por Refuerzo, del inglés Reinforcement Learning. Es actualmente la herramienta más cercana a ser autónoma. Lo que hace es; determina qué acciones debe escoger un agente de software en un entorno concreto con el fin de maximizar la recompensa.

“Funciona en cualquier situación”

¡No hay que confundirse! El Machine Learning no es una panacea, no se dispone de un ‘plugin de Machine Learning’ capaz de darle capacidad cognitiva a tecnologías ya existentes. El Machine Learning es usado solo si se poseen grandes conjuntos de datos. Primero se define el problema y se identifica una tecnología para resolverlo. Luego se entrena la herramienta con los datos adecuados y se verifica la validez de los resultados. Incluso los algoritmos más potentes del Machine Learning tienen que ser cuidadosamente revisados periódicamente para que no se salgan de su cometido. No tiene sentido gastar miles de euros en crear una solución personalizada cuando, en la mayoria de los casos, una persona puede realizar ese análisis de forma sencilla.

“Nunca falla”

Cada problema requiere una solución diferente, por lo que utilizar el algoritmo erróneo lleva al fracaso de toda la solución. Para elegir el algoritmo correcto, se necesita tener claro los datos que tienes y que es realmente lo que deseas que el algoritmo haga por ti.

Por otra parte, que el algoritmo muestre una precisión muy alta (p. ej. 99%), es una señal de que probablemente el modelo está sobreentrenado. ¿Esto que quiere decir? Que la predicción que hemos realizado se ajusta demasiado (over-fitting) a los datos con los que el modelo ha sido entrenado. Esto provocará un elevado margen de error cuando examinemos nuevas observaciones.

Conclusión

El Machine Learning ha abierto una nueva puerta a la imaginación, haciendo realidad muchas cosas impensables hace una década. Queda claro que es una herramienta muy potente, pero siempre y cuando se sepa cómo utilizar. El estudio previo de los datos que entrenaremos es fundamental, ya que en muchos casos a primera vista se puede descartar la viabilidad del proyecto. También es importante tener claro que los algoritmos de Machine Learning no harán milagros y que tampoco obtendremos siempre los resultados deseados.

Autora: Sara Estévez Manteiga, Área Big Data

COVID-19 en datos

Tiempo de lectura: 6 minutos

Actualización 13/03/2020: Ya hemos publicado la web de actualización diaria con los indicadores y métricas más relevantes del COVID-19 en España. Puedes acceder a través de este enlace.

La situación actual a nivel mundial asusta bastante. Constantemente estamos recibiendo noticias sobre la magnitud del coronavirus (bautizado posteriormente como COVID-19).

Lo cierto es que en el mundo en que vivimos, con acceso a tantísima información, hay veces que se hace difícil dar con un sitio concreto donde encontrar la información que necesitamos de manera directa y resumida. Día a día, en España, sabemos el estado de la recientemente declarada pandemia gracias a distintos informativos, pero cuando intentamos buscar información resumida, visualmente comprensible y actualizada, la tarea es ardua.

Dada esta situación, en Open3s se nos ha ocurrido que dotar de esta información al ciudadano, con distintas métricas sencillamente comprensibles, mostrando tendencias y evoluciones, sería muy útil para cualquier persona. Hemos decidido generar un dashboard en el que se pudieran consultar datos actualizados de la situación actual y su tendencia tanto a nivel global como en España. Es cierto que a nivel global existen algunos recursos en los que encontrar información sobre la situación actual, pero en España excepto por informes que se publican de manera diaria no hay un lugar donde acceder a estos indicadores.

A continuación hablaremos sobre el trabajo realizado, conclusiones extraídas, así como los retos que hemos enfrentado.

 

Retos

El reto más importante ha sido obtener los datos. Nos hemos encontrado con que, tras mucho investigar, no había ninguna fuente de datos en crudo lista para consumir con toda la información sobre el COVID-19 en España. Mundialmente sí hay algunas fuentes e incluso APIs para consulta bajo demanda, pero para el caso concreto de España y sus comunidades autónomas no.

Finalmente hemos recurrido al Ministerio de Sanidad, que publica de manera diaria un reporte de casos por Comunidad Autónoma, pero con el trabajo previo de convertir los datos de su informe a un dataset que indexar en la plataforma. En esos datos hemos echado en falta el número de recuperaciones por Comunidad, dato que sí está en otros reportes globales. Un dato interesante publicado por el Ministerio es la IA (incidencia cada 100.000 habitantes), lo cuál nos puede dar una idea de la magnitud de los contagios.

 

Datos del COVID-19 en España

Por lo tanto, finalmente contamos con los siguientes datos de manera diaria por Comunidad Autónoma:
• Número total de casos
• IA
• Ingresados en UCI
• Fallecidos

Hemos tenido que procesar los datos para obtener de cada día nuevos casos, nuevos fallecidos, y nuevos ingresados en UCI ya que los datos publicados son totalizados.

 

Conclusiones obtenidas

 

Casos totales

En primer lugar, en el día de hoy, nos encontramos con que la cifra total de detecciones de las últimas 24 horas en España va subiendo muy rápidamente, y si nos fijamos en la evolución por Comunidad Autónoma vemos que Madrid tiene un ritmo de propagación mucho más alto que el resto. El día 6 de Marzo es el punto de inflexión en Madrid a partir del cuál aumenta significativamente día a día, aunque el 11 de Marzo se observa un descenso de contagios que no continua en el tiempo.

En España contamos ya con 2.950 contagios, y si nos paramos a analizar la evolución vemos que desde el día 5 de Marzo estamos experimentando una subida muy acelerada. Sin embargo, el crecimiento (% de subida respecto al día anterior) ha descendido de un 95% a un 47% de ayer a hoy (pese a que la cifra de contagios sigue aumentando).

De un vistazo rápido se puede apreciar que casi la mitad de los contagios se sitúan en la Comunidad de Madrid (46%), siendo el País Vasco la segunda Comunidad Autónoma más afectada (11%).

 

Fallecimientos

El número diario de fallecidos también empieza a aumentar de manera rápida, y al igual que los contagios, en Madrid la cifra asciende muy por encima y más rápido que en el resto de comunidades autónomas, llegando a día de hoy a duplicarse respecto al día de ayer.

En España han fallecido ya 84 personas, viviendo desde el 5 de Marzo una subida muy acusada diariamente. El crecimiento indica que del día 5 al 6 de Marzo se produjo el mayor porcentaje, pasando de 5 a 16 fallecidos (más del triple en un solo día).

Los fallecimientos en Madrid suponen un 67% del total (cifra más elevada que el % de casos totales de Madrid respecto al resto de comunidades), seguido por el País Vasco, con un 13%. Llama la atención que los % de fallecidos no se corresponden necesariamente con los % de contagiados por Comunidad Autónoma.

 

Estado crítico

Son 190 las personas que se encuentran en estado crítico ingresadas en unidades de cuidados intensivos. Analizando el crecimiento vemos que este número sufrió una subida drástica respecto al día anterior el 9 de Marzo, pasando de 11 a 68 pacientes en estado crítico.

Si nos fijamos en las cifras por Comunidad Autónoma llegamos a la conclusión de que el 71% de los pacientes críticos se encuentran en Madrid, con cifras mucho más bajas en el resto de comunidades autónomas.

 

IA (Incidencia cada 100.000 habitantes)

Un dato interesante para medir la magnitud de los contagios es la IA, que mide la incidencia cada 100.000 habitantes. Ahora mismo esta cifra se sitúa de media en España en casi un 8%, subiendo desde el 1% en que se situaba el 5 de Marzo.

El análisis de esta cifra por Comunidad Autónoma refleja hallazgos sorprendentes, puesto que en lugar de posicionarse Madrid con la IA más alta, está en primer lugar La Rioja. Dado que Madrid tiene muchos contagios, pero una población muy grande, esa cifra está en torno a un 21%. La Rioja, región muy afectada por COVID-19, tiene una IA de casi un 65%.

 

Valor aportado

Creemos que con el ejercicio realizado podemos aportar a los ciudadanos una visión que previamente no tenían. Queremos facilitar la extracción de conclusiones y el acceso a información sintetizada para toda la población de manera que puedan estar informados sin tener que bucear entre las miles y miles de noticias que se publican constantemente sobre la situación con el COVID-19.

Esperamos no tener que mantener este ejercicio durante mucho tiempo ya que significará que todo está controlado y que la población no sufre ningún riesgo. No obstante, mientras dure, nuestra intención es seguir informando basándonos en fuentes oficiales, posibilitando que Big Data y Analytics sean de utilidad para los ciudadanos de a pie.

Autora: Nerea Sánchez Fernández, Area Manager Big Data