M2.859 · Visualización de datos aula 2

2020-2 · Máster universitario en Ciencia de datos (Data science)

Estudios de Informática, Multimedia y Telecomunicación

Nombre: Adonis González Godoy

 

PEC 3: Visualización interactiva

1. Descripción de los datos seleccionados

Los dataset seleccionados para esta pec son los siguientes:

Los datos han sido descargados desde la página oficina European Centre for Disease Prevention and Control. Los datos son públicos siempre que se reconozca al CEPCE como la fuente original del material. Los datos proceden de Eurostat para los países de la UE/EEE. La última fecha registrada de actualización de los datos fue el día 13 de Mayo del 2021.

El primer dataset se encuentra disponible en la siguiente URL: (https://www.ecdc.europa.eu/en/publications-data/data-daily-new-cases-covid-19-eueea-country). Esta base de datos contiene los últimos datos públicos disponibles sobre COVID-19. Cada fila/entrada contiene el número de nuevos casos y muertes notificados por día y por país en la UE/EEE. Las políticas de detección y el número de pruebas realizadas por cada 100.000 personas varían notablemente.

El segundo dataset se encuentra disponible en la siguiente URL: (https://www.ecdc.europa.eu/en/publications-data/data-covid-19-vaccination-eu-eea) y contiene la información sobre la vacunación contra COVID-19 en la UE/EEE. Los datos presentados en el Rastreador de Vacunas son enviados por los países de la Unión Europea/Espacio Económico Europeo (UE/EEE) al ECDC a través del Sistema Europeo de Vigilancia dos veces por semana (martes y viernes). Los países de la UE/EEE comunican datos agregados sobre el número de dosis de vacunas distribuidas por los fabricantes en el país, el número de primeras, segundas y no especificadas dosis administradas en la población adulta (mayor de 18 años) en general, por grupos de edad y en grupos específicos, como los trabajadores sanitarios y los residentes en centros de atención a largo plazo. También se informa de las dosis por producto vacunal.

2. Los datos

Cargamos las librerias necesarias.

Cargamos el conjunto de datos.

Tenemos un primer contacto con el dataset, mostramos las primeras filas.

Como se puede ver la dimensión del dataset de vacunas es de (33993 filas x 12 columnas), mientras que la dimensión del dataset de casos reportados de covid es de (2280 filas x 11 columnas).

A continuación se analizará la estructura y resumen de los datos, de esta forma se entenderá mejor los datasets.

Tipos de variable de los datasets:

Como se puede observar la mayoría de datos son de tipo integer, por lo general las columnas con tipo de datos object son de tipo String.

Descripción de variables

A continuación se describe las variables que se han considerado para esta exploración.

Campo Descripción Tipo
YearWeekISO - Fecha que se ha administrado la vacuna string
FirstDose - Número de la primera dosis de vacuna administrada durante la semana reportada int64
FirstDoseRefused - Número de personas que rechazan la primera dosis de la vacuna. float64
SecondDose - Número de vacunas de segunda dosis administradas a individuos durante la semana del informe int64
UnknownDose - Número de dosis administradas durante la semana del informe en las que no se especificó el tipo de dosis int64
NumberDosesReceived - Número de dosis de vacunas distribuidas por los fabricantes en el país durante la semana del informe float64
Region - Como mínimo, los datos se comunican a nivel nacional (Región = código de país). string
Population - Población por edades del país int64
ReportingCountry - ISO 3166-1-alpha-2 string
TargetGroup - Grupo objetivo de la vacunación object
Vaccine - Nombre de la vacuna. Se añadirán vacunas adicionales cuando se apruebe o se solicite object
Denominator - Denominadores de la población para los grupos objetivo float64
Campo Descripción Tipo
dateRep - Fecha que se ha reportado el caso “dd/mm/yyyy” string
day - Día del caso reportado unit8
month - Mes del caso reportado unit8
year - Año del caso reportado unit8
cases - Número de nuevos casos reportados int64
deaths - Número de casos de muertes reportados int64
countriesAndterritories - Nombre de los paísdes o territorio string
geoId - Código de geolocalización de dos carácteres string
countriesAndterritoryCode - Código ISO string
popData2020 - Datos Eurostat 2020 int64
continentExp - Nombre del continente reportado string

2.1 Exploración

Miramos si tenemos datos nulos.

Del dataset de vacunas tenemos datos nulos, como se puede ver en el heatmap en color azul tenemos la cantidad de datos nulos sobre el total del dataset, en total tenemos tres columnas con nulos: FirstDoseRefused :16267 , NumberDosesReceived:26071 y Denominator:7668. Por otro lado del datset de casos diarios de COVID reportados no tenemos datos nulos.

En el dataset de casos diarios de COVID tenemos la variable countriesAndTerritories en la cual se indica con detalle el nombre del país, mientras que en el dataset de las vacunas solo tenemos los código ISO de cada país. Procedemos a crear la columna con su respectivo nombre a partir del código ISO.

A continuación exploraremos los datos que tenemos, mostraremos algunos histogramas de algunas de las variables en el dataset:

Se puede observar que en la semana número 17 del 2021 fue cuando se administró mas dosis.

Alemania es el país que se ha administrado más la segunda dosis.

Alemania, Italia y España son los países que más vacunas han administrado.

Las vacunas más administradas en Europa son:

El rango de edad que más dosis de vacunas ha recivido es 1_age<60 y 1_Age60+

Los datos solo representan Europa y en el año 2021

Los países con más casos reportados son Francia, Italia, Alemania y España.

Los países con más muertes reportadas por COVID son:

En el mes de febrero se ha reportados más casos y más muertes por COVID.

Finalmente exportaremos el nuevo fichero de datos CSV.