- Identificar y utilizar las funciones vectorizadas.
- Identificar agregaciones/reducciones.
- Leer un CSV.
- Encontrar y limpiar datos nulos.
- Reindexar y cambiar el nombre de las columnas.
Introducción
El día de hoy vamos a aprender a limpiar un poco nuestros datasets. Necesitamos limpiar nuestros datasets para facilitarnos los procesos posteriores de análisis y visualización. Trabajar con un dataset sucio es muy difícil y frustrante.
Vamos a aprender a encontrar valores nulos en nuestro dataset y limpiarlos.
Pero para poder hacer esto, primero vamos a aprender dos herramientas que se llaman funciones vectorizadas
y agregaciones
que expandirán tus posibilidades muchísimo.
Aritmética con Series
y Funciones vectorizadas
map
nos permite aplicar una función a una lista
"elemento por elemento". Hay una manera todavía más fácil de aplicar este tipo de procesos a una Serie
gracias a la aritmética con Series
y a las funciones vectorizadas. Aplicar una transformación es tan fácil como esto:
Vamos a ver cómo es que funcionan.
Agregaciones
Las agregaciones
son una variación de las funciones vectorizadas. Lo que hacen es tomar un arreglo (una Serie
, por ejemplo), aplicar una operación a todos los elementos y regresar un resultado único que es la agregación
o reducción
del arreglo. Una agregación
se ve así:
Exploremos un poco.
Funciones vectorizadas y agregaciones con DataFrames
También podemos aplicar estas herramientas a DataFrames
completos. Tanto las operaciones aritméticas, funciones vectorizadas y agregaciones funcionan con ligeras diferencias de procedimiento.
NaN o Valores Nulos
Como viste en tu Prework, los valores NaN
(Not a Number
) son bastante indeseables porque no podemos utilizarlos para realizar análisis estadístico u operaciones aritméticas. Es por eso que uno de los primeros pasos en la Limpieza de Datos suele ser la eliminación de estos valores.
Los NaNs
se ven así en un DataFrame
:
Vamos a ver primero cómo identificarlos.
Limpiando NaNs
Hay 3 operaciones básicas que podemos realizar para eliminar NaNs
de nuestros datasets:
- Eliminar filas con
NaNs
- Eliminar columnas con
NaNs
- Llenar los
NaNs
con algún valor.
Exploremos las 3 opciones.
Aplicando nuestros conocimientos a un dataset real
¡Vamos a ver un pequeño ejemplo donde vamos a aplicar lo que hemos visto el día de hoy a un dataset real!
Este dataset está en formato CSV, que quiere decir que cada columna está separada por una coma
. Las líneas de nuestro archivo .csv son cada una las filas de nuestro dataset, y los datos en cada fila, separados por comas (,
), conforman las columnas:
Reindexando y renombrando columnas
Tenemos ahora un dataset que ha sido limpiado de NaNs
. Tenemos ahora dos problemas. El primero es que nuestro índice no corresponde al número de filas que tenemos ahora:
El segundo es que los nombres de nuestras columna son muy inconsistentes (e incluso contienen errores ortográficos):
Para terminar esta sesión, vamos a arreglar esos problemas.