Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Limpieza de Datos | Procesamiento de Datos de Series Temporales
Procesamiento Previo de Datos
course content

Contenido del Curso

Procesamiento Previo de Datos

Procesamiento Previo de Datos

1. Introducción Breve
2. Procesamiento de Datos Cuantitativos
3. Procesamiento de Datos Categóricos
4. Procesamiento de Datos de Series Temporales
5. Ingeniería de Características
6. Avanzando a Tareas

book
Limpieza de Datos

La limpieza de datos en el tratamiento de series temporales elimina anomalías, errores y datos incompletos o irrelevantes. Es un paso importante del preprocesamiento para garantizar la calidad del análisis y la precisión de las previsiones.

Los principales métodos de limpieza de datos son:

Imputación

Imputación: rellenar los valores que faltan utilizando la media, la mediana, la interpolación o métodos de series temporales (por ejemplo, extrapolación).

El tamaño de la ventana (el intervalo sobre el que se toma la media o la mediana) suele fijarse entre 2 y 10-15 veces. En general, la elección se basa en la evaluación visual de la recuperación del conjunto de datos. La imputación de la media no suele recomendarse para los datos de series temporales porque puede introducir sesgos y distorsionar los patrones subyacentes en los datos. Por lo tanto, a menudo se prefieren otros métodos de imputación, como la interpolación, la regresión o métodos más sofisticados específicos de series temporales, para tratar los valores que faltan en los datos de series temporales.

En términos de imputación, la interpolación puede ser adecuada si los valores que faltan se producen al final de una serie temporal y el patrón o la tendencia de la serie temporal es relativamente estable. En resumen, la interpolación puede ser útil cuando la serie temporal muestra una tendencia o patrón claro que puede continuar más allá de los valores observados.

Eliminación de valores atípicos

Eliminación de valores atípicos: identificación y eliminación de valores anómalos que pueden distorsionar el análisis mediante métodos estadísticos (por ejemplo, IQR, puntuación z).

Para datos no estacionarios, podemos utilizar el siguiente procedimiento:

  • Si se trabaja con datos homocedasticos, es necesario establecer manualmente algún límite L por el que se filtrarán todos los valores x_val: ||donde x_mean - la media calculada sobre la ventana móvil;
  • Si está trabajando con datos heteroscedásticos, entonces necesita transformar los datos utilizando funciones matemáticas como la transformación Box-Cox, que puede ayudar a reducir la variabilidad de los datos y hacerlos más homoscedásticos. Ahora puede pasar al primer punto.

Se dice que un conjunto de datos de series temporales es homoscedástico cuando la distribución de errores o residuos es simétrica y no cambia con respecto al tiempo. Una forma de comprobar la homocedasticidad es realizar una prueba estadística, como las pruebas de Breusch-Pagan o White.

Si hablamos de heteroscedasticidad, nos referimos a una situación en la que la varianza de los términos de error o la dispersión de los datos no es constante a lo largo del tiempo. En otras palabras, la variabilidad de los puntos de datos es incoherente en todo el intervalo de la serie temporal.

  • Suavizado**: reducción del ruido de los datos mediante filtros de medias móviles, suavizado exponencial u otros métodos que mejoran la claridad de las series temporales;
  • Ajuste estacional**: extracción y contabilización de los componentes estacionales de una serie temporal para obtener datos más limpios y mejorar la previsión (por ejemplo, mediante el método de Holt-Winters o la descomposición de series temporales);

Aquí vamos a considerar un método para recuperar los datos que faltan utilizando la interpolación, ya que las secciones anteriores ya han cubierto el uso de la media o la mediana:

1234567891011
import pandas as pd # Create a time-series dataset with missing values dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09']) # Interpolate missing values using linear method dataset['value_interpolated'] = dataset['value'].interpolate(method='linear') print(dataset)
copy

El método .interpolate() se utiliza para implementar la interpolación, que contiene los métodos .linear', .time', .index', .pad', `.polynomial', etc., con los que se puede experimentar en función de los datos.

Tarea
test

Swipe to show code editor

Lea el conjunto de datos 'clientes.csv' y recupere los valores perdidos utilizando el método lineal de interpolación.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 2
toggle bottom row

book
Limpieza de Datos

La limpieza de datos en el tratamiento de series temporales elimina anomalías, errores y datos incompletos o irrelevantes. Es un paso importante del preprocesamiento para garantizar la calidad del análisis y la precisión de las previsiones.

Los principales métodos de limpieza de datos son:

Imputación

Imputación: rellenar los valores que faltan utilizando la media, la mediana, la interpolación o métodos de series temporales (por ejemplo, extrapolación).

El tamaño de la ventana (el intervalo sobre el que se toma la media o la mediana) suele fijarse entre 2 y 10-15 veces. En general, la elección se basa en la evaluación visual de la recuperación del conjunto de datos. La imputación de la media no suele recomendarse para los datos de series temporales porque puede introducir sesgos y distorsionar los patrones subyacentes en los datos. Por lo tanto, a menudo se prefieren otros métodos de imputación, como la interpolación, la regresión o métodos más sofisticados específicos de series temporales, para tratar los valores que faltan en los datos de series temporales.

En términos de imputación, la interpolación puede ser adecuada si los valores que faltan se producen al final de una serie temporal y el patrón o la tendencia de la serie temporal es relativamente estable. En resumen, la interpolación puede ser útil cuando la serie temporal muestra una tendencia o patrón claro que puede continuar más allá de los valores observados.

Eliminación de valores atípicos

Eliminación de valores atípicos: identificación y eliminación de valores anómalos que pueden distorsionar el análisis mediante métodos estadísticos (por ejemplo, IQR, puntuación z).

Para datos no estacionarios, podemos utilizar el siguiente procedimiento:

  • Si se trabaja con datos homocedasticos, es necesario establecer manualmente algún límite L por el que se filtrarán todos los valores x_val: ||donde x_mean - la media calculada sobre la ventana móvil;
  • Si está trabajando con datos heteroscedásticos, entonces necesita transformar los datos utilizando funciones matemáticas como la transformación Box-Cox, que puede ayudar a reducir la variabilidad de los datos y hacerlos más homoscedásticos. Ahora puede pasar al primer punto.

Se dice que un conjunto de datos de series temporales es homoscedástico cuando la distribución de errores o residuos es simétrica y no cambia con respecto al tiempo. Una forma de comprobar la homocedasticidad es realizar una prueba estadística, como las pruebas de Breusch-Pagan o White.

Si hablamos de heteroscedasticidad, nos referimos a una situación en la que la varianza de los términos de error o la dispersión de los datos no es constante a lo largo del tiempo. En otras palabras, la variabilidad de los puntos de datos es incoherente en todo el intervalo de la serie temporal.

  • Suavizado**: reducción del ruido de los datos mediante filtros de medias móviles, suavizado exponencial u otros métodos que mejoran la claridad de las series temporales;
  • Ajuste estacional**: extracción y contabilización de los componentes estacionales de una serie temporal para obtener datos más limpios y mejorar la previsión (por ejemplo, mediante el método de Holt-Winters o la descomposición de series temporales);

Aquí vamos a considerar un método para recuperar los datos que faltan utilizando la interpolación, ya que las secciones anteriores ya han cubierto el uso de la media o la mediana:

1234567891011
import pandas as pd # Create a time-series dataset with missing values dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09']) # Interpolate missing values using linear method dataset['value_interpolated'] = dataset['value'].interpolate(method='linear') print(dataset)
copy

El método .interpolate() se utiliza para implementar la interpolación, que contiene los métodos .linear', .time', .index', .pad', `.polynomial', etc., con los que se puede experimentar en función de los datos.

Tarea
test

Swipe to show code editor

Lea el conjunto de datos 'clientes.csv' y recupere los valores perdidos utilizando el método lineal de interpolación.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 2
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
We're sorry to hear that something went wrong. What happened?
some-alt