Apprendre Prétraitement des Données de Séries Temporelles

Glissez pour afficher le menu

Les étapes cruciales du prétraitement des données de séries temporelles pour un projet de prévision sont abordées. Le prétraitement garantit que les données sont propres, bien structurées et prêtes pour l'entraînement du modèle. Les sujets incluent la mise à l'échelle des caractéristiques, la séparation train-test et la création de séquences, tous essentiels pour une préparation efficace des données.

Mise à l'échelle des caractéristiques : la mise à l'échelle des caractéristiques est importante pour garantir que toutes les variables d'entrée sont sur une échelle similaire. Cela aide les modèles comme LSTM et ARIMA à converger plus rapidement et à améliorer leurs performances. Les techniques courantes de mise à l'échelle incluent la mise à l'échelle min-max et la standardisation (normalisation z-score). La mise à l'échelle permet au modèle de se concentrer sur les relations au sein des données plutôt que d'être influencé par des variables ayant des plages de valeurs plus larges ;

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)

Séparation train-test : diviser l'ensemble de données en sous-ensembles d'entraînement et de test est essentiel pour évaluer les performances du modèle. Typiquement, un ensemble de données de séries temporelles est divisé de manière chronologique, la première partie des données étant utilisée pour l'entraînement et la partie la plus récente pour le test. Cela garantit que le modèle est évalué sur des données qu'il n'a jamais vues auparavant et simule des scénarios de prévision réels. Un ratio courant est de 80 % pour l'entraînement et 20 % pour le test, mais cela peut varier selon la taille et les caractéristiques des données ;

train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]

Création de séquences : en prévision de séries temporelles, en particulier avec des modèles comme LSTM, les données doivent être transformées en format séquentiel. L'étape de création de séquences consiste à façonner les données en paires entrée-sortie où chaque entrée correspond à une séquence d'observations passées, et la sortie est la valeur prédite pour l'instant suivant. Cela est crucial pour que les modèles apprennent à partir des étapes précédentes et effectuent des prévisions précises pour les étapes futures.

def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)

En résumé, le prétraitement est une étape essentielle dans la prévision de séries temporelles. En mettant à l'échelle les caractéristiques, en séparant les données pour l'entraînement et le test, et en créant des séquences pour l'entrée du modèle, on s'assure que les données sont bien préparées pour une prévision précise et efficace.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 3