Summary  
This chapter explains how to preprocess time series data by applying feature scaling, performing a chronological train-test split, and creating fixed-length input/output sequences for modeling.  

General domain of usage  
Time series forecasting

De avgjørende stegene i **forbehandling av tidsseriedata** for et prognoseprosjekt dekkes. Forbehandling sikrer at dataene er rene, godt strukturerte og klare for modelltrening. Temaer inkluderer **feature scaling**, **train-test split** og **sekvensopprettelse**, alle essensielle for effektiv datapreparering.


- **Feature scaling**: feature scaling er viktig for å sikre at alle inngangsvariabler er på en lignende skala. Dette hjelper modeller som LSTM og ARIMA å konvergere raskere og forbedre ytelsen. Vanlige teknikker for feature scaling inkluderer **min-max scaling** og **standardisering** (z-score normalisering). Skalering hjelper modellen å fokusere på relasjonene i dataene i stedet for å bli påvirket av variabler med større verdier;
```python
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)
```

- **Train-test split**: å dele datasettet i trenings- og testdeler er avgjørende for å evaluere modellens ytelse. Vanligvis deles et tidsseriedatasett kronologisk, der den tidlige delen brukes til trening og den senere delen til testing. Dette sikrer at modellen evalueres på data den ikke har sett før, og etterligner virkelige prognosesituasjoner. Et vanlig forhold er 80 % til trening og 20 % til testing, men dette kan variere avhengig av størrelsen og egenskapene til dataene;
```python
train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]
```

- **Sekvensopprettelse**: i tidsserieprognoser, spesielt ved bruk av modeller som LSTM, må dataene transformeres til et sekvensformat. Sekvensopprettelse innebærer å forme dataene til input-output-par der hver input tilsvarer en sekvens av tidligere observasjoner, og output er den predikerte verdien for neste tidssteg. Dette er avgjørende for at modellene skal kunne lære fra tidligere tidspunkter og gjøre nøyaktige prediksjoner for fremtidige steg.
```python
def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)
```

Oppsummert er forbehandling et viktig steg i tidsserieprognoser. Ved å skalere variabler, dele dataene for trening og testing, og opprette sekvenser for modellinput, sikrer vi at dataene er godt forberedt for nøyaktig og effektiv prognostisering.


Last ned koden for dette kapittelet

Hva er formålet med funksjonsskalaering i forhåndsbehandling av tidsserier?

Bli ekspert på rekursive nevrale nettverk og deres avanserte varianter som LSTM og GRU ved bruk av PyTorch. Få praktisk erfaring med behandling av sekvensielle data for anvendelser i praksis. Bruk disse kraftige modellene til å løse reelle utfordringer innen tidsserieprognoser og ulike oppgaver innen naturlig språkprosessering.

Dekker begrensningene ved tradisjonelle nevrale nettverk for sekvensielle data og introduserer grunnleggende prinsipper for rekurrente nevrale nettverk. Forklarer RNN-arkitektur, typer og trinnvis implementering gjennom grunnleggende eksempler og en kodeutfordring.

Utforsker vanlige treningsutfordringer som forsvinnende og eksploderende gradienter. Introduserer avanserte RNN-varianter, inkludert LSTM og GRU, med fokus på deres interne mekanismer og bruksområder, samt praktiske implementeringseksempler for hver.

Fokuserer på behandling og prediksjon av tidsseriedata ved bruk av RNN-baserte modeller. Inkluderer datainnhenting, forhåndsbehandlingsteknikker, modelltrening og ytelsesevaluering, med vekt på sammenligning av LSTM- og GRU-arkitekturer.

Demonstrerer anvendelsen av RNN-er på tekstklassifiseringsoppgaver. Dekker sentrale NLP-konsepter, metoder for tekstkoding, trinn for datapreparering og konstruksjon av en LSTM-basert modell for prediksjon av sentiment.

Forbehandling av Tidsseriedata