Att Bekanta Sig Med Datasetet
Påbörja förbehandlingen genom att utforska datasetet. Under denna kurs kommer pingvindatasetet att användas, med uppgiften att förutsäga arten av en pingvin.
Det finns tre möjliga alternativ, ofta kallade klasser inom maskininlärning:
Egenskaperna är: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
och 'sex'
.
Datasetet är sparat i filen penguins.csv
. Det kan laddas från en länk med funktionen pd.read_csv()
för att undersöka dess innehåll:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Denna datamängd har flera problem som behöver åtgärdas:
- Saknade data;
- Kategoriska variabler;
- Olika skalor för variabler.
Saknade data
De flesta ML-algoritmer kan inte hantera saknade värden direkt, så dessa måste åtgärdas innan träning. Saknade värden kan antingen tas bort eller imputeras (ersättas med ersättningsvärden).
I pandas
representeras tomma celler som NaN
. Många ML-modeller kommer att ge ett fel om datamängden innehåller ens ett enda NaN
.
Kategoriska data
Datasettet innehåller kategoriska variabler, vilka maskininlärningsmodeller inte kan bearbeta direkt.
Kategoriska data måste kodas till numerisk form.
Olika skalor
Värdena för 'culmen_depth_mm'
sträcker sig från 13.1 till 21.5, medan värdena för 'body_mass_g'
sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta egenskapen 'body_mass_g'
som mycket viktigare än 'culmen_depth_mm'
.
Skalning löser detta problem. Det kommer att behandlas i senare kapitel.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 3.13
Att Bekanta Sig Med Datasetet
Svep för att visa menyn
Påbörja förbehandlingen genom att utforska datasetet. Under denna kurs kommer pingvindatasetet att användas, med uppgiften att förutsäga arten av en pingvin.
Det finns tre möjliga alternativ, ofta kallade klasser inom maskininlärning:
Egenskaperna är: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
och 'sex'
.
Datasetet är sparat i filen penguins.csv
. Det kan laddas från en länk med funktionen pd.read_csv()
för att undersöka dess innehåll:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Denna datamängd har flera problem som behöver åtgärdas:
- Saknade data;
- Kategoriska variabler;
- Olika skalor för variabler.
Saknade data
De flesta ML-algoritmer kan inte hantera saknade värden direkt, så dessa måste åtgärdas innan träning. Saknade värden kan antingen tas bort eller imputeras (ersättas med ersättningsvärden).
I pandas
representeras tomma celler som NaN
. Många ML-modeller kommer att ge ett fel om datamängden innehåller ens ett enda NaN
.
Kategoriska data
Datasettet innehåller kategoriska variabler, vilka maskininlärningsmodeller inte kan bearbeta direkt.
Kategoriska data måste kodas till numerisk form.
Olika skalor
Värdena för 'culmen_depth_mm'
sträcker sig från 13.1 till 21.5, medan värdena för 'body_mass_g'
sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta egenskapen 'body_mass_g'
som mycket viktigare än 'culmen_depth_mm'
.
Skalning löser detta problem. Det kommer att behandlas i senare kapitel.
Tack för dina kommentarer!