Beskriver Dataene
pandas
tilbyder den praktiske mean()
metode, der beregner gennemsnittet af alle værdier for hver kolonne.
df = pd.read_csv(file.csv)
mean_values = df.mean()
Du kan også bruge den samme metode til at bestemme gennemsnitsværdien for en specifik kolonne:
df = pd.read_csv(file.csv)
mean_values = df['column_name'].mean()
pandas
tilbyder også metoden mode()
, som identificerer den hyppigst forekommende værdi i hver kolonne.
df = pd.read_csv(file.csv)
mode_values = df.mode()
For at finde moden for en bestemt kolonne, bruges den samme metode:
df = pd.read_csv(file.csv)
mode_values = df['column_name'].mode()[0]
En anden nyttig metode i pandas
er describe()
.
df = pd.read_csv(file.csv)
important_metrics = df.describe()
Denne metode giver et overblik over forskellige metrikker fra datasættet, inklusive:
- Samlet antal poster;
- Middel- eller gennemsnitsværdi;
- Standardafvigelse;
- Minimums- og maksimumsværdierne;
- De 25., 50. (median) og 75. percentiler.
Opgave
Swipe to start coding
Du har fået en DataFrame
ved navn wine_data
.
- Beregn gennemsnittet af kolonnen
'residual sugar'
og gem resultatet i variablenresidual_sugar_mean
. - Beregn typetallet af kolonnen
'fixed acidity'
og gem resultatet i variablenfixed_acidity_mode
. - Hent et overblik over forskellige statistikker fra
wine_data
og gem resultatet i variablendescribed_data
.
Løsning
Var alt klart?
Tak for dine kommentarer!