Summary  
This chapter covers DataFrame introspection methods—such as printSchema, display, describe, count, and columns—to inspect schema details, view sample data, compute basic statistics, count rows, and list headers.  

General domain of usage  
Data analysis

DataFramen tutkiminen tarkoittaa DataFramen rakenteen, tietotyyppien ja sisällön tarkastelua. Komennot kuten `printSchema()` ja `display()` ovat ensisijaisia työkaluja, joilla varmistetaan, että data on ladattu oikein ennen analyysin aloittamista.

Määritelmä

Kun olet ladannut datasi DataFrameen, et voi olettaa sen olevan täydellistä. Sinun täytyy tarkastella sitä ymmärtääksesi, minkä kanssa työskentelet. Tässä luvussa käytät kahta keskeistä Python-komentoa "kurkistaaksesi konepellin alle" `sales_records` DataFrameen.

## Rakenteen tarkastelu: printSchema()
Ensimmäinen asia, jonka data-ammattilainen tekee uuden DataFramen kanssa, on tarkistaa skeeman. Skeema on datasi piirustus – se kertoo jokaisen sarakkeen nimen ja sen sisältämän tietotyypin (Integer, String, Double jne.).

Uudessa solussa suorita:

Tuloste on puumainen lista. Tässä voit varmistaa, että "Total_Revenue" on numeerinen tyyppi (kuten `double`), eikä pelkkä teksti. Jos sarake, jonka odotit olevan numero, näkyy `string`-tyyppisenä, tiedät, että tietotyypit täytyy korjata ennen laskutoimituksia.


## Sisällön tarkastelu: display()

Kun `printSchema()` näyttää rakenteen, `display()` näyttää varsinaiset tiedot. Kuten käsiteltiin kohdassa 3, `display()` on tehokas Databricksin oma funktio.

Suorita:


Tämä näyttää DataFramen ensimmäiset 10 000 riviä interaktiivisessa ruudukossa. Tämän avulla voit havaita "likaisen" datan, kuten puuttuvat arvot (näytetään muodossa `null`) tai epäjohdonmukaisen muotoilun "Region"- tai "Item_Type"-sarakkeissa.


## Nopeat tilastotiedot: describe() ja summary()
Jos haluat nähdä sarakkeidesi "matematiikan" ilman monimutkaisia kyselyitä, voit käyttää komentoa `describe()`:


Tämä palauttaa taulukon, joka näyttää **määrän, keskiarvon, keskihajonnan, minimin ja maksimin** jokaiselle numeeriselle sarakkeelle. Nopein tapa tarkistaa poikkeavat arvot — esimerkiksi, jos "Min"-hinta on negatiivinen luku, tiedät, että lähdedatassa on virhe.

## Rivien laskeminen: count()
Aineiston laajuuden selvittämiseksi käytä `count()`-metodia:

Tämä palauttaa yhden kokonaisluvun, joka ilmaisee rivien kokonaismäärän. Hyödyllinen tarkistettaessa, ettei tietoja ole kadonnut latausprosessin aikana.


## Sarakenimien tarkastelu
Jos tarvitset nopeasti luettelon sarakenimistä esimerkiksi kopioitavaksi toiseen funktioon, käytä seuraavaa:


Tämä palauttaa yksinkertaisen Python-listan kaikista otsikoista, mikä on erittäin hyödyllistä, kun DataFrame sisältää kymmeniä sarakkeita etkä muista yhden tarkkaa kirjoitusasua.

Mitä komentoa tulisi käyttää nähdäksesi DataFrame:n "rakennesuunnitelman", mukaan lukien kaikki sarakenimet ja tietotyypit?

Mikä on display(df.describe())-komennon tarkoitus?

Käytännönläheinen johdanto Databricksiin, sen keskeisiin käsitteisiin sekä käytännön datan käsittelyyn Pythonilla ja SQL:llä. Kurssi on suunniteltu täysin aloittelijoille, painottaen selkeyttä, yksinkertaisuutta ja käytännön sovelluksia.

Määrittele Databricks yksinkertaisesti ja esittele keskeiset termit ilman ammattisanastoa.

Kirjaudu sisään ja käynnistä laskentaympäristö.

Hallitse ensisijainen kehitysympäristö hyödyntämällä tuttua Pythonia ja SQL:ää.

Käytännönläheinen, käytännön tietojen käsittely DataFramejen avulla (ydintietorakenne).

Esittele tärkein erottautumistekijä, Delta Lake, yksinkertaisesti.

Perustason DataFrame-Tutkimus

Rakenteen tarkastelu: printSchema()

Sisällön tarkastelu: display()

Nopeat tilastotiedot: describe() ja summary()

Rivien laskeminen: count()

Sarakenimien tarkastelu

1. Mitä komentoa tulisi käyttää nähdäksesi DataFrame:n "rakennesuunnitelman", mukaan lukien kaikki sarakenimet ja tietotyypit?

2. Mikä on display(df.describe())-komennon tarkoitus?