Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Explore the Dataset | Data Exploration
Preprocessing Data
course content

Зміст курсу

Preprocessing Data

Preprocessing Data

1. Data Exploration
2. Data Cleaning
3. Data Validation
4. Normalization & Standardization
5. Data Encoding

bookExplore the Dataset

Before you start, it's important to take a look at the data you'll work with. There is a list of useful methods which can be applied to the pandas dataframes:

123456789101112131415161718192021
# info about the dataframe shape, data types data.info() # the size of the dataframe data.shape # list of the columns data.columns # returns all distinct values containing in the column called ColumnName data['ColumnName'].unique() # returns the metrics: mean, mode, min, max etc. data.describe() # returns top 5 rows data.head() # returns top 10 rows (or any other number you'll pass) data.head(10) # returns bottom 5 rows data.tail() # returns bottom 10 rows (or any other number) data.tail(10) # returns 10 random rows data.sample(10)
copy

Завдання

For given dataset data, extract and print 5 rows using sample() function.

Find all the columns' names and put them to the cols variable.

Find the unique values for each column and output these values.

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 2
toggle bottom row

bookExplore the Dataset

Before you start, it's important to take a look at the data you'll work with. There is a list of useful methods which can be applied to the pandas dataframes:

123456789101112131415161718192021
# info about the dataframe shape, data types data.info() # the size of the dataframe data.shape # list of the columns data.columns # returns all distinct values containing in the column called ColumnName data['ColumnName'].unique() # returns the metrics: mean, mode, min, max etc. data.describe() # returns top 5 rows data.head() # returns top 10 rows (or any other number you'll pass) data.head(10) # returns bottom 5 rows data.tail() # returns bottom 10 rows (or any other number) data.tail(10) # returns 10 random rows data.sample(10)
copy

Завдання

For given dataset data, extract and print 5 rows using sample() function.

Find all the columns' names and put them to the cols variable.

Find the unique values for each column and output these values.

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 2
toggle bottom row

bookExplore the Dataset

Before you start, it's important to take a look at the data you'll work with. There is a list of useful methods which can be applied to the pandas dataframes:

123456789101112131415161718192021
# info about the dataframe shape, data types data.info() # the size of the dataframe data.shape # list of the columns data.columns # returns all distinct values containing in the column called ColumnName data['ColumnName'].unique() # returns the metrics: mean, mode, min, max etc. data.describe() # returns top 5 rows data.head() # returns top 10 rows (or any other number you'll pass) data.head(10) # returns bottom 5 rows data.tail() # returns bottom 10 rows (or any other number) data.tail(10) # returns 10 random rows data.sample(10)
copy

Завдання

For given dataset data, extract and print 5 rows using sample() function.

Find all the columns' names and put them to the cols variable.

Find the unique values for each column and output these values.

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Before you start, it's important to take a look at the data you'll work with. There is a list of useful methods which can be applied to the pandas dataframes:

123456789101112131415161718192021
# info about the dataframe shape, data types data.info() # the size of the dataframe data.shape # list of the columns data.columns # returns all distinct values containing in the column called ColumnName data['ColumnName'].unique() # returns the metrics: mean, mode, min, max etc. data.describe() # returns top 5 rows data.head() # returns top 10 rows (or any other number you'll pass) data.head(10) # returns bottom 5 rows data.tail() # returns bottom 10 rows (or any other number) data.tail(10) # returns 10 random rows data.sample(10)
copy

Завдання

For given dataset data, extract and print 5 rows using sample() function.

Find all the columns' names and put them to the cols variable.

Find the unique values for each column and output these values.

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Секція 1. Розділ 2
Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
some-alt