Досліджуємо набір даних

Тепер ми детальніше розглянемо створення PCA моделі на прикладі одного набору даних. В якості набору даних ми використаємо wine з набору scikit-learn. Він містить 13 характеристик вина та 3 класи. Він особливо зручний для нас тим, що в ньому немає категоріальних змінних.

Завантажимо набір даних:

# Importing library
from sklearn.datasets import load_wine

# Reading the dataset
data = load_wine()
X = data.data

Тепер давайте дослідимо набір даних, щоб зрозуміти, з якими даними ми працюємо. Перетворимо numpy масив X у фрейм даних pandas і перевіримо кількість відсутніх даних:

# Importing library
import pandas as pd

# Checking for missing data
df = pd.DataFrame(X, columns = data.feature_names)
(df.isnull() | df.empty | df.isna()).sum()

Щоб отримати повний опис кожного стовпчика (середнє значення, стандартне відхилення тощо), використовуйте метод .describe():

df.describe()

Перш ніж завантажити набір даних у модель PCA, давайте опрацюємо наші дані. Виходячи з попередніх уроків, ви могли помітити, що важливим кроком є стандартизація даних. Ми реалізуємо це за допомогою класу StandardScaler():

# Importing class
from sklearn.preprocessing import StandardScaler

# Standardization
X_scaled = StandardScaler().fit_transform(X)

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 2

single

Свайпніть щоб показати меню

Тепер ми детальніше розглянемо створення PCA моделі на прикладі одного набору даних. В якості набору даних ми використаємо wine з набору scikit-learn. Він містить 13 характеристик вина та 3 класи. Він особливо зручний для нас тим, що в ньому немає категоріальних змінних.

Завантажимо набір даних:

# Importing library
from sklearn.datasets import load_wine

# Reading the dataset
data = load_wine()
X = data.data

Тепер давайте дослідимо набір даних, щоб зрозуміти, з якими даними ми працюємо. Перетворимо numpy масив X у фрейм даних pandas і перевіримо кількість відсутніх даних:

# Importing library
import pandas as pd

# Checking for missing data
df = pd.DataFrame(X, columns = data.feature_names)
(df.isnull() | df.empty | df.isna()).sum()

Щоб отримати повний опис кожного стовпчика (середнє значення, стандартне відхилення тощо), використовуйте метод .describe():

df.describe()

Перш ніж завантажити набір даних у модель PCA, давайте опрацюємо наші дані. Виходячи з попередніх уроків, ви могли помітити, що важливим кроком є стандартизація даних. Ми реалізуємо це за допомогою класу StandardScaler():

# Importing class
from sklearn.preprocessing import StandardScaler

# Standardization
X_scaled = StandardScaler().fit_transform(X)

Завдання

Проведіть, щоб почати кодувати

Прочитати дані з файлу train.csv (файл з Інтернету). Видалити стовпець "Id" з набору даних та стандартизувати його.

Рішення

Перейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 2

single

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат