Досліджуємо набір даних
Тепер ми детальніше розглянемо створення PCA моделі на прикладі одного набору даних. В якості набору даних ми використаємо wine
з набору scikit-learn
. Він містить 13 характеристик вина та 3 класи. Він особливо зручний для нас тим, що в ньому немає категоріальних змінних.
Завантажимо набір даних:
# Importing library
from sklearn.datasets import load_wine
# Reading the dataset
data = load_wine()
X = data.data
Тепер давайте дослідимо набір даних, щоб зрозуміти, з якими даними ми працюємо. Перетворимо numpy
масив X
у фрейм даних pandas
і перевіримо кількість відсутніх даних:
# Importing library
import pandas as pd
# Checking for missing data
df = pd.DataFrame(X, columns = data.feature_names)
(df.isnull() | df.empty | df.isna()).sum()
Щоб отримати повний опис кожного стовпчика (середнє значення, стандартне відхилення тощо), використовуйте метод .describe()
:
df.describe()
Перш ніж завантажити набір даних у модель PCA, давайте опрацюємо наші дані. Виходячи з попередніх уроків, ви могли помітити, що важливим кроком є стандартизація даних. Ми реалізуємо це за допомогою класу StandardScaler()
:
# Importing class
from sklearn.preprocessing import StandardScaler
# Standardization
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Прочитати дані з файлу train.csv
(файл з Інтернету). Видалити стовпець "Id"
з набору даних та стандартизувати його.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 5.26
Досліджуємо набір даних
Свайпніть щоб показати меню
Тепер ми детальніше розглянемо створення PCA моделі на прикладі одного набору даних. В якості набору даних ми використаємо wine
з набору scikit-learn
. Він містить 13 характеристик вина та 3 класи. Він особливо зручний для нас тим, що в ньому немає категоріальних змінних.
Завантажимо набір даних:
# Importing library
from sklearn.datasets import load_wine
# Reading the dataset
data = load_wine()
X = data.data
Тепер давайте дослідимо набір даних, щоб зрозуміти, з якими даними ми працюємо. Перетворимо numpy
масив X
у фрейм даних pandas
і перевіримо кількість відсутніх даних:
# Importing library
import pandas as pd
# Checking for missing data
df = pd.DataFrame(X, columns = data.feature_names)
(df.isnull() | df.empty | df.isna()).sum()
Щоб отримати повний опис кожного стовпчика (середнє значення, стандартне відхилення тощо), використовуйте метод .describe()
:
df.describe()
Перш ніж завантажити набір даних у модель PCA, давайте опрацюємо наші дані. Виходячи з попередніх уроків, ви могли помітити, що важливим кроком є стандартизація даних. Ми реалізуємо це за допомогою класу StandardScaler()
:
# Importing class
from sklearn.preprocessing import StandardScaler
# Standardization
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Прочитати дані з файлу train.csv
(файл з Інтернету). Видалити стовпець "Id"
з набору даних та стандартизувати його.
Рішення
Дякуємо за ваш відгук!
Awesome!
Completion rate improved to 5.26single