Чудово!
Completion показник покращився до 5.26single
Досліджуємо набір даних
Свайпніть щоб показати меню
Тепер ми детальніше розглянемо створення PCA моделі на прикладі одного набору даних. В якості набору даних ми використаємо wine з набору scikit-learn. Він містить 13 характеристик вина та 3 класи. Він особливо зручний для нас тим, що в ньому немає категоріальних змінних.
Завантажимо набір даних:
# Importing library
from sklearn.datasets import load_wine
# Reading the dataset
data = load_wine()
X = data.data
Тепер давайте дослідимо набір даних, щоб зрозуміти, з якими даними ми працюємо. Перетворимо numpy масив X у фрейм даних pandas і перевіримо кількість відсутніх даних:
# Importing library
import pandas as pd
# Checking for missing data
df = pd.DataFrame(X, columns = data.feature_names)
(df.isnull() | df.empty | df.isna()).sum()
Щоб отримати повний опис кожного стовпчика (середнє значення, стандартне відхилення тощо), використовуйте метод .describe():
df.describe()
Перш ніж завантажити набір даних у модель PCA, давайте опрацюємо наші дані. Виходячи з попередніх уроків, ви могли помітити, що важливим кроком є стандартизація даних. Ми реалізуємо це за допомогою класу StandardScaler():
# Importing class
from sklearn.preprocessing import StandardScaler
# Standardization
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Прочитати дані з файлу train.csv (файл з Інтернету). Видалити стовпець "Id" з набору даних та стандартизувати його.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат