Стандартизація
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0
.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20
і 100-10 000
, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20
), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn
дозволяє зробити це в 1 рядок:
# Імпорт бібліотек
import numpy as np
from sklearn.preprocessing import StandardScaler
# Стандартизація
X = np.asarray([[1, 3],[2, 10],[3, 35],[4, 40]], dtype = np.float64)
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Реалізувати стандартизацію масиву X за допомогою numpy
функцій np.mean()
та np.std()
.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Сумаризуйте цей розділ
Пояснити код у file
Пояснити, чому file не вирішує завдання
Awesome!
Completion rate improved to 5.26
Стандартизація
Свайпніть щоб показати меню
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0
.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20
і 100-10 000
, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20
), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn
дозволяє зробити це в 1 рядок:
# Імпорт бібліотек
import numpy as np
from sklearn.preprocessing import StandardScaler
# Стандартизація
X = np.asarray([[1, 3],[2, 10],[3, 35],[4, 40]], dtype = np.float64)
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Реалізувати стандартизацію масиву X за допомогою numpy
функцій np.mean()
та np.std()
.
Рішення
Дякуємо за ваш відгук!
Awesome!
Completion rate improved to 5.26single