Стандартизація
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20 і 100-10 000, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn дозволяє зробити це в 1 рядок:
# Імпорт бібліотек
import numpy as np
from sklearn.preprocessing import StandardScaler
# Стандартизація
X = np.asarray([[1, 3],[2, 10],[3, 35],[4, 40]], dtype = np.float64)
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Реалізувати стандартизацію масиву X за допомогою numpy функцій np.mean() та np.std().
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 5.26
Стандартизація
Свайпніть щоб показати меню
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20 і 100-10 000, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn дозволяє зробити це в 1 рядок:
# Імпорт бібліотек
import numpy as np
from sklearn.preprocessing import StandardScaler
# Стандартизація
X = np.asarray([[1, 3],[2, 10],[3, 35],[4, 40]], dtype = np.float64)
X_scaled = StandardScaler().fit_transform(X)
Swipe to start coding
Реалізувати стандартизацію масиву X за допомогою numpy функцій np.mean() та np.std().
Рішення
Дякуємо за ваш відгук!
single