Зміст курсу
Метод Головних Компонент
Метод Головних Компонент
Стандартизація
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0
.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20
і 100-10 000
, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20
), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn
дозволяє зробити це в 1 рядок:
Завдання
Реалізувати стандартизацію масиву X за допомогою numpy
функцій np.mean()
та np.std()
.
Дякуємо за ваш відгук!
Стандартизація
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0
.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20
і 100-10 000
, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20
), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn
дозволяє зробити це в 1 рядок:
Завдання
Реалізувати стандартизацію масиву X за допомогою numpy
функцій np.mean()
та np.std()
.
Дякуємо за ваш відгук!
Стандартизація
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0
.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20
і 100-10 000
, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20
), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn
дозволяє зробити це в 1 рядок:
Завдання
Реалізувати стандартизацію масиву X за допомогою numpy
функцій np.mean()
та np.std()
.
Дякуємо за ваш відгук!
Нарешті, почнемо з аналізу математичної моделі PCA.
Перш за все, ми почнемо зі стандартизації даних, з якими працюватиме алгоритм. Під стандартизацією мається на увазі зведення всіх неперервних змінних до набору, де середнє значення буде дорівнювати 0
.
Це важливий крок, оскільки PCA не може працювати належним чином, якщо в наборі даних є змінна з діапазоном значень 0-20
і 100-10 000
, наприклад. PCA почне "ігнорувати" характеристику з невеликим розкидом (0-20
), і вона не зможе вплинути на результат алгоритму.
Формула для стандартизації даних дуже проста. Відніміть від значення змінної середнє значення і розділіть результат на стандартне відхилення:
Бібліотека Python scikit-learn
дозволяє зробити це в 1 рядок:
Завдання
Реалізувати стандартизацію масиву X за допомогою numpy
функцій np.mean()
та np.std()
.