Зміст курсу
Метод Головних Компонент
Метод Головних Компонент
Стиснення даних
Перш ніж розглядати завдання стиснення даних за допомогою PCA, важливо зрозуміти різницю між стисненням даних і зменшенням розмірності.
Зменшення розмірності даних - це один з видів стиснення даних. Методи стиснення даних поділяються на 2 основні класи: ті, в яких оброблені дані можна потім відновити, і ті, в яких це неможливо. Зменшення розмірності даних відноситься до класу 2, тобто після обробки набору даних ми не зможемо відновити його до початкового вигляду. Точніше, це можна зробити, але дані вже не будуть тими самими, це буде наближення до початкового набору даних.
Прийнято вважати, що PCA - це метод не для економії місця в сховищі, а для виконання дорогих операцій для досягнення схожого результату.
Повернімося до коду. У нас є можливість вибрати кількість дисперсії даних, яку ми хочемо зберегти від початкового набору даних. Значення аргументу n_components
має бути між 0
і 1
. У цьому випадку, якщо ми вкажемо 0.85
, це буде 85%
від збереженої дисперсії.
Завдання
Створити модель PCA зі збереженням 90% дисперсії для набору даних iris
:
Дякуємо за ваш відгук!
Стиснення даних
Перш ніж розглядати завдання стиснення даних за допомогою PCA, важливо зрозуміти різницю між стисненням даних і зменшенням розмірності.
Зменшення розмірності даних - це один з видів стиснення даних. Методи стиснення даних поділяються на 2 основні класи: ті, в яких оброблені дані можна потім відновити, і ті, в яких це неможливо. Зменшення розмірності даних відноситься до класу 2, тобто після обробки набору даних ми не зможемо відновити його до початкового вигляду. Точніше, це можна зробити, але дані вже не будуть тими самими, це буде наближення до початкового набору даних.
Прийнято вважати, що PCA - це метод не для економії місця в сховищі, а для виконання дорогих операцій для досягнення схожого результату.
Повернімося до коду. У нас є можливість вибрати кількість дисперсії даних, яку ми хочемо зберегти від початкового набору даних. Значення аргументу n_components
має бути між 0
і 1
. У цьому випадку, якщо ми вкажемо 0.85
, це буде 85%
від збереженої дисперсії.
Завдання
Створити модель PCA зі збереженням 90% дисперсії для набору даних iris
:
Дякуємо за ваш відгук!
Стиснення даних
Перш ніж розглядати завдання стиснення даних за допомогою PCA, важливо зрозуміти різницю між стисненням даних і зменшенням розмірності.
Зменшення розмірності даних - це один з видів стиснення даних. Методи стиснення даних поділяються на 2 основні класи: ті, в яких оброблені дані можна потім відновити, і ті, в яких це неможливо. Зменшення розмірності даних відноситься до класу 2, тобто після обробки набору даних ми не зможемо відновити його до початкового вигляду. Точніше, це можна зробити, але дані вже не будуть тими самими, це буде наближення до початкового набору даних.
Прийнято вважати, що PCA - це метод не для економії місця в сховищі, а для виконання дорогих операцій для досягнення схожого результату.
Повернімося до коду. У нас є можливість вибрати кількість дисперсії даних, яку ми хочемо зберегти від початкового набору даних. Значення аргументу n_components
має бути між 0
і 1
. У цьому випадку, якщо ми вкажемо 0.85
, це буде 85%
від збереженої дисперсії.
Завдання
Створити модель PCA зі збереженням 90% дисперсії для набору даних iris
:
Дякуємо за ваш відгук!
Перш ніж розглядати завдання стиснення даних за допомогою PCA, важливо зрозуміти різницю між стисненням даних і зменшенням розмірності.
Зменшення розмірності даних - це один з видів стиснення даних. Методи стиснення даних поділяються на 2 основні класи: ті, в яких оброблені дані можна потім відновити, і ті, в яких це неможливо. Зменшення розмірності даних відноситься до класу 2, тобто після обробки набору даних ми не зможемо відновити його до початкового вигляду. Точніше, це можна зробити, але дані вже не будуть тими самими, це буде наближення до початкового набору даних.
Прийнято вважати, що PCA - це метод не для економії місця в сховищі, а для виконання дорогих операцій для досягнення схожого результату.
Повернімося до коду. У нас є можливість вибрати кількість дисперсії даних, яку ми хочемо зберегти від початкового набору даних. Значення аргументу n_components
має бути між 0
і 1
. У цьому випадку, якщо ми вкажемо 0.85
, це буде 85%
від збереженої дисперсії.
Завдання
Створити модель PCA зі збереженням 90% дисперсії для набору даних iris
: