Коваріаційна матриця
Наступний крок - створення коваріаційної матриці. Навіщо ми це робимо? Коваріаційна матриця дозволяє побачити зв'язок між змінними в наборі даних. Якщо деякі змінні мають сильну кореляцію між собою, це дозволить нам уникнути надлишкової інформації на наступному кроці. У цьому і полягає сенс алгоритму PCA: зробити відмінності між змінними більш вираженими і позбутися інформаційного перевантаження.
Коваріаційна матриця - це симетрична матриця виду nxn, де n - загальна кількість вимірів, тобто змінних, які ми маємо в наборі даних. Якщо у нас є 5 змінних: x1
, x2
, x3
, x4
, x5
, то коваріаційна матриця 5x5 матиме такий вигляд:
Зверніть увагу на знак значень коваріації: якщо вона додатна, то змінні корелюють між собою (коли одна збільшується або зменшується, друга також), якщо від'ємна, то змінні мають обернену кореляцію (коли одна збільшується, друга зменшується і навпаки).
Для обчислення коваріаційної матриці використаємо numpy
:
cov_mat = np.cov(X_scaled, rowvar = False)
Swipe to start coding
Прочитати набір даних з файлу train.csv
(файл з Інтернету), стандартизувати дані, обчислити коваріаційну матрицю та вивести її на екран.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 5.26
Коваріаційна матриця
Свайпніть щоб показати меню
Наступний крок - створення коваріаційної матриці. Навіщо ми це робимо? Коваріаційна матриця дозволяє побачити зв'язок між змінними в наборі даних. Якщо деякі змінні мають сильну кореляцію між собою, це дозволить нам уникнути надлишкової інформації на наступному кроці. У цьому і полягає сенс алгоритму PCA: зробити відмінності між змінними більш вираженими і позбутися інформаційного перевантаження.
Коваріаційна матриця - це симетрична матриця виду nxn, де n - загальна кількість вимірів, тобто змінних, які ми маємо в наборі даних. Якщо у нас є 5 змінних: x1
, x2
, x3
, x4
, x5
, то коваріаційна матриця 5x5 матиме такий вигляд:
Зверніть увагу на знак значень коваріації: якщо вона додатна, то змінні корелюють між собою (коли одна збільшується або зменшується, друга також), якщо від'ємна, то змінні мають обернену кореляцію (коли одна збільшується, друга зменшується і навпаки).
Для обчислення коваріаційної матриці використаємо numpy
:
cov_mat = np.cov(X_scaled, rowvar = False)
Swipe to start coding
Прочитати набір даних з файлу train.csv
(файл з Інтернету), стандартизувати дані, обчислити коваріаційну матрицю та вивести її на екран.
Рішення
Дякуємо за ваш відгук!
Awesome!
Completion rate improved to 5.26single