Свайпніть щоб показати меню

Коваріаційна матриця

Наступний крок - створення коваріаційної матриці. Навіщо ми це робимо? Коваріаційна матриця дозволяє побачити зв'язок між змінними в наборі даних. Якщо деякі змінні мають сильну кореляцію між собою, це дозволить нам уникнути надлишкової інформації на наступному кроці. У цьому і полягає сенс алгоритму PCA: зробити відмінності між змінними більш вираженими і позбутися інформаційного перевантаження.

Коваріаційна матриця - це симетрична матриця виду nxn, де n - загальна кількість вимірів, тобто змінних, які ми маємо в наборі даних. Якщо у нас є 5 змінних: x1, x2, x3, x4, x5, то коваріаційна матриця 5x5 матиме такий вигляд:

Зверніть увагу на знак значень коваріації: якщо вона додатна, то змінні корелюють між собою (коли одна збільшується або зменшується, друга також), якщо від'ємна, то змінні мають обернену кореляцію (коли одна збільшується, друга зменшується і навпаки).

Для обчислення коваріаційної матриці використаємо numpy: