Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Інші статистичні методи | Розділ
Виявлення та моніторинг дрейфу у виробничих ML-системах

Інші статистичні методи

Свайпніть щоб показати меню

Під час виявлення дрейфу в наборах даних вибір відповідного статистичного методу є вирішальним. Критерій хі-квадрат зазвичай використовується для категоріальних ознак, оскільки він вимірює, чи змінився розподіл спостережуваних категорій між двома вибірками статистично значущим чином. Натомість критерій Андерсона–Дарлінга особливо чутливий до відмінностей у хвостах розподілу та добре підходить для неперервних ознак, особливо якщо є підозра, що дрейф може виникати на крайніх значеннях, а не в центрі розподілу.

Note
Примітка

Використання критерію хі-квадрат для категоріальних ознак, таких як кольори або типи продуктів, коли потрібно порівняти частоту кожної категорії. Вибір критерію Андерсона–Дарлінга для неперервних ознак, коли потрібна чутливість до змін у хвостах розподілу, наприклад, для рідкісних, але значущих подій.

1234567891011121314151617181920
import numpy as np from scipy.stats import chi2_contingency # Synthetic categorical data: observed frequencies for two time periods # Categories: ['Red', 'Blue', 'Green'] sample1 = [30, 50, 20] # Reference period counts sample2 = [25, 55, 20] # Current period counts # Build contingency table contingency_table = np.array([sample1, sample2]) # Apply Chi-Square test chi2, p, dof, expected = chi2_contingency(contingency_table) print("Chi-Square statistic:", chi2) print("p-value:", p) if p < 0.05: print("Significant drift detected in categorical feature.") else: print("No significant drift detected in categorical feature.")

Хоча як критерій хі-квадрат, так і критерій Андерсона–Дарлінга є корисними для виявлення дрейфу, їх застосування залежить від характеристик ваших даних. Критерій хі-квадрат обмежується категоріальними даними та вимагає достатнього розміру вибірки в кожній категорії для отримання надійних результатів. Він не може виявити тонкі зміни у формі розподілу — лише відмінності у частотах категорій. Критерій Андерсона–Дарлінга, навпаки, призначений для неперервних даних і відмінно виявляє зміни у хвостах розподілу, що робить його більш чутливим, ніж тест Kolmogorov–Smirnov для певних типів дрейфу. Проте він не підходить для категоріальних змінних і може бути надто чутливим до викидів у малих вибірках.

question mark

Який статистичний тест слід використовувати для виявлення дрейфу у ознаці, що представляє вік клієнта (неперервна змінна), особливо якщо вас турбують зміни у крайніх значеннях?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 6

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 6
some-alt