Вивчайте Інші статистичні методи

Свайпніть щоб показати меню

Під час виявлення дрейфу в наборах даних вибір відповідного статистичного методу є вирішальним. Критерій хі-квадрат зазвичай використовується для категоріальних ознак, оскільки він вимірює, чи змінився розподіл спостережуваних категорій між двома вибірками статистично значущим чином. Натомість критерій Андерсона–Дарлінга особливо чутливий до відмінностей у хвостах розподілу та добре підходить для неперервних ознак, особливо якщо є підозра, що дрейф може виникати на крайніх значеннях, а не в центрі розподілу.

Примітка

Використання критерію хі-квадрат для категоріальних ознак, таких як кольори або типи продуктів, коли потрібно порівняти частоту кожної категорії. Вибір критерію Андерсона–Дарлінга для неперервних ознак, коли потрібна чутливість до змін у хвостах розподілу, наприклад, для рідкісних, але значущих подій.


              1234567891011121314151617181920
            
import numpy as np
from scipy.stats import chi2_contingency

# Synthetic categorical data: observed frequencies for two time periods
# Categories: ['Red', 'Blue', 'Green']
sample1 = [30, 50, 20]   # Reference period counts
sample2 = [25, 55, 20]   # Current period counts

# Build contingency table
contingency_table = np.array([sample1, sample2])

# Apply Chi-Square test
chi2, p, dof, expected = chi2_contingency(contingency_table)

print("Chi-Square statistic:", chi2)
print("p-value:", p)
if p < 0.05:
    print("Significant drift detected in categorical feature.")
else:
    print("No significant drift detected in categorical feature.")

Хоча як критерій хі-квадрат, так і критерій Андерсона–Дарлінга є корисними для виявлення дрейфу, їх застосування залежить від характеристик ваших даних. Критерій хі-квадрат обмежується категоріальними даними та вимагає достатнього розміру вибірки в кожній категорії для отримання надійних результатів. Він не може виявити тонкі зміни у формі розподілу — лише відмінності у частотах категорій. Критерій Андерсона–Дарлінга, навпаки, призначений для неперервних даних і відмінно виявляє зміни у хвостах розподілу, що робить його більш чутливим, ніж тест Kolmogorov–Smirnov для певних типів дрейфу. Проте він не підходить для категоріальних змінних і може бути надто чутливим до викидів у малих вибірках.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 6