Інші статистичні методи
Свайпніть щоб показати меню
Під час виявлення дрейфу в наборах даних вибір відповідного статистичного методу є вирішальним. Критерій хі-квадрат зазвичай використовується для категоріальних ознак, оскільки він вимірює, чи змінився розподіл спостережуваних категорій між двома вибірками статистично значущим чином. Натомість критерій Андерсона–Дарлінга особливо чутливий до відмінностей у хвостах розподілу та добре підходить для неперервних ознак, особливо якщо є підозра, що дрейф може виникати на крайніх значеннях, а не в центрі розподілу.
Використання критерію хі-квадрат для категоріальних ознак, таких як кольори або типи продуктів, коли потрібно порівняти частоту кожної категорії. Вибір критерію Андерсона–Дарлінга для неперервних ознак, коли потрібна чутливість до змін у хвостах розподілу, наприклад, для рідкісних, але значущих подій.
1234567891011121314151617181920import numpy as np from scipy.stats import chi2_contingency # Synthetic categorical data: observed frequencies for two time periods # Categories: ['Red', 'Blue', 'Green'] sample1 = [30, 50, 20] # Reference period counts sample2 = [25, 55, 20] # Current period counts # Build contingency table contingency_table = np.array([sample1, sample2]) # Apply Chi-Square test chi2, p, dof, expected = chi2_contingency(contingency_table) print("Chi-Square statistic:", chi2) print("p-value:", p) if p < 0.05: print("Significant drift detected in categorical feature.") else: print("No significant drift detected in categorical feature.")
Хоча як критерій хі-квадрат, так і критерій Андерсона–Дарлінга є корисними для виявлення дрейфу, їх застосування залежить від характеристик ваших даних. Критерій хі-квадрат обмежується категоріальними даними та вимагає достатнього розміру вибірки в кожній категорії для отримання надійних результатів. Він не може виявити тонкі зміни у формі розподілу — лише відмінності у частотах категорій. Критерій Андерсона–Дарлінга, навпаки, призначений для неперервних даних і відмінно виявляє зміни у хвостах розподілу, що робить його більш чутливим, ніж тест Kolmogorov–Smirnov для певних типів дрейфу. Проте він не підходить для категоріальних змінних і може бути надто чутливим до викидів у малих вибірках.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат