Аналитика данных
June 6

Ошибки первого и второго рода в A/B тестировании

A/B тест - это инструмент принятия решений под неопределённостью. Вы никогда не знаете «правду» о вашем продукте со 100% уверенностью: у вас есть только выборка данных. Именно поэтому в любом тесте возможны два типа ошибок - и задача хорошего дизайна эксперимента состоит не в том, чтобы их исключить (это невозможно), а в том, чтобы заранее договориться, какой риск допустим.

Прежде чем говорить об ошибках, нужно понять отправную точку.

В каждом A/B тесте есть нулевая гипотеза H₀: «изменение, которое мы тестируем, не оказывает никакого эффекта на метрику». Это ваша «ставка по умолчанию» - вы предполагаете, что вариант B ничем не лучше контрольного варианта

Ваша задача - решить: отвергнуть H₀ (объявить победителя) или не отвергнуть H₀ (эффекта не найдено). Обе эти ситуации могут оказаться верными или ошибочными — вот откуда берутся две ошибки.

Ошибка первого рода (α) — False Positive

Определение: Вы решили отказаться от гипотезы, хотя на самом деле эффект был и бизнес мог с этого заработать. Вы отвергли нулевую гипотезу, которая была верной.

Простая аналогия из медицины: вы сказали здоровому человеку, что он болен. Тест дал положительный результат, но болезни нет

В продуктовом A/B тесте это выглядит так:

  • Вы запустили новый онбординг-флоу
  • Тест показал +5% к конверсии, p-value < 0.1
  • Вы раскатываете на всех пользователей
  • Через месяц: эффект исчезает, конверсия возвращается на базовый уровень
  • Вы потратили ресурсы на фичу, которая не работала — просто «повезло» с выборкой

Вероятность ошибки первого рода = α (уровень значимости). Если α = 0.1 (доверие 90%), значит, в 10% тестов без реального эффекта вы всё равно увидите «значимый» результат.

Почему 10%, а не 5%? При доверии 95% (α = 0.05) нужно значительно больше трафика. Для большинства продуктовых команд 90% — разумный компромисс: вы принимаете, что примерно 1 тест из 10 будет «ложной тревогой»

Ошибка второго рода (β) — False Negative

Определение: Вы не нашли эффекта, хотя он реально существует. Вы не отвергли нулевую гипотезу, когда она была ложной

Медицинская аналогия: вы сказали больному человеку, что он здоров. Болезнь есть, но тест её не увидел.

В продукте это выглядит так:

  • Вы запустили новый процесс активации
  • Тест собрал 2000 пользователей, прирост <5% не значим для нас (p > 0.1)
  • Вы откатываете изменение как «не работающее»
  • Но на самом деле эффект был — просто выборка была слишком мала, чтобы его «поймать"

Вероятность ошибки второго рода = β. При мощности теста 80% β = 20% — то есть в 2 тестах из 10, где эффект реально существует, вы его пропустите.[^11][^12]

Почему β = 20% считается допустимым? Чтобы снизить β до 10% (мощность 90%), потребуется существенно больше трафика и времени. При ограниченных ресурсах и высокой частоте экспериментов 80% мощности — стандартный практический компромисс

Визуализация: два распределения

На графике видны две нормальные кривые. Левая (синяя) — распределение результата при истинной H₀ (эффекта нет). Правая (красная) — распределение при альтернативной гипотезе H₁ (эффект есть и равен ожидаемому MDE).

Вертикальная пунктирная линия — критический порог, который определяется α:

  • Под синей кривой правее порога — ошибка первого рода (α = 10%): «увидели победителя там, где его нет»[^5][^13]
  • Под красной кривой левее порога — ошибка второго рода (β = 20%): «пропустили настоящий эффект»[^13][^5]
  • Под красной кривой правее порогамощность теста (1 − β = 80%): «поймали реальный эффект»[^12][^14]

Матрица решений

Все возможные исходы A/B теста можно уложить в матрицу

Из матрицы видно: обе ошибки существуют одновременно, и их нельзя обнулить одновременно. Снижение α (строже к ложным победителям) автоматически увеличивает β (чаще пропускаем реальные эффекты) при фиксированном размере выборки.

Как параметры связаны между собой

Все три параметра образуют единую мат. систему

Все эти числа согласованы: нельзя задать confidence = 90% и потом смотреть на p-value < 0.05 - это внутреннее противоречие

Как выбрать баланс α и β в продукте

Выбор зависит от цены каждой из ошибок в конкретной ситуации

Когда важнее минимизировать ошибку 1-го рода (ложный позитив):

  • Продуктовые изменения с высокой стоимостью внедрения (рефакторинг бэкенда, редизайн ключевого флоу)
  • Решения, которые трудно откатить
  • Тесты, затрагивающие безопасность или платёжную воронку → Используйте более строгое доверие: 95–99% (α = 0.05 или 0.01)

Когда важнее минимизировать ошибку 2-го рода (ложный негатив):

  • Быстрые продуктовые итерации с малым трафиком
  • Тест на ранней стадии гипотезы, где важно «не пропустить сигнал»
  • Изменения, которые легко раскатить и откатить → Можно снизить мощность до 70–75%, чтобы ускорить тест, или повысить MDE

Стандарт большинства продуктовых команд: α = 0.1, мощность 80% — это рабочий баланс для регулярных экспериментов при ограниченном трафике.

Практические следствия для команды

Из ошибки первого рода:

  • Никогда не останавливайте тест досрочно «потому что уже видно результат» - это резко повышает реальный α
  • Если тестируете много гипотез подряд без корректировки (проблема множественных сравнений), реальный α накапливается

Из ошибки второго рода:

  • Если тест завершился без значимого результата, это не значит «фича не работает» — возможно, у вас просто не хватило выборки
  • Размер выборки нужно рассчитывать до запуска теста, исходя из заданных α, мощности и MDE
  • При малом трафике лучше тестировать меньше гипотез, но с правильным размером выборки, чем много — с ненадёжными результатами

Материалы

  1. Type 1 and Type 2 Errors in Statistics - Type 1 (or type I) error, also referred to as false positive, which is the wrong rejection of a null...
  2. What are Type 1 and Type 2 Errors in A/B Testing and How ... - Type 1 error is the probability of rejecting the null hypothesis when it is true, usually determined...
  3. Type I and type II errors - Type I error, or a false positive, is the incorrect rejection of a true null hypothesis in statistic...
  4. Проверка результатов A/B теста - Max Tsvetkov - Ошибка второго рода (false negative) происходит, когда верна альтернативная гипотеза, но было принят...
  5. Type 1 Errors and Type 2 Errors, Explained - Type 1 errors, also known as false positives, happen when we incorrectly reject a true null hypothes...
  6. Ошибки первого и второго рода - Оши́бка второ́го ро́да (β-ошибка, ложноотрицательное заключение) — ситуация, когда принята неверная ...
  7. What are Type 1 and Type 2 Errors? - In A/B testing, a Type I error (false positive) ships a losing variant; a Type II error (false negat...
  8. Mobile A/B Testing: Statistical Significance and Confidence ... - You can also come across 90% and 99% confidence levels, other parameter values are quite rare. mobil...
  9. Что такое АБ тестирование? - энциклопедия BigdataSchool - Ошибка первого рода. Ситуация, когда мы ошибочно признаем различие там, где его нет. Это ложноположи...
  10. What are Type I and Type II errors? - Type I errors occur when you incorrectly reject a true null hypothesis. · Type II errors occur when ...
  11. Data Science Essentials – Crash Course in A/B Testing with ... - In this applied Data Science Crash Course, we cover everything you need to know about A/B testing, f...
  12. Sample size calculation and power analysis for AB testing - In practice, usually, a test power equal to or greater than 80% is considered acceptable (which corr...
  13. Type I and Type II Errors: False Positives, False Negatives ... - Type I Error (False Positive): 0 is true) It represents the false positive rate of your test. A Type...
  14. Understanding statistical power in A/B testing - In simple terms, it's a test's ability to detect a real effect when one truly exists. It reflects th...
  15. A/B Testing 101 - A/B testing is a quantitative research method that tests two or more design variations with a live a...
  16. A/B testing calculator for statistical significance - The level of confidence you can have that your results are not due to random chance. 90% 95% 99% Cal...
  17. Four Ways to Improve Statistical Power in A/B Testing - Statistical power measures the chance of NOT making a Type II error, meaning it shows how likely we ...