Processing math: 100%

неділя, 21 січня 2018 р.

Збірка широковживаних тестів значущості пов'язаних з нормальним розподілом

Тут я наведу декілька тестів, що працюють з нормально розподіленими даними. Це марна справа намагатись запам'ятати ці тести, натомість ви маєте бути в змозі знайти необхідний тест коли це буде потрібно.

z-тест

  • Використання: Чи рівні середні значення популяції і гіпотетичне середнє.
  • Дані: x_1, x_2, \dots, x_n.
  • Припущення: Дані - це незалежні нормальні проби: x_i \sim N(\mu, \sigma^2), де \mu невідоме, а \sigma - відоме.
  • H_0: для певного \mu_0, \mu = \mu_0.
  • H_A: \mu \ne \mu_0, \mu > \mu_0, \mu < \mu_0.
  • Тестова статистика: z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}
  • Нульовий розподіл: f(z|H_0) - це густина ймовіності Z\sim N(0,1).
  • p-значення:
    Двостороння:p = P(|Z| > z) = 2 * (1 - \mbox{pnorm}(|z|, 0, 1))
    Одностороння-більше:p = P(Z > z) = 1 - \mbox{pnorm}(z, 0, 1)
    Одностороння-менше:p = P(Z > z) = \mbox{pnorm}(z, 0, 1)

Одновибірковий t-тест

  • Використання: Чи рівні середні значення популяції і гіпотетичне середнє.
  • Дані: x_1, x_2, \dots, x_n.
  • Припущення: Дані - це незалежні нормальні проби: x_i \sim N(\mu, \sigma^2), де \mu і \sigma невідомі.
  • H_0: для певного \mu_0, \mu = \mu_0.
  • H_A: \mu \ne \mu_0, \mu > \mu_0, \mu < \mu_0.
  • Тестова статистика: t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}},
    де s^2 - це дисперсія вибірки: s^2 = \frac {1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2
  • Нульовий розподіл: f(t|H_0) - це густина ймовіності T\sim t(n-1). (t-розподіл Стьюдента з n-1 ступенем свободи)
  • p-значення:
    Двостороння:p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))
    Одностороння-більше:p = P(Z > z) = 1 - \mbox{pt}(z, n-1)
    Одностороння-менше:p = P(Z > z) = \mbox{pt}(z, n-1)

Двовибірковий t-тест

Випадок рівних дисперсій

  • Використання: Чи різняться середні значення двох популяцій на гіпотетичну величину.
  • Дані: x_1, x_2, \dots, x_n і y_1, y_2, \cdots, y_m.
  • Припущення: Дані - це незалежні нормальні проби: x_i \sim N(\mu_x, \sigma^2), y_i \sim N(\mu_y, \sigma^2), де \mu_x і \mu_y невідомі, можливо різні і \sigma також невідома.
  • H_0: для певного \mu_0, \mu_x - \mu_y = \mu_0.
  • H_A: \mu_x - \mu_y \ne \mu_0, \mu_x - \mu_y > \mu_0, \mu_x - \mu_y < \mu_0.
  • Тестова статистика: z = \frac{\bar{x}-\bar{y} - \mu_0}{s_{\bar{x}-\bar{y}}},
    де s_x^2, s_y^2 - це дисперсі] двох вибірок, а s_{\bar{x}-\bar{y}} - оцінкова дисперсія: \begin{equation} s_{\bar{x}-\bar{y}} = s_P\left(\frac{1}{n} + \frac{1}{m}\right)\label{eq:sdiff} \end{equation} де s_P - об'єднана (pooled) дисперсія (cереднє зважене): \begin{equation} s_P = \frac{(n-1)s_x^2 + (m-1)s_y^2}{n+m-2} \end{equation} де кількість ступенів свободи df = n+m-2.
    Множник \frac{1}{n}+\frac{1}{m} в \eqref{eq:sdiff} випливає з того факту, що \mbox{Var}(\bar{x}) = \frac{\sigma_x^2}{n} і \mbox{Var}(\bar{x}-\bar{y}) = \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m} = \sigma^2\left(\frac{1}{n}+\frac{1}{m}\right), бо \sigma_x = \sigma_y = \sigma.
  • Нульовий розподіл: f(t|H_0) - це густина ймовіності T\sim t(df).
  • p-значення:
    Двостороння:p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))
    Одностороння-більше:p = P(Z > z) = 1 - \mbox{pt}(z, n-1)
    Одностороння-менше:p = P(Z > z) = \mbox{pt}(z, n-1)

Випадок відмінних дисперсій

Цей випадок майже повністю повторює випадок з рівними дисперсіями, нам лише треба змінити наші припущення і формулу для об'єднаної дисперсії.
  • Використання: Чи різняться середні значення двох популяцій на гіпотетичну величину.
  • Дані: x_1, x_2, \dots, x_n і y_1, y_2, \cdots, y_m.
  • Припущення: Дані - це незалежні нормальні проби: x_i \sim N(\mu_x, \sigma^2), y_i \sim N(\mu_y, \sigma^2), де \mu_x і \mu_y невідомі і різні і \sigma також невідома.
  • H_0: для певного \mu_0, \mu_x - \mu_y = \mu_0.
  • H_A: \mu_x - \mu_y \ne \mu_0, \mu_x - \mu_y > \mu_0, \mu_x - \mu_y < \mu_0.
  • Тестова статистика: z = \frac{\bar{x}-\bar{y} - \mu_0}{s_{\bar{x}-\bar{y}}}, де \begin{equation} s_{\bar{x}-\bar{y}} = \frac{s_x^2}{n} + \frac{s_y^2}{m},\ df = \frac{(s_x^2/n+s_y^2/m)^2}{\frac{(s_x^2/n)^2}{n-1}+\frac{(s_y^2/m)^2}{m-1}} \end{equation}
  • Нульовий розподіл: f(t|H_0) - це густина ймовіності T\sim t(df).
  • p-значення:
    Двостороння:p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))
    Одностороння-більше:p = P(Z > z) = 1 - \mbox{pt}(z, n-1)
    Одностороння-менше:p = P(Z > z) = \mbox{pt}(z, n-1)

Немає коментарів:

Дописати коментар