неділя, 21 січня 2018 р.

Збірка широковживаних тестів значущості пов'язаних з нормальним розподілом

Тут я наведу декілька тестів, що працюють з нормально розподіленими даними. Це марна справа намагатись запам'ятати ці тести, натомість ви маєте бути в змозі знайти необхідний тест коли це буде потрібно.

$z$-тест

  • Використання: Чи рівні середні значення популяції і гіпотетичне середнє.
  • Дані: $x_1, x_2, \dots, x_n$.
  • Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu, \sigma^2)$, де $\mu$ невідоме, а $\sigma$ - відоме.
  • $H_0$: для певного $\mu_0$, $\mu = \mu_0$.
  • $H_A$: $\mu \ne \mu_0, \mu > \mu_0, \mu < \mu_0$.
  • Тестова статистика: $z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$
  • Нульовий розподіл: $f(z|H_0)$ - це густина ймовіності $Z\sim N(0,1)$.
  • $p$-значення:
    Двостороння:$p = P(|Z| > z) = 2 * (1 - \mbox{pnorm}(|z|, 0, 1))$
    Одностороння-більше:$p = P(Z > z) = 1 - \mbox{pnorm}(z, 0, 1)$
    Одностороння-менше:$p = P(Z > z) = \mbox{pnorm}(z, 0, 1)$

Одновибірковий $t$-тест

  • Використання: Чи рівні середні значення популяції і гіпотетичне середнє.
  • Дані: $x_1, x_2, \dots, x_n$.
  • Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu, \sigma^2)$, де $\mu$ і $\sigma$ невідомі.
  • $H_0$: для певного $\mu_0$, $\mu = \mu_0$.
  • $H_A$: $\mu \ne \mu_0, \mu > \mu_0, \mu < \mu_0$.
  • Тестова статистика: $t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}}$,
    де $s^2$ - це дисперсія вибірки: $s^2 = \frac {1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2$
  • Нульовий розподіл: $f(t|H_0)$ - це густина ймовіності $T\sim t(n-1)$. (t-розподіл Стьюдента з $n-1$ ступенем свободи)
  • $p$-значення:
    Двостороння:$p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))$
    Одностороння-більше:$p = P(Z > z) = 1 - \mbox{pt}(z, n-1)$
    Одностороння-менше:$p = P(Z > z) = \mbox{pt}(z, n-1)$

Двовибірковий $t$-тест

Випадок рівних дисперсій

  • Використання: Чи різняться середні значення двох популяцій на гіпотетичну величину.
  • Дані: $x_1, x_2, \dots, x_n$ і $y_1, y_2, \cdots, y_m$.
  • Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu_x, \sigma^2)$, $y_i \sim N(\mu_y, \sigma^2)$, де $\mu_x$ і $\mu_y$ невідомі, можливо різні і $\sigma$ також невідома.
  • $H_0$: для певного $\mu_0$, $\mu_x - \mu_y = \mu_0$.
  • $H_A$: $\mu_x - \mu_y \ne \mu_0, \mu_x - \mu_y > \mu_0, \mu_x - \mu_y < \mu_0$.
  • Тестова статистика: $z = \frac{\bar{x}-\bar{y} - \mu_0}{s_{\bar{x}-\bar{y}}}$,
    де $s_x^2, s_y^2$ - це дисперсі] двох вибірок, а $s_{\bar{x}-\bar{y}}$ - оцінкова дисперсія: \begin{equation} s_{\bar{x}-\bar{y}} = s_P\left(\frac{1}{n} + \frac{1}{m}\right)\label{eq:sdiff} \end{equation} де $s_P$ - об'єднана (pooled) дисперсія (cереднє зважене): \begin{equation} s_P = \frac{(n-1)s_x^2 + (m-1)s_y^2}{n+m-2} \end{equation} де кількість ступенів свободи $df = n+m-2$.
    Множник $\frac{1}{n}+\frac{1}{m}$ в \eqref{eq:sdiff} випливає з того факту, що $\mbox{Var}(\bar{x}) = \frac{\sigma_x^2}{n}$ і $\mbox{Var}(\bar{x}-\bar{y}) = \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m} = \sigma^2\left(\frac{1}{n}+\frac{1}{m}\right)$, бо $\sigma_x = \sigma_y = \sigma$.
  • Нульовий розподіл: $f(t|H_0)$ - це густина ймовіності $T\sim t(df)$.
  • $p$-значення:
    Двостороння:$p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))$
    Одностороння-більше:$p = P(Z > z) = 1 - \mbox{pt}(z, n-1)$
    Одностороння-менше:$p = P(Z > z) = \mbox{pt}(z, n-1)$

Випадок відмінних дисперсій

Цей випадок майже повністю повторює випадок з рівними дисперсіями, нам лише треба змінити наші припущення і формулу для об'єднаної дисперсії.
  • Використання: Чи різняться середні значення двох популяцій на гіпотетичну величину.
  • Дані: $x_1, x_2, \dots, x_n$ і $y_1, y_2, \cdots, y_m$.
  • Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu_x, \sigma^2)$, $y_i \sim N(\mu_y, \sigma^2)$, де $\mu_x$ і $\mu_y$ невідомі і різні і $\sigma$ також невідома.
  • $H_0$: для певного $\mu_0$, $\mu_x - \mu_y = \mu_0$.
  • $H_A$: $\mu_x - \mu_y \ne \mu_0, \mu_x - \mu_y > \mu_0, \mu_x - \mu_y < \mu_0$.
  • Тестова статистика: $z = \frac{\bar{x}-\bar{y} - \mu_0}{s_{\bar{x}-\bar{y}}}$, де \begin{equation} s_{\bar{x}-\bar{y}} = \frac{s_x^2}{n} + \frac{s_y^2}{m},\ df = \frac{(s_x^2/n+s_y^2/m)^2}{\frac{(s_x^2/n)^2}{n-1}+\frac{(s_y^2/m)^2}{m-1}} \end{equation}
  • Нульовий розподіл: $f(t|H_0)$ - це густина ймовіності $T\sim t(df)$.
  • $p$-значення:
    Двостороння:$p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))$
    Одностороння-більше:$p = P(Z > z) = 1 - \mbox{pt}(z, n-1)$
    Одностороння-менше:$p = P(Z > z) = \mbox{pt}(z, n-1)$

Немає коментарів:

Дописати коментар