Тут я наведу декілька тестів, що працюють з нормально розподіленими даними. Це марна справа намагатись запам'ятати ці тести, натомість ви маєте бути в змозі знайти необхідний тест коли це буде потрібно.
$z$-тест
- Використання: Чи рівні середні значення популяції і гіпотетичне середнє.
- Дані: $x_1, x_2, \dots, x_n$.
- Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu, \sigma^2)$, де $\mu$ невідоме, а $\sigma$ - відоме.
- $H_0$: для певного $\mu_0$, $\mu = \mu_0$.
- $H_A$: $\mu \ne \mu_0, \mu > \mu_0, \mu < \mu_0$.
- Тестова статистика: $z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$
- Нульовий розподіл: $f(z|H_0)$ - це густина ймовіності $Z\sim N(0,1)$.
- $p$-значення:
Двостороння: | $p = P(|Z| > z) = 2 * (1 - \mbox{pnorm}(|z|, 0, 1))$ |
Одностороння-більше: | $p = P(Z > z) = 1 - \mbox{pnorm}(z, 0, 1)$ |
Одностороння-менше: | $p = P(Z > z) = \mbox{pnorm}(z, 0, 1)$ |
Одновибірковий $t$-тест
- Використання: Чи рівні середні значення популяції і гіпотетичне середнє.
- Дані: $x_1, x_2, \dots, x_n$.
- Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu, \sigma^2)$, де $\mu$ і $\sigma$ невідомі.
- $H_0$: для певного $\mu_0$, $\mu = \mu_0$.
- $H_A$: $\mu \ne \mu_0, \mu > \mu_0, \mu < \mu_0$.
-
Тестова статистика: $t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}}$,
де $s^2$ - це дисперсія вибірки: $s^2 = \frac {1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2$
- Нульовий розподіл: $f(t|H_0)$ - це густина ймовіності $T\sim t(n-1)$. (t-розподіл Стьюдента з $n-1$ ступенем свободи)
- $p$-значення:
Двостороння: | $p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))$ |
Одностороння-більше: | $p = P(Z > z) = 1 - \mbox{pt}(z, n-1)$ |
Одностороння-менше: | $p = P(Z > z) = \mbox{pt}(z, n-1)$ |
Двовибірковий $t$-тест
Випадок рівних дисперсій
- Використання: Чи різняться середні значення двох популяцій на гіпотетичну величину.
- Дані: $x_1, x_2, \dots, x_n$ і $y_1, y_2, \cdots, y_m$.
- Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu_x, \sigma^2)$, $y_i \sim N(\mu_y, \sigma^2)$, де $\mu_x$ і $\mu_y$ невідомі, можливо різні і $\sigma$ також невідома.
- $H_0$: для певного $\mu_0$, $\mu_x - \mu_y = \mu_0$.
- $H_A$: $\mu_x - \mu_y \ne \mu_0, \mu_x - \mu_y > \mu_0, \mu_x - \mu_y < \mu_0$.
-
Тестова статистика: $z = \frac{\bar{x}-\bar{y} - \mu_0}{s_{\bar{x}-\bar{y}}}$,
де $s_x^2, s_y^2$ - це дисперсі] двох вибірок, а $s_{\bar{x}-\bar{y}}$ - оцінкова дисперсія:
\begin{equation}
s_{\bar{x}-\bar{y}} = s_P\left(\frac{1}{n} + \frac{1}{m}\right)\label{eq:sdiff}
\end{equation}
де $s_P$ - об'єднана (pooled) дисперсія (cереднє зважене):
\begin{equation}
s_P = \frac{(n-1)s_x^2 + (m-1)s_y^2}{n+m-2}
\end{equation}
де кількість ступенів свободи $df = n+m-2$.
Множник $\frac{1}{n}+\frac{1}{m}$ в \eqref{eq:sdiff} випливає з того факту, що $\mbox{Var}(\bar{x}) = \frac{\sigma_x^2}{n}$ і $\mbox{Var}(\bar{x}-\bar{y}) = \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m} = \sigma^2\left(\frac{1}{n}+\frac{1}{m}\right)$, бо $\sigma_x = \sigma_y = \sigma$.
- Нульовий розподіл: $f(t|H_0)$ - це густина ймовіності $T\sim t(df)$.
- $p$-значення:
Двостороння: | $p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))$ |
Одностороння-більше: | $p = P(Z > z) = 1 - \mbox{pt}(z, n-1)$ |
Одностороння-менше: | $p = P(Z > z) = \mbox{pt}(z, n-1)$ |
Випадок відмінних дисперсій
Цей випадок майже повністю повторює випадок з рівними дисперсіями, нам лише треба змінити наші припущення і формулу для об'єднаної дисперсії.
- Використання: Чи різняться середні значення двох популяцій на гіпотетичну величину.
- Дані: $x_1, x_2, \dots, x_n$ і $y_1, y_2, \cdots, y_m$.
- Припущення: Дані - це незалежні нормальні проби: $x_i \sim N(\mu_x, \sigma^2)$, $y_i \sim N(\mu_y, \sigma^2)$, де $\mu_x$ і $\mu_y$ невідомі і різні і $\sigma$ також невідома.
- $H_0$: для певного $\mu_0$, $\mu_x - \mu_y = \mu_0$.
- $H_A$: $\mu_x - \mu_y \ne \mu_0, \mu_x - \mu_y > \mu_0, \mu_x - \mu_y < \mu_0$.
-
Тестова статистика: $z = \frac{\bar{x}-\bar{y} - \mu_0}{s_{\bar{x}-\bar{y}}}$, де
\begin{equation}
s_{\bar{x}-\bar{y}} = \frac{s_x^2}{n} + \frac{s_y^2}{m},\ df = \frac{(s_x^2/n+s_y^2/m)^2}{\frac{(s_x^2/n)^2}{n-1}+\frac{(s_y^2/m)^2}{m-1}}
\end{equation}
- Нульовий розподіл: $f(t|H_0)$ - це густина ймовіності $T\sim t(df)$.
- $p$-значення:
Двостороння: | $p = P(|Z| > z) = 2 * (1 - \mbox{pt}(|z|, n-1))$ |
Одностороння-більше: | $p = P(Z > z) = 1 - \mbox{pt}(z, n-1)$ |
Одностороння-менше: | $p = P(Z > z) = \mbox{pt}(z, n-1)$ |
Немає коментарів:
Дописати коментар