понеділок, 23 листопада 2015 р.

Вибірка якого розміру $n$ видає помилку не більше ніж $\epsilon$ з упевненістю щонайменше $1-\delta$?

Проби Бернулі: $X_1, X_2, \cdots, X_n = \begin{cases}1 & з\ імовірністю\ p,\\0 & з\ імовірністю\ q.\end{cases}$
Кількість успіхів: $S_n = X_1 + X_2 + \cdots + X_n \sim Binomial(n,p).$

Бажане співвідношення $\mbox{P}\{p-\epsilon\le\frac{S_n}{n}\le p+\epsilon\}\ge 1-\delta.$

Тобто якщо взяти $\epsilon = 0.03$ і $\delta = 0.05.$ То ми можемо озвучити це так: відносна частота успіхів $\frac{S_n}{n}$ буде в радіусі 3% від імовірності $p$, яка невідома нам, і це відбудеться в середньому в щонайменше 95% випадків.

Ми не можемо дати абсолютних гарантій щодо якоїсь конкретної вибірки. Усе, що ми можемо сказати, - якщо ми проводимо випадкові досліди, то певний відсоток від них, у нашому прикладі - 95%, матимуть якісні відповіді. Але якийсь окремий дослід може дати поганий результат, хоча й з малою на це ймовірністю.

Спростимо нашу формулу: $$\mbox{P}\{|\frac{S_n}{n}-p|\le \epsilon\}\ge 1-\delta$$ $$\mbox{P}\{|\frac{S_n}{n}-p|> \epsilon\}\le\delta$$ Тепер спробуймо дати відповідь на запитання: Якщо нам задані параметри $\epsilon$ і $\delta$, який розмір вибірки ми повинні обрати?

Як стартову точку ми використаємо формулу для дисперсії у випадку біноміального розподілу: $\Sigma_{k=0}^n(k-np)^2\cdot b_n(k;p) = npq$.

А ми хочемо оцінити:
$ \mbox{P}\big\{|\frac{S_n}{n}-p| > \epsilon\big\}$$ = \mbox{P}\{|S_n-np|>n\epsilon\}$
$ =\Sigma_{k:|k-np|>n\epsilon}b_n(k;p)$
і тут нам на допомогу приходить ідея російського математика Пафнутія Чебишова
$ =\Sigma_{k:|k-np|>n\epsilon}1\cdot b_n(k;p)$
$ \le\Sigma_{k:|k-np|>n\epsilon}\frac{(k-np)^2}{n^2\epsilon^2}\cdot b_n(k;p)$
$ = \frac{1}{n^2 \epsilon^2}\cdot npq = \frac{p(1-p)}{n \epsilon^2} \le \frac{1}{4n \epsilon^2}$
тепер наш результат не залежить від $p$.
Неважливо наскільки маленьке $\epsilon$ ми оберемо, все одно ми зможемо вибрати настільки велике $n$, щоб імовірність помилки більше ніж $\epsilon$ була не більше ніж нам потрібно.

Хоча ми й могли б отримати точнішу верхню границю, важливість цього результату надзвичайно велика, тому що він дуже простий.

неділю, 22 листопада 2015 р.

Розподіл Пуассона (рідкісні події)

Біноміальна ймовірність коли $p \ll 1$ та $n \gg 1$. Зафіксуємо $k$ і покладемо $\lambda = np$, тоді $${n\choose k} p^k (1-p)^{n-k}= p(k) = \underbrace{p(k;\lambda)}_{Po(k;\lambda)} := e^{-\lambda}\frac{\lambda^k}{k!} \ \ (k=0,1,2,\cdots)$$ $$\left(1-\frac{\lambda}{n}\right)^n \left(1- \frac{\lambda}{n}\right)^{-k}\left(\frac{\lambda}{n}^k\right)\frac{n!}{(n-k)!k!} \to e^{-\lambda}\frac{\lambda^k}{k!}.$$

Властивості:

  • Унімодальність
  • Центрування
  • Розповсюдження навколо центра
  • Дзвоноподібна крива
  • Унімодальність

    $$\frac{p(k)}{p(k-1)} = \frac{\lambda}{k}$$ $p(k) > p(k-1)$ тоді і тільки тоді, якщо $\lambda > k.$

    Тотожності Пуассона:
    $$ k\cdot p(k;\lambda) = \lambda\cdot p(k-1;\lambda)$$ $$ k^2 \cdot p(k;\lambda) = \lambda^2\cdot p(k-2;\lambda) + \lambda\cdot p(k-1;\lambda)$$

    Математичне сподівання

    $\mbox{E}(X) := \mu$$ = 0\cdot p(0) + 1\cdot p(1) + \cdots + k\cdot p(k) + \cdots $
    $=0+ \lambda\cdot p(1-1) + \cdots + \lambda\cdot p(k-1) + \cdots$
    $=\lambda$
    Якщо $X \sim \mbox{Poisson}(\lambda),$ тоді $\mbox{E}(X)=\lambda.$

    Дисперсія

    Ми розглядаємо дисперсію як ймовірнісний момент інерція або очікуваний розкид навколо математичного сподівання. $$\mbox{Var}(X):=\sigma^2 = \Sigma_k (k-\lambda)^2\cdot p(k) = (\lambda^2+\lambda)-(2\lambda\cdot\lambda)+(\lambda^2\cdot 1) = \lambda$$ Тут ми використали тотожності Пуассона і формулу для квадрата суми.
    Якщо $X \sim \mbox{Poisson}(\lambda),$ тоді $\mbox{Var}(X)=\lambda.$

    суботу, 21 листопада 2015 р.

    Властивості біноміального розподілу

    $S_n -$ кількість успіхів у вибірці розміру $n.$
    $$b(k) = b_n(k,p) = {n \choose k}p^kq^{n-k}, (k = 0,1,\cdots,n)$$

    Унімодальність

    $$\frac{b(k)}{b(k-1)} = \frac{{n \choose k}p^kq^{n-k}}{{n \choose k-1}p^{k-1}q^{n-k+1}}=\frac{(n-k+1)p}{kq}.$$ Отже, ймовірність зростає допоки $\frac{(n-k+1)p}{kq} > 1.$
    $b(k) > b(k-1)$ тоді і тільки тоді, коли $(n-k+1)p > kq.$ Або: $np+p>kp+kq = k.$
    $S_n/n,$ співвідношення успіхів у вибірці розміру $n$ досягає максимуму біля $p.$

    Центр мас

    $$\mu = 0 \cdot b(0) + 1 \cdot b(1) + \cdots + k \cdot b(k) + \cdots + n \cdot b(n) = \sum_{k=1}^n k\cdot b_n(k;p) =: \mbox{E}(S_n)$$ $\mbox E -$ математичне сподівання.
    Погравшись із коефіцієнтами і факторіалами ми можемо отримати такі дві тотожності: $$k\cdot b_n(k;p) = np \frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}q^{n-k} = np \cdot b_{n-1}(k-1;p)$$ $$k^2\cdot b_n(k;p) = n(n-1)p^2\cdot b_{n-2}(k-2;p)+np\cdot b_{n-1}(k-1;p)$$ Використовуючи першу тотожність маємо, що $$\mbox E(S_n) = np \sum_{k=1}^n b_{n-1}(k-1;p) = np.$$ Таким чином, ми бачимо, що центр мас майже збігається з піком на графіку біноміального розподілу, тобто маси розподілені майже порівну по обидва боки піка.

    Момент інерції

    Згадаємо, що таке момент інерції: $$I = mr^2$$ Дисперсія $S_n:$ $$\sigma^2 = (0 - np)^2\cdot b(0) + (1-np)^2\cdot b(1) + \cdots +(k-np)^2\cdot b(k) + \cdots + (n-np)^2\cdot b(n)$$ $$\mbox{Var}(S_n) := \sigma^2 = \Sigma_k (k-np)^2\cdot b_n(k;p)$$ Отже, дисперсія - це момент інерції, де $b(k)$ - це функція маси. Очікуване квадратичне відхилення.
    Стандартне відхилення $S_n:$ $\sigma = \sqrt{\mbox{Var}(S_n)}.$

    Тут нам і стануть в нагоді отримані в попередньому розділі тотожності.
    $\sigma^2=$ $\Sigma_k (k-np)^2\cdot b_n(k;p)$
    $=$ $\Sigma_k k^2 \cdot b_n(k;p) - 2np\Sigma_k k\cdot b_n(k;p) + n^2p^2\Sigma_k b_n(k;p)$
    $=$ $\big(n(n-1)p^2 + np\big) - 2np\big(np\big) +n^2p^2\big(1\big)$
    $=$ $-np^2+np$
    $=$ $npq$
    Якщо $S_n \sim \mbox{Binomial}(n,p),$ тоді $\mbox{Var}(S_n) := \sigma^2 = npq.$
    Отже, $\sigma = \sqrt{npq}.$

    понеділок, 16 листопада 2015 р.

    Умовність і незалежність подій

    Незалежні події

    Дві події A і B є незалежними тоді і тільки тоді, якщо їхня спільна ймовірність дорінює добутку їхніх імовірностей: $$\mathrm{P}(A \cap B) = \mathrm{P}(A)\times\mathrm{P}(B).$$ Якщо A і B незалежні, то також незалежні A і Bc і також Ac і Bc.

    Умовна ймовірність

    Умовною ймовірністю події A при умові події B називається $$\mathrm{P}(A \vert B) = \frac{\mathrm{P}(A\cap B)}{\mathrm{P}(B)}.$$

    Умовно незалежні події

    Ми кажемо, що події A і B умовно незалежні за настання події C, якщо $$\mathrm{P}(A\cap B|C) = \mathrm{P}(A|C)\times \mathrm{P}(B|C).$$ Зауваження
    Умовна незалежність не означає (безумовну) незалежність і навпаки.

    четвер, 12 листопада 2015 р.

    Різноманітні статистики

    Визначення ймовірності $P(k_1, k_2, \dots, k_r)$ спостереження певного випадкового розподілення $(k_1, k_2, \dots, k_r)$ для $r$ урн і $n$ кульок.


  • Статистика Максвелла — Больцмана: розрізненні кульки і урни. Класична теорія статистичної механіки; не застосовна до частинок квантової механіки.

  • $P(k_1, k_2, \dots, k_r) = \frac{n!}{k_1!k_2!\dots k_r!}/r^n$
  • Статистика Бозе — Ейнштейна: нерозрізненні кульки; розрізненні урни. Застосовна до бозонів: частинок з цілим спіном.

  • $P(k_1, k_2, \dots, k_r) = \frac{1}{{n+r-1 \choose n}}$
  • Статистика Фермі — Дірака: нерозрізненні кульки коряться принципу виключення Паулі; розрізненні урни. Застосовна до ферміонів: частинок з напівцілим спіном.
  • $P(k_1, k_2, \dots, k_r) = \frac{1}{{r \choose n}}$