Loading [MathJax]/extensions/TeX/mathchoice.js

понеділок, 23 листопада 2015 р.

Вибірка якого розміру n видає помилку не більше ніж \epsilon з упевненістю щонайменше 1-\delta?

Проби Бернулі: X_1, X_2, \cdots, X_n = \begin{cases}1 & з\ імовірністю\ p,\\0 & з\ імовірністю\ q.\end{cases}
Кількість успіхів: S_n = X_1 + X_2 + \cdots + X_n \sim Binomial(n,p).

Бажане співвідношення \mbox{P}\{p-\epsilon\le\frac{S_n}{n}\le p+\epsilon\}\ge 1-\delta.

Тобто якщо взяти \epsilon = 0.03 і \delta = 0.05. То ми можемо озвучити це так: відносна частота успіхів \frac{S_n}{n} буде в радіусі 3% від імовірності p, яка невідома нам, і це відбудеться в середньому в щонайменше 95% випадків.

Ми не можемо дати абсолютних гарантій щодо якоїсь конкретної вибірки. Усе, що ми можемо сказати, - якщо ми проводимо випадкові досліди, то певний відсоток від них, у нашому прикладі - 95%, матимуть якісні відповіді. Але якийсь окремий дослід може дати поганий результат, хоча й з малою на це ймовірністю.

Спростимо нашу формулу: \mbox{P}\{|\frac{S_n}{n}-p|\le \epsilon\}\ge 1-\delta \mbox{P}\{|\frac{S_n}{n}-p|> \epsilon\}\le\delta Тепер спробуймо дати відповідь на запитання: Якщо нам задані параметри \epsilon і \delta, який розмір вибірки ми повинні обрати?

Як стартову точку ми використаємо формулу для дисперсії у випадку біноміального розподілу: \Sigma_{k=0}^n(k-np)^2\cdot b_n(k;p) = npq.

А ми хочемо оцінити:
\mbox{P}\big\{|\frac{S_n}{n}-p| > \epsilon\big\} = \mbox{P}\{|S_n-np|>n\epsilon\}
=\Sigma_{k:|k-np|>n\epsilon}b_n(k;p)
і тут нам на допомогу приходить ідея російського математика Пафнутія Чебишова
=\Sigma_{k:|k-np|>n\epsilon}1\cdot b_n(k;p)
\le\Sigma_{k:|k-np|>n\epsilon}\frac{(k-np)^2}{n^2\epsilon^2}\cdot b_n(k;p)
= \frac{1}{n^2 \epsilon^2}\cdot npq = \frac{p(1-p)}{n \epsilon^2} \le \frac{1}{4n \epsilon^2}
тепер наш результат не залежить від p.
Неважливо наскільки маленьке \epsilon ми оберемо, все одно ми зможемо вибрати настільки велике n, щоб імовірність помилки більше ніж \epsilon була не більше ніж нам потрібно.

Хоча ми й могли б отримати точнішу верхню границю, важливість цього результату надзвичайно велика, тому що він дуже простий.

неділя, 22 листопада 2015 р.

Розподіл Пуассона (рідкісні події)

Біноміальна ймовірність коли p \ll 1 та n \gg 1. Зафіксуємо k і покладемо \lambda = np, тоді {n\choose k} p^k (1-p)^{n-k}= p(k) = \underbrace{p(k;\lambda)}_{Po(k;\lambda)} := e^{-\lambda}\frac{\lambda^k}{k!} \ \ (k=0,1,2,\cdots) \left(1-\frac{\lambda}{n}\right)^n \left(1- \frac{\lambda}{n}\right)^{-k}\left(\frac{\lambda}{n}^k\right)\frac{n!}{(n-k)!k!} \to e^{-\lambda}\frac{\lambda^k}{k!}.

Властивості:

  • Унімодальність
  • Центрування
  • Розповсюдження навколо центра
  • Дзвоноподібна крива
  • Унімодальність

    \frac{p(k)}{p(k-1)} = \frac{\lambda}{k} p(k) > p(k-1) тоді і тільки тоді, якщо \lambda > k.

    Тотожності Пуассона:
    k\cdot p(k;\lambda) = \lambda\cdot p(k-1;\lambda) k^2 \cdot p(k;\lambda) = \lambda^2\cdot p(k-2;\lambda) + \lambda\cdot p(k-1;\lambda)

    Математичне сподівання

    \mbox{E}(X) := \mu = 0\cdot p(0) + 1\cdot p(1) + \cdots + k\cdot p(k) + \cdots
    =0+ \lambda\cdot p(1-1) + \cdots + \lambda\cdot p(k-1) + \cdots
    =\lambda
    Якщо X \sim \mbox{Poisson}(\lambda), тоді \mbox{E}(X)=\lambda.

    Дисперсія

    Ми розглядаємо дисперсію як ймовірнісний момент інерція або очікуваний розкид навколо математичного сподівання. \mbox{Var}(X):=\sigma^2 = \Sigma_k (k-\lambda)^2\cdot p(k) = (\lambda^2+\lambda)-(2\lambda\cdot\lambda)+(\lambda^2\cdot 1) = \lambda Тут ми використали тотожності Пуассона і формулу для квадрата суми.
    Якщо X \sim \mbox{Poisson}(\lambda), тоді \mbox{Var}(X)=\lambda.

    субота, 21 листопада 2015 р.

    Властивості біноміального розподілу

    S_n - кількість успіхів у вибірці розміру n.
    b(k) = b_n(k,p) = {n \choose k}p^kq^{n-k}, (k = 0,1,\cdots,n)

    Унімодальність

    \frac{b(k)}{b(k-1)} = \frac{{n \choose k}p^kq^{n-k}}{{n \choose k-1}p^{k-1}q^{n-k+1}}=\frac{(n-k+1)p}{kq}. Отже, ймовірність зростає допоки \frac{(n-k+1)p}{kq} > 1.
    b(k) > b(k-1) тоді і тільки тоді, коли (n-k+1)p > kq. Або: np+p>kp+kq = k.
    S_n/n, співвідношення успіхів у вибірці розміру n досягає максимуму біля p.

    Центр мас

    \mu = 0 \cdot b(0) + 1 \cdot b(1) + \cdots + k \cdot b(k) + \cdots + n \cdot b(n) = \sum_{k=1}^n k\cdot b_n(k;p) =: \mbox{E}(S_n) \mbox E - математичне сподівання.
    Погравшись із коефіцієнтами і факторіалами ми можемо отримати такі дві тотожності: k\cdot b_n(k;p) = np \frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}q^{n-k} = np \cdot b_{n-1}(k-1;p) k^2\cdot b_n(k;p) = n(n-1)p^2\cdot b_{n-2}(k-2;p)+np\cdot b_{n-1}(k-1;p) Використовуючи першу тотожність маємо, що \mbox E(S_n) = np \sum_{k=1}^n b_{n-1}(k-1;p) = np. Таким чином, ми бачимо, що центр мас майже збігається з піком на графіку біноміального розподілу, тобто маси розподілені майже порівну по обидва боки піка.

    Момент інерції

    Згадаємо, що таке момент інерції: I = mr^2 Дисперсія S_n: \sigma^2 = (0 - np)^2\cdot b(0) + (1-np)^2\cdot b(1) + \cdots +(k-np)^2\cdot b(k) + \cdots + (n-np)^2\cdot b(n) \mbox{Var}(S_n) := \sigma^2 = \Sigma_k (k-np)^2\cdot b_n(k;p) Отже, дисперсія - це момент інерції, де b(k) - це функція маси. Очікуване квадратичне відхилення.
    Стандартне відхилення S_n: \sigma = \sqrt{\mbox{Var}(S_n)}.

    Тут нам і стануть в нагоді отримані в попередньому розділі тотожності.
    \sigma^2= \Sigma_k (k-np)^2\cdot b_n(k;p)
    = \Sigma_k k^2 \cdot b_n(k;p) - 2np\Sigma_k k\cdot b_n(k;p) + n^2p^2\Sigma_k b_n(k;p)
    = \big(n(n-1)p^2 + np\big) - 2np\big(np\big) +n^2p^2\big(1\big)
    = -np^2+np
    = npq
    Якщо S_n \sim \mbox{Binomial}(n,p), тоді \mbox{Var}(S_n) := \sigma^2 = npq.
    Отже, \sigma = \sqrt{npq}.

    понеділок, 16 листопада 2015 р.

    Умовність і незалежність подій

    Незалежні події

    Дві події A і B є незалежними тоді і тільки тоді, якщо їхня спільна ймовірність дорінює добутку їхніх імовірностей: \mathrm{P}(A \cap B) = \mathrm{P}(A)\times\mathrm{P}(B). Якщо A і B незалежні, то також незалежні A і Bc і також Ac і Bc.

    Умовна ймовірність

    Умовною ймовірністю події A при умові події B називається \mathrm{P}(A \vert B) = \frac{\mathrm{P}(A\cap B)}{\mathrm{P}(B)}.

    Умовно незалежні події

    Ми кажемо, що події A і B умовно незалежні за настання події C, якщо \mathrm{P}(A\cap B|C) = \mathrm{P}(A|C)\times \mathrm{P}(B|C). Зауваження
    Умовна незалежність не означає (безумовну) незалежність і навпаки.

    четвер, 12 листопада 2015 р.

    Різноманітні статистики

    Визначення ймовірності P(k_1, k_2, \dots, k_r) спостереження певного випадкового розподілення (k_1, k_2, \dots, k_r) для r урн і n кульок.


  • Статистика Максвелла — Больцмана: розрізненні кульки і урни. Класична теорія статистичної механіки; не застосовна до частинок квантової механіки.

  • P(k_1, k_2, \dots, k_r) = \frac{n!}{k_1!k_2!\dots k_r!}/r^n
  • Статистика Бозе — Ейнштейна: нерозрізненні кульки; розрізненні урни. Застосовна до бозонів: частинок з цілим спіном.

  • P(k_1, k_2, \dots, k_r) = \frac{1}{{n+r-1 \choose n}}
  • Статистика Фермі — Дірака: нерозрізненні кульки коряться принципу виключення Паулі; розрізненні урни. Застосовна до ферміонів: частинок з напівцілим спіном.
  • P(k_1, k_2, \dots, k_r) = \frac{1}{{r \choose n}}