Кількість успіхів: $S_n = X_1 + X_2 + \cdots + X_n \sim Binomial(n,p).$
Бажане співвідношення $\mbox{P}\{p-\epsilon\le\frac{S_n}{n}\le p+\epsilon\}\ge 1-\delta.$
Тобто якщо взяти $\epsilon = 0.03$ і $\delta = 0.05.$ То ми можемо озвучити це так: відносна частота успіхів $\frac{S_n}{n}$ буде в радіусі 3% від імовірності $p$, яка невідома нам, і це відбудеться в середньому в щонайменше 95% випадків.
Ми не можемо дати абсолютних гарантій щодо якоїсь конкретної вибірки. Усе, що ми можемо сказати, - якщо ми проводимо випадкові досліди, то певний відсоток від них, у нашому прикладі - 95%, матимуть якісні відповіді. Але якийсь окремий дослід може дати поганий результат, хоча й з малою на це ймовірністю.
Спростимо нашу формулу: $$\mbox{P}\{|\frac{S_n}{n}-p|\le \epsilon\}\ge 1-\delta$$ $$\mbox{P}\{|\frac{S_n}{n}-p|> \epsilon\}\le\delta$$ Тепер спробуймо дати відповідь на запитання: Якщо нам задані параметри $\epsilon$ і $\delta$, який розмір вибірки ми повинні обрати?
Як стартову точку ми використаємо формулу для дисперсії у випадку біноміального розподілу: $\Sigma_{k=0}^n(k-np)^2\cdot b_n(k;p) = npq$.
А ми хочемо оцінити:
$ \mbox{P}\big\{|\frac{S_n}{n}-p| > \epsilon\big\}$ | $ = \mbox{P}\{|S_n-np|>n\epsilon\}$ |
$ =\Sigma_{k:|k-np|>n\epsilon}b_n(k;p)$ | |
і тут нам на допомогу приходить ідея російського математика Пафнутія Чебишова | |
$ =\Sigma_{k:|k-np|>n\epsilon}1\cdot b_n(k;p)$ | |
$ \le\Sigma_{k:|k-np|>n\epsilon}\frac{(k-np)^2}{n^2\epsilon^2}\cdot b_n(k;p)$ | |
$ = \frac{1}{n^2 \epsilon^2}\cdot npq = \frac{p(1-p)}{n \epsilon^2} \le \frac{1}{4n \epsilon^2}$ | |
тепер наш результат не залежить від $p$. |
Хоча ми й могли б отримати точнішу верхню границю, важливість цього результату надзвичайно велика, тому що він дуже простий.
Немає коментарів:
Дописати коментар