неділю, 3 грудня 2017 р.

Розподіл порядкових статистик

Статистики вибірки такі я середнє значення вибірки, квантилі вибірки, максимальне та мінімальне значення вибірки відіграють важливу роль в аналізі даних. В цьому дописі я розгляну порядкові статистики і їх розподіли. Порядкові статистики - це елементи випадкової вибірки впорядковані за зростанням. Тут я зосережусь на функції розподілу ймовірностей і густині ймовірності порядкової статистики.

В цьому дописі я розгляну лише випадкові вибірки отримані з неперервних розподілів (тобто функція розподілу ймовірностей неперервна). Нехай $X_1, \dots, X_n$ - це випадкова вибірка розміру $n$ з неперервного розподілу з функцією розподілу ймовірностей $F(x)$. Впорядкувавши цю вибірку у зростному порядку отримуємо $Y_1, \dots, Y_n$.

Порядкова статистика $Y_i$ називається $i$-тою порядковою статистикою. Тут ми припускаємо, що $Y_1 < Y_2 < \dots < Y_n$, тобто збігів бути не може.

Функція розподілу ймовірностей

Якщо має місце подія $Y_i \le y$ тоді ми знаємо, що щонайменше $i$ з $X_j$ лежать ліворуч від $y$. Розглянемо подію, що $Y_j \le y$ як успіх, тоді має місце $n$ проб Бернуллі з імовірністю успіху $F(X \le y)$. Нас цікавить імовірність мати не менше ніж $i$ успіхів: \begin{equation} F_{Y_i}(y) = P(Y_i \le y) = \sum_{k=i}^n\binom{n}{k}F(y)^k(1-F(y))^{n-k} \label{eq:cdf} \end{equation}

Густина ймовірності

Для знаходження густини ймовірності нам знадобиться така формула: \begin{equation} F_{Y_i}(y) = F_{Y_{i-1}}(y) - \binom{n}{i-1}F(y)^{i-1}(1-F(y))^{n-i+1} \label{eq:cdf_diff} \end{equation} Я одразу наведу формулу густину ймовірності, а потім ми доведемо її індукційно. \begin{equation} f_{Y_i}(y) = \frac{n!}{(i-1)!(n-i)!}F(y)^{i-1}(1-F(y))^{n-i}f_X(y)\label{eq:pdf} \end{equation} Почнемо з бази індукції. Розглянемо $i = 1$. Отже, нас цікавить іморність того, що хоча б одна проба менша ніж $y$. Доповняльною подією буде те, що усі проби більші ніж $y$. Тому, $F_{Y_1}(y) = (1 - F(y))^n$. Для отримання густини ймовірності нам потрібно обчислити похідну: $$f_{Y_1}(y) = n(1 - F(y))^{n-1}f_X(y)$$ Припустимо, що ми довели \ref{eq:pdf} для $Y_{i-1}$: $$f_{Y_{i-1}}(y) = \frac{n!}{(i-2)!(n-i+1)!}F(y)^{i-2}(1-F(y))^{n-i+1}f_X(y)$$ Тепер розглянемо випадок для $Y_i$. Тут нам можна скористатись рівнянням \ref{eq:cdf_diff}: \begin{align*} f_{Y_i}(y) &= f_{Y_{i-1}}(y)\\ &\phantom{=}-\binom{n}{i-1}(i-1)F(y)^{i-2}f_X(y)(1-F(y))^{n-i+1}\\ &\phantom{=}-\binom{n}{i-1}F(y)^{i-1}(n-i+1)(1-F(y))^{n-i}f_X(y) \end{align*} Трошки алгебри і правий бік рівняння перетвориться в \ref{eq:pdf}.

Коментар

Розглянемо другу половину \ref{eq:pdf}: $$F(y)^{i-1}f_X(y)(1-F(y))^{n-i}$$ тут перший множник - це імовірність, що $i-1$ проб менші ніж $y$, другий - імовірність, що одна проба поблизу $y$ і третій - імовірність, що $n-i$ проб більші ніж $y$. Таким чином \ref{eq:pdf} - це такий мультиноміальний розподіл: \begin{equation} f_{Y_i}(y) = \frac{n!}{(i-1)!1!(n-i)!}F(y)^{i-1}f_X(y)(1-F(y))^{n-i}\label{eq:pdf_multi} \end{equation}