Processing math: 0%

неділя, 3 грудня 2017 р.

Розподіл порядкових статистик

Статистики вибірки такі я середнє значення вибірки, квантилі вибірки, максимальне та мінімальне значення вибірки відіграють важливу роль в аналізі даних. В цьому дописі я розгляну порядкові статистики і їх розподіли. Порядкові статистики - це елементи випадкової вибірки впорядковані за зростанням. Тут я зосережусь на функції розподілу ймовірностей і густині ймовірності порядкової статистики.

В цьому дописі я розгляну лише випадкові вибірки отримані з неперервних розподілів (тобто функція розподілу ймовірностей неперервна). Нехай X_1, \dots, X_n - це випадкова вибірка розміру n з неперервного розподілу з функцією розподілу ймовірностей F(x). Впорядкувавши цю вибірку у зростному порядку отримуємо Y_1, \dots, Y_n.

Порядкова статистика Y_i називається i-тою порядковою статистикою. Тут ми припускаємо, що Y_1 < Y_2 < \dots < Y_n, тобто збігів бути не може.

Функція розподілу ймовірностей

Якщо має місце подія Y_i \le y тоді ми знаємо, що щонайменше i з X_j лежать ліворуч від y. Розглянемо подію, що Y_j \le y як успіх, тоді має місце n проб Бернуллі з імовірністю успіху F(X \le y). Нас цікавить імовірність мати не менше ніж i успіхів: \begin{equation} F_{Y_i}(y) = P(Y_i \le y) = \sum_{k=i}^n\binom{n}{k}F(y)^k(1-F(y))^{n-k} \label{eq:cdf} \end{equation}

Густина ймовірності

Для знаходження густини ймовірності нам знадобиться така формула: \begin{equation} F_{Y_i}(y) = F_{Y_{i-1}}(y) - \binom{n}{i-1}F(y)^{i-1}(1-F(y))^{n-i+1} \label{eq:cdf_diff} \end{equation} Я одразу наведу формулу густину ймовірності, а потім ми доведемо її індукційно. \begin{equation} f_{Y_i}(y) = \frac{n!}{(i-1)!(n-i)!}F(y)^{i-1}(1-F(y))^{n-i}f_X(y)\label{eq:pdf} \end{equation} Почнемо з бази індукції. Розглянемо i = 1. Отже, нас цікавить іморність того, що хоча б одна проба менша ніж y. Доповняльною подією буде те, що усі проби більші ніж y. Тому, F_{Y_1}(y) = (1 - F(y))^n. Для отримання густини ймовірності нам потрібно обчислити похідну: f_{Y_1}(y) = n(1 - F(y))^{n-1}f_X(y) Припустимо, що ми довели \ref{eq:pdf} для Y_{i-1}: f_{Y_{i-1}}(y) = \frac{n!}{(i-2)!(n-i+1)!}F(y)^{i-2}(1-F(y))^{n-i+1}f_X(y) Тепер розглянемо випадок для Y_i. Тут нам можна скористатись рівнянням \ref{eq:cdf_diff}: \begin{align*} f_{Y_i}(y) &= f_{Y_{i-1}}(y)\\ &\phantom{=}-\binom{n}{i-1}(i-1)F(y)^{i-2}f_X(y)(1-F(y))^{n-i+1}\\ &\phantom{=}-\binom{n}{i-1}F(y)^{i-1}(n-i+1)(1-F(y))^{n-i}f_X(y) \end{align*} Трошки алгебри і правий бік рівняння перетвориться в \ref{eq:pdf}.

Коментар

Розглянемо другу половину \ref{eq:pdf}: F(y)^{i-1}f_X(y)(1-F(y))^{n-i} тут перший множник - це імовірність, що i-1 проб менші ніж y, другий - імовірність, що одна проба поблизу y і третій - імовірність, що n-i проб більші ніж y. Таким чином \ref{eq:pdf} - це такий мультиноміальний розподіл: \begin{equation} f_{Y_i}(y) = \frac{n!}{(i-1)!1!(n-i)!}F(y)^{i-1}f_X(y)(1-F(y))^{n-i}\label{eq:pdf_multi} \end{equation}