Статистики вибірки такі я середнє значення вибірки, квантилі вибірки, максимальне та мінімальне значення вибірки відіграють важливу роль в аналізі даних. В цьому дописі я розгляну порядкові статистики і їх розподіли. Порядкові статистики - це елементи випадкової вибірки впорядковані за зростанням. Тут я зосережусь на функції розподілу ймовірностей і густині ймовірності порядкової статистики.
В цьому дописі я розгляну лише випадкові вибірки отримані з неперервних розподілів (тобто функція розподілу ймовірностей неперервна). Нехай X_1, \dots, X_n - це випадкова вибірка розміру n з неперервного розподілу з функцією розподілу ймовірностей F(x). Впорядкувавши цю вибірку у зростному порядку отримуємо Y_1, \dots, Y_n.
Порядкова статистика Y_i називається i-тою порядковою статистикою. Тут ми припускаємо, що Y_1 < Y_2 < \dots < Y_n, тобто збігів бути не може.
Функція розподілу ймовірностей
Якщо має місце подія
Y_i \le y тоді ми знаємо, що щонайменше
i з
X_j лежать ліворуч від
y. Розглянемо подію, що
Y_j \le y як успіх, тоді має місце
n проб Бернуллі з імовірністю успіху
F(X \le y). Нас цікавить імовірність мати не менше ніж
i успіхів:
\begin{equation}
F_{Y_i}(y) = P(Y_i \le y) = \sum_{k=i}^n\binom{n}{k}F(y)^k(1-F(y))^{n-k} \label{eq:cdf}
\end{equation}
Густина ймовірності
Для знаходження густини ймовірності нам знадобиться така формула:
\begin{equation}
F_{Y_i}(y) = F_{Y_{i-1}}(y) - \binom{n}{i-1}F(y)^{i-1}(1-F(y))^{n-i+1} \label{eq:cdf_diff}
\end{equation}
Я одразу наведу формулу густину ймовірності, а потім ми доведемо її індукційно.
\begin{equation}
f_{Y_i}(y) = \frac{n!}{(i-1)!(n-i)!}F(y)^{i-1}(1-F(y))^{n-i}f_X(y)\label{eq:pdf}
\end{equation}
Почнемо з бази індукції. Розглянемо
i = 1. Отже, нас цікавить іморність того, що хоча б одна проба менша ніж
y. Доповняльною подією буде те, що усі проби більші ніж
y. Тому,
F_{Y_1}(y) = (1 - F(y))^n. Для отримання густини ймовірності нам потрібно обчислити похідну:
f_{Y_1}(y) = n(1 - F(y))^{n-1}f_X(y)
Припустимо, що ми довели
\ref{eq:pdf} для
Y_{i-1}:
f_{Y_{i-1}}(y) = \frac{n!}{(i-2)!(n-i+1)!}F(y)^{i-2}(1-F(y))^{n-i+1}f_X(y)
Тепер розглянемо випадок для
Y_i. Тут нам можна скористатись рівнянням
\ref{eq:cdf_diff}:
\begin{align*}
f_{Y_i}(y) &= f_{Y_{i-1}}(y)\\
&\phantom{=}-\binom{n}{i-1}(i-1)F(y)^{i-2}f_X(y)(1-F(y))^{n-i+1}\\
&\phantom{=}-\binom{n}{i-1}F(y)^{i-1}(n-i+1)(1-F(y))^{n-i}f_X(y)
\end{align*}
Трошки алгебри і правий бік рівняння перетвориться в
\ref{eq:pdf}.
Коментар
Розглянемо другу половину
\ref{eq:pdf}:
F(y)^{i-1}f_X(y)(1-F(y))^{n-i}
тут перший множник - це імовірність, що
i-1 проб менші ніж
y, другий - імовірність, що одна проба поблизу
y і третій - імовірність, що
n-i проб більші ніж
y. Таким чином
\ref{eq:pdf} - це такий мультиноміальний розподіл:
\begin{equation}
f_{Y_i}(y) = \frac{n!}{(i-1)!1!(n-i)!}F(y)^{i-1}f_X(y)(1-F(y))^{n-i}\label{eq:pdf_multi}
\end{equation}