Bootstrapping w programowaniu R

Bootstrapping jest techniką stosowaną w statystyce wnioskowania, która działa na budowanie losowych próbek pojedynczych zbiorów danych raz po raz. Bootstrapping umożliwia obliczanie miar takich jak średnia, mediana, tryb, przedziały ufności itp. pobierania próbek.
Oto proces bootstrapowania:

Wybierz liczbę próbek bootstrap.
Wybierz rozmiar każdej próbki.
dla każdej próbki, jeśli rozmiar próbki jest mniejszy niż wybrana próbka, wybierz losową obserwację z zestawu danych i dodaj ją do próbki.
Zmierz statystykę na próbie.
Zmierz średnią wszystkich obliczonych wartości próbki.

metody rozruchu

istnieją 2 metody rozruchu:

resampling resztkowy: ta metoda jest również nazywana resamplingiem opartym na modelu. Metoda ta zakłada, że model jest poprawny, a błędy są niezależne i rozłożone identycznie. Po każdym ponownym próbkowaniu zmienne są ponownie definiowane i nowe zmienne są używane do pomiaru nowych zmiennych zależnych.
pary Bootstrap: w tej metodzie zmienne zależne i niezależne są używane razem jako pary do próbkowania.

rodzaje przedziałów ufności w rozruchu

przedział ufności (CI) jest rodzajem wartości obliczeniowej obliczanej na podstawie danych próbki w statystyce. Tworzy zakres wartości lub przedział, w którym na pewno znajduje się wartość true. Istnieje 5 rodzajów przedziałów ufności w bootstrappingu w następujący sposób:

podstawowe: Jest również znany jako Odwrotny interwał percentyla i jest generowany przy użyciu kwantyli dystrybucji danych bootstrap. Matematycznie,

$\left (2 \ widehat {\theta} - \theta_ {(1- \ alpha / 2)}^{*}, 2 \widehat {\theta} - \theta_{(\alpha / 2)}^{*} \ right)$

gdzie,

$\Alfa$ reprezentuje przedział ufności, najczęściej $\ alpha = 0.95$
$\theta^{*}$
$\theta_ {(1- \ alpha / 2)}^{*}$ reprezentuje $1 - \alpha / 2$ percentyl współczynników ROZRUCHOWYCH
normalny: normalny CI jest matematycznie dany jako,

$\begin{array} {c} t_{0}-b \pm Z_{\alpha} \cdot \mathrm{se}^ {*} \ \ 2 t_{0}-t^ {*} \pm z_{\alpha} \ cdot \mathrm{se}^ { * } \ end{array}$

gdzie,
$t_{0}$ reprezentuje wartość ze zbioru danych t
B jest odchyleniem estymacji bootstrap, tj.,

$\mathbf{b} = \ mathbf{t}^{*}- \ mathbf{t}_{\mathrm{o}}$
$Z_{\alpha}$ reprezentuje $1-\alpha / 2$ kwantyl dystrybucji bootstrap
$se^{*}$ reprezentuje standardowy błąd $t^{*}$
Stud: w studentized CI, dane są znormalizowane z centrum na 0 i odchylenie standardowe 1 korygowanie pochylenia dystrybucji.
percentyl ci jest podobny do podstawowego CI, ale o innym wzorze,

$\left (\theta_ {(\alpha / 2)}^{*}, \theta_ {(1- \ alpha / 2)}^{*} \ right)$
BCa: ta metoda dostosowuje się zarówno do odchylenia, jak i pochylenia, ale może być niestabilna, gdy wartości odstające są ekstremalne. Mathematically,

$\left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)$

składnia do wykonywania bootstrappingu w programowaniu R jest następująca:

składnia: boot (data, statistic, R)

parametry:
dane reprezentują zbiór danych
statystyka reprezentuje funkcje statystyczne do wykonania na zbiorze danych
R reprezentuje liczbę próbek

aby dowiedzieć się więcej o opcjonalnych argumentach funkcji boot(), użyj poniższego polecenia:

help("boot")

przykład:

install.packages("boot")

library(boot)

bootFunc <- function(data, i){

df <- data

c(cor(df, df),

median(df),

mean(df)

)

}

b <- boot(mtcars, bootFunc, R = 100)

print(b)

boot.ci(b, index = 1)

Wyjście:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints

Tagi Artykułu: