GeeksforGeeks

Bootstrapping je technika používaná v inferenční statistice, že práce na budování náhodné vzorky z jediné datové sady znovu a znovu. Bootstrapping umožňuje vypočítat opatření, jako je průměr, medián, režim, intervaly spolehlivosti atd. vzorkování.
následuje proces bootstrapping:

  • Vyberte počet vzorků bootstrap.
  • Vyberte velikost každého vzorku.
  • pro každý vzorek, pokud je velikost vzorku menší než vybraný vzorek, vyberte náhodné pozorování z datové sady a přidejte jej do vzorku.
  • Změřte statistiku na vzorku.
  • změřte průměr všech vypočtených hodnot vzorku.

metody bootstrappingu

existují 2 metody bootstrappingu:

  • Zbytkové převzorkování: tato metoda se také nazývá převzorkování založené na modelu. Tato metoda předpokládá, že model je správný a chyby jsou nezávislé a distribuovány shodně. Po každém převzorkování jsou proměnné předefinovány a nové proměnné jsou použity k měření nových závislých proměnných.
  • Bootstrap páry: v této metodě se závislé a nezávislé proměnné používají společně jako páry pro vzorkování.

Typy Intervalů Spolehlivosti v Bootstrapping

Interval Spolehlivosti (CI) je typ výpočetní hodnota vypočtená na vzorku dat v oblasti statistiky. Vytváří rozsah hodnot nebo interval, kde skutečná hodnota leží pro jistotu. Existují 5 typy intervalů spolehlivosti v bootstrappingu následovně:

  • základní: To je také známé jako reverzní percentil Interval a je generován pomocí kvantilů bootstrap distribuce dat. Matematicky,

    \left(2 \widehat{\theta}-\theta_{(1-\alpha / 2)}^{*}, 2 \widehat{\theta}-\theta_{(\alpha / 2)}^{*}\right)

    kde,

    \alfa představuje interval spolehlivosti, většinou \alpha = 0.95
    \theta^{*} představuje bootstrapped koeficienty
    \theta_{(1-\alpha / 2)}^{*} představuje 1-\alpha / 2 percentil bootstrapped koeficienty

  • Normální: Normální CI je matematicky dána jako,

    \begin{array}{c} t_{0}-b \pm Z_{\alpha} \cdot \mathrm{se}^{*} \\ 2 t_{0}-t^{*} \pm Z_{\alpha} \cdot \mathrm{se}^{*} \end{array}

    kde,
    t_{0} představuje hodnotu z datového souboru t
    b je bias z bootstrap odhad tj.,

    \mathbf{b}=\mathbf{t}^{*}-\mathbf{t}_{\mathrm{o}}
    Z_{\alpha} představuje 1-\alpha / 2 kvantil bootstrap rozložení
    se^{*} představuje standardní chybat^{*}

  • Stud: V studentized CI, data jsou normalizována se středem v 0 a směrodatná odchylka 1 korekce zešikmení distribuce.
  • Perc – Percentil CI je podobný základní CI, ale s jiným vzorcem,

    \left(\theta_{(\alpha / 2)}^{*}, \theta_{(1-\alpha / 2)}^{*}\right)

  • BCa: Tato metoda upravuje pro oba zaujatost a šikmost, ale může být nestabilní, když odlehlé hodnoty jsou extrémní. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

syntaxe provést bootstrapping v R programování je následující:

Syntaxi: boot(data, statistika, R)

Parametry:
data představuje dataset
statistika představuje statistika funkce, které mají být provedeny na dataset
R představuje počet vzorků

dozvědět Se o další volitelné argumenty boot() funkce, použijte následující příkaz:

help("boot")

Příklad:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Výstup:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Článek Tagy :



+