Bootstrapping je technika používaná v inferenční statistice, že práce na budování náhodné vzorky z jediné datové sady znovu a znovu. Bootstrapping umožňuje vypočítat opatření, jako je průměr, medián, režim, intervaly spolehlivosti atd. vzorkování.
následuje proces bootstrapping:
- Vyberte počet vzorků bootstrap.
- Vyberte velikost každého vzorku.
- pro každý vzorek, pokud je velikost vzorku menší než vybraný vzorek, vyberte náhodné pozorování z datové sady a přidejte jej do vzorku.
- Změřte statistiku na vzorku.
- změřte průměr všech vypočtených hodnot vzorku.
metody bootstrappingu
existují 2 metody bootstrappingu:
- Zbytkové převzorkování: tato metoda se také nazývá převzorkování založené na modelu. Tato metoda předpokládá, že model je správný a chyby jsou nezávislé a distribuovány shodně. Po každém převzorkování jsou proměnné předefinovány a nové proměnné jsou použity k měření nových závislých proměnných.
- Bootstrap páry: v této metodě se závislé a nezávislé proměnné používají společně jako páry pro vzorkování.
Typy Intervalů Spolehlivosti v Bootstrapping
Interval Spolehlivosti (CI) je typ výpočetní hodnota vypočtená na vzorku dat v oblasti statistiky. Vytváří rozsah hodnot nebo interval, kde skutečná hodnota leží pro jistotu. Existují 5 typy intervalů spolehlivosti v bootstrappingu následovně:
- základní: To je také známé jako reverzní percentil Interval a je generován pomocí kvantilů bootstrap distribuce dat. Matematicky,
kde,
představuje interval spolehlivosti, většinou
představuje bootstrapped koeficienty
představuje percentil bootstrapped koeficienty - Normální: Normální CI je matematicky dána jako,
kde,
představuje hodnotu z datového souboru t
b je bias z bootstrap odhad tj.,
představuje kvantil bootstrap rozložení
představuje standardní chyba - Stud: V studentized CI, data jsou normalizována se středem v 0 a směrodatná odchylka 1 korekce zešikmení distribuce.
- Perc – Percentil CI je podobný základní CI, ale s jiným vzorcem,
- BCa: Tato metoda upravuje pro oba zaujatost a šikmost, ale může být nestabilní, když odlehlé hodnoty jsou extrémní. Mathematically,
syntaxe provést bootstrapping v R programování je následující:
Syntaxi: boot(data, statistika, R)
Parametry:
data představuje dataset
statistika představuje statistika funkce, které mají být provedeny na dataset
R představuje počet vzorků
dozvědět Se o další volitelné argumenty boot()
funkce, použijte následující příkaz:
help("boot")
Příklad:
install.packages(
"boot"
)
library(boot)
bootFunc <
-
function(data, i){
df <
-
data
c(cor(df, df),
median(df),
mean(df)
)
}
b <
-
boot(mtcars, bootFunc, R
=
100
)
print
(b)
boot.ci(b, index
=
1
)
Výstup:
ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints