Bootstrapping er en teknik, der anvendes i inferentiel statistik, der arbejder på at opbygge tilfældige prøver af enkelt datasæt igen og igen. Bootstrapping gør det muligt at beregne foranstaltninger som middelværdi, median, tilstand, konfidensintervaller osv. af prøveudtagningen.
Følgende er processen med bootstrapping:
- Vælg antal bootstrap prøver.
- Vælg størrelse på hver prøve.
- for hver prøve, hvis størrelsen af prøven er mindre end den valgte prøve, vælg derefter en tilfældig observation fra datasættet og tilføj den til prøven.
- mål statistikken på prøven.
- mål gennemsnittet af alle beregnede prøveværdier.
metoder til Bootstrapping
der er 2 metoder til bootstrapping:
- resterende Resampling: denne metode kaldes også som modelbaseret resampling. Denne metode forudsætter, at modellen er korrekt, og fejl er uafhængige og fordelt identisk. Efter hver resampling omdefineres variabler, og nye variabler bruges til at måle de nye afhængige variabler.
- Bootstrap-par: i denne metode bruges afhængige og uafhængige variabler sammen som par til prøveudtagning.
typer af konfidensintervaller i Bootstrapping
konfidensinterval (CI) er en type beregningsværdi beregnet på en stikprøvedata i statistik. Det producerer en række værdier eller et interval, hvor sand værdi ligger i for sikker. Der er 5 typer konfidensintervaller i bootstrapping som følger:
- grundlæggende: Det er også kendt som omvendt Percentilinterval og genereres ved hjælp af kvantiler af bootstrap-datadistribution. Matematisk,
hvor,
repræsenterer konfidensinterval, for det meste
repræsenterer bootstrapped koefficienter
repræsenterer percentil af bootstrapped koefficienter - Normal: Normal CI er matematisk givet som,
hvor,
repræsenterer en værdi fra datasæt t
b er bias af bootstrap estimat dvs.,
repræsenterer kvantile af bootstrap distribution
repræsenterer standardfejl på - Stud: i studentiseret CI normaliseres data med center ved 0 og standardafvigelse 1, der korrigerer skævheden i distributionen.
- Perc-percentil CI svarer til grundlæggende CI, men med anden formel,
- BCa: denne metode justeres for både bias og skævhed, men kan være ustabil, når outliers er ekstreme. Mathematically,
syntaksen til at udføre bootstrapping i R-Programmering er som følger:
syntaks: boot (data, statistik, R)
parametre:
data repræsenterer datasæt
statistik repræsenterer statistiske funktioner, der skal udføres på datasæt
R repræsenterer antal prøver
for at lære om flere valgfri argumenter for boot()
funktion, brug nedenstående kommando:
help("boot")
eksempel:
install.packages(
"boot"
)
library(boot)
bootFunc <
-
function(data, i){
df <
-
data
c(cor(df, df),
median(df),
mean(df)
)
}
b <
-
boot(mtcars, bootFunc, R
=
100
)
print
(b)
boot.ci(b, index
=
1
)
Output:
ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints