Bootstrapping on päättelytilastoissa käytetty tekniikka, jolla rakennetaan satunnaisotoksia yksittäisistä tietojoukoista uudelleen ja uudelleen. Bootstrappingin avulla voidaan laskea mittoja, kuten keskiarvo, mediaani,tila, luottamusvälit jne. näytteenotosta.
Seuraavassa on bootstraping-prosessi:
- valitse bootstrap-näytteiden määrä.
- kunkin näytteen koko valitaan.
- kunkin otoksen osalta, jos otoksen koko on pienempi kuin valittu otos, valitaan aineistosta satunnainen havainto ja lisätään se otokseen.
- mittaa tilasto otoksesta.
- mitataan kaikkien laskettujen otosarvojen keskiarvo.
Bootstrapping-menetelmiä
bootstrapping-menetelmiä on 2:
- Jäännösresampling: tätä menetelmää kutsutaan myös mallipohjaiseksi resamplingiksi. Tämä menetelmä olettaa, että malli on oikea ja virheet ovat riippumattomia ja jakautuneet identtisesti. Jokaisen resamplauksen jälkeen muuttujat määritellään uudelleen ja uusia muuttujia käytetään uusien riippuvien muuttujien mittaamiseen.
- Bootstrap-parit: tässä menetelmässä toisistaan riippuvaisia ja riippumattomia muuttujia käytetään yhdessä pareina näytteenotossa.
Bootstrappingin luottamusvälit
luottamusväli (Ci) on tilastotietojen otosaineistosta laskettu laskennallinen arvo. Se tuottaa joukon arvoja tai intervallin, jossa todellinen arvo on varmasti. Bootstrappingissa on 5 eri luottamusväliä seuraavasti:
- perus: Se tunnetaan myös Reverse Percentile Interval ja syntyy käyttäen quantiles bootstrap tietojen jakelu. Matemaattisesti,
jossa,
edustaa luottamusväliä, useimmiten
edustaa bootstraped-kertoimia
edustaa prosenttiprosenttia bootstraped-kertoimista - Normaali: Normaali CI annetaan matemaattisesti,
missä
edustaa datajoukon arvoa t
b on bootstrap-estimaatin harha, ts.,
edustaa bootstrap-jakauman kvantiili
edustaa - Yo: studentized CI: ssä tiedot normalisoidaan siten, että keskihajonta on 0 ja keskihajonta 1 korjaavat jakauman vääristymän.
- Perc-prosenttipiste CI on samanlainen kuin perus CI, mutta eri kaavalla,
- BCa: tämä menetelmä säätää sekä vinoutta että vinoutta, mutta voi olla epävakaa, kun poikkeamat ovat äärimmäisiä. Mathematically,
R-ohjelmoinnissa bootstrappauksen suorittava syntaksi on seuraava:
syntaksi: käynnistys(data, tilasto, R)
parametrit:
data edustaa tietojoukkoa
statistic edustaa tilastollisia funktioita, jotka suoritetaan tietokokonaisuudessa
R edustaa näytteiden määrää
saadaksesi lisätietoja boot()
funktion valinnaisista argumenteista, käytä komentoa:
help("boot")
esimerkki:
install.packages(
"boot"
)
library(boot)
bootFunc <
-
function(data, i){
df <
-
data
c(cor(df, df),
median(df),
mean(df)
)
}
b <
-
boot(mtcars, bootFunc, R
=
100
)
print
(b)
boot.ci(b, index
=
1
)
Tuloste:
ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints