GeeksforGeeks

Bootstrapping er en teknikk som brukes i inferensiell statistikk som arbeider med å bygge tilfeldige prøver av enkelt datasett igjen og igjen. Bootstrapping gjør det mulig å beregne tiltak som gjennomsnitt, median, modus, konfidensintervaller, etc. av prøvetaking.
Følgende er prosessen med bootstrapping:

  • Velg antall bootstrap prøver.
  • Velg størrelsen på hver prøve.
  • for hver prøve, hvis størrelsen på prøven er mindre enn den valgte prøven, velger du en tilfeldig observasjon fra datasettet og legger den til prøven.
  • Mål statistikken på prøven.
  • Mål gjennomsnittet av alle beregnede utvalgsverdier.

Metoder For Bootstrapping

det finnes 2 metoder for bootstrapping:

  • Residual Resampling: denne metoden kalles også som modellbasert resampling. Denne metoden forutsetter at modellen er riktig og feil er uavhengige og distribuert identisk. Etter hver resampling omdefineres variabler og nye variabler brukes til å måle de nye avhengige variablene.
  • Bootstrap Par: i denne metoden brukes avhengige og uavhengige variabler sammen som par for prøvetaking.

Typer Konfidensintervaller I Bootstrapping

Konfidensintervall (KI) er en type beregningsverdi beregnet på et utvalg av data i statistikk. Den produserer en rekke verdier eller et intervall der sann verdi ligger i sikkert. Det er 5 typer konfidensintervaller i bootstrapping som følger:

  • Grunnleggende: Det er Også kjent Som Omvendt Persentilintervall og genereres ved hjelp av quantiler av bootstrap datadistribusjon. Matematisk,

    \venstre (2 \ widehat{\theta} - \theta_ {(1- \ alpha / 2)}^{*}, 2 \widehat{\theta} - \theta_ {(\alpha / 2)}^{ * }\høyre)

    hvor,

    \alfa representerer konfidensintervall, for det meste  \alfa = 0.95
    \theta^{ * } representerer bootstrappede koeffisienter
     \theta_ {(1- \ alfa / 2)}^{*} representerer  1- \ alfa / 2 prosentil av bootstrapped koeffisienter

  • Normal: Normal KI er matematisk gitt som,

    \start{array} {c} t_ {0}-b \pm Z_ {\alpha} \cdot \mathrm {se}^ {*} \ \ 2 t_{0} - t^{*} \pm Z_ {\alpha} \ cdot \ mathrm{se}^ { * } \end{array}

    hvor
    t_{0} representerer en verdi fra datasettet t
    b er bias av bootstrap estimat dvs.,

    \mathbf{b} = \ mathbf {t}^{ * }-\mathbf{t}_{\mathrm{o}}
    Z_ {\alpha} representerer  1- \ alpha / 2 quantile av bootstrap distribusjon
     se^{ * } representerer standardfeil på  t^{*}

  • Stud: i studentized CI normaliseres data med senter ved 0 og standardavvik 1 som korrigerer skjevheten i distribusjonen.
  • Perc – Persentil KI er lik grunnleggende KI, men med forskjellig formel,

    \venstre(\theta_{(\alpha / 2)}^{*}, \theta_ {(1 - \ alpha / 2)}^{ * } \ høyre)

  • BCa: denne metoden justerer for både skjevhet og skjevhet, men kan være ustabil når uteliggere er ekstreme. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

syntaksen for å utføre bootstrapping I R programmering er som følger:

Syntaks: oppstart (data, statistikk, R)

Parametere:
data representerer datasett
statistikk representerer statistiske funksjoner som skal utføres på datasett
r representerer antall prøver

hvis du vil lære om flere valgfrie argumenter for boot() funksjon, bruk kommandoen nedenfor:

help("boot")

Eksempel:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Utgang:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Artikkel Tags:



+