GeeksforGeeks

Bootstrapping ist eine Technik, die in der Inferenzstatistik verwendet wird und bei der immer wieder Zufallsstichproben einzelner Datensätze erstellt werden. Bootstrapping ermöglicht die Berechnung von Kennzahlen wie Mittelwert, Median, Modus, Konfidenzintervallen usw. der Probenahme.
Es folgt der Prozess des Bootstrappings:

  • Wählen Sie die Anzahl der Bootstrap-Samples.
  • Wählen Sie die Größe jeder Probe.
  • Wenn die Stichprobe kleiner als die ausgewählte Stichprobe ist, wählen Sie für jede Stichprobe eine zufällige Beobachtung aus dem Datensatz aus und fügen Sie sie der Stichprobe hinzu.
  • Messen Sie die Statistik der Stichprobe.
  • Messen Sie den Mittelwert aller berechneten Stichprobenwerte.

Methoden zum Bootstrapping

Es gibt 2 Methoden zum Bootstrapping:

  • Residual Resampling: Diese Methode wird auch als modellbasiertes Resampling bezeichnet. Diese Methode geht davon aus, dass das Modell korrekt ist und Fehler unabhängig und identisch verteilt sind. Nach jedem Resampling werden Variablen neu definiert und neue Variablen verwendet, um die neuen abhängigen Variablen zu messen.
  • Bootstrap-Paare: Bei dieser Methode werden abhängige und unabhängige Variablen zusammen als Paare für die Stichprobe verwendet.

Arten von Konfidenzintervallen beim Bootstrapping

Das Konfidenzintervall (CI) ist eine Art von Rechenwert, der anhand von Stichprobendaten in Statistiken berechnet wird. Es erzeugt einen Wertebereich oder ein Intervall, in dem der wahre Wert sicher liegt. Es gibt 5 Arten von Konfidenzintervallen im Bootstrapping wie folgt:

  • Grundausstattung: Es wird auch als umgekehrtes Perzentilintervall bezeichnet und unter Verwendung von Quantilen der Bootstrap-Datenverteilung generiert. Mathematisch,

    \ links (2 \widehat{\theta}-\theta_{(1-\alpha / 2)}^{*}, 2 \ widehat{\theta}-\theta_{(\alpha / 2)}^{*}\rechts)

    wo,

    \ alpha repräsentiert das Konfidenzintervall, meistens \alpha = 0 .95
    \ theta^{*} repräsentiert Bootstrap-Koeffizienten
    \theta_{(1-\alpha / 2)}^{*} repräsentiert 1-\alpha / 2 Perzentil der Bootstrap-Koeffizienten

  • Normal: Normales CI ist mathematisch gegeben als,

    \ beginnen Sie {array} {c} t_ {0} -b \ pm Z_ {\alpha} \ cdot \ mathrm {se} ^ {*} \\ 2 t_ {0} -t ^ {*} \ pm Z_ {\alpha} \cdot \ mathrm {se} ^{*} \ Ende {array}

    wobei
    t_{0} einen Wert aus dem Datensatz darstellt t
    b ist die Verzerrung der Bootstrap-Schätzung, dh.,

    \ mathbf{b}=\mathbf{t}^{*}-\mathbf{t}_{\mathrm{o}}
     Z_{\alpha} repräsentiert 1-\alpha / 2 Quantil der Bootstrap-Verteilung
    se^{*} repräsentiert den Standardfehler vont^{*}

  • Stud: In studentized CI werden die Daten normalisiert, wobei der Mittelpunkt bei 0 und die Standardabweichung 1 die Verzerrung der Verteilung korrigieren.
  • Perc – Perzentil-CI ähnelt dem Basis-CI, hat jedoch eine andere Formel,

    \ links (\theta_{(\alpha / 2)}^{*}, \ theta_{(1-\alpha / 2)}^{*}\rechts)

  • BCa: Diese Methode passt sowohl Bias als auch Schiefe an, kann jedoch instabil sein, wenn Ausreißer extrem sind. Mathematically,

    \left(\theta_{0}+\frac{\theta_{0}+\theta_{\alpha}}{1-a\left(\theta_{0}-\theta_{\alpha}\right)}, \theta_{0}+\frac{\theta_{0}+\theta_{(1-\alpha)}}{1-a\left(\theta_{0}-\theta_{(1-\alpha)}\right)}\right)

Die Syntax zum Ausführen von Bootstrapping in der R-Programmierung lautet wie folgt:

Syntax: boot(Daten, Statistik, R)

Parameter:
data repräsentiert dataset
statistic repräsentiert Statistikfunktionen, die für dataset
R repräsentiert die Anzahl der Samples

Um mehr über optionale Argumente der boot() -Funktion zu erfahren, verwenden Sie den folgenden Befehl:

help("boot")

Beispiel:

install.packages("boot")
library(boot)
bootFunc <- function(data, i){
df <- data
c(cor(df, df),
median(df),
mean(df)
)
}
b <- boot(mtcars, bootFunc, R = 100)
print(b)
boot.ci(b, index = 1)



Ausgang:

ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = mtcars, statistic = bootFunc, R = 100)Bootstrap Statistics : original bias std. errort1* 0.9020329 -0.002195625 0.02104139t2* 6.0000000 0.340000000 0.85540468t3* 20.0906250 -0.110812500 0.96052824BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 100 bootstrap replicatesCALL : boot.ci(boot.out = b, index = 1)Intervals : Level Normal Basic 95% ( 0.8592, 0.9375 ) ( 0.8612, 0.9507 ) Level Percentile BCa 95% ( 0.8534, 0.9429 ) ( 0.8279, 0.9280 ) Calculations and Intervals on Original ScaleSome basic intervals may be unstableSome percentile intervals may be unstableWarning : BCa Intervals used Extreme QuantilesSome BCa intervals may be unstableWarning messages:1: In boot.ci(b, index = 1) : bootstrap variances needed for studentized intervals2: In norm.inter(t, adj.alpha) : extreme order statistics used as endpoints
Artikelnummer:



+