Échantillonnage >
Les techniques de rééchantillonnage sont un ensemble de méthodes permettant de répéter l’échantillonnage d’un échantillon ou d’une population donné, ou d’estimer la précision d’une statistique. Bien que la méthode semble intimidante, les mathématiques impliquées sont relativement simples et ne nécessitent qu’une compréhension de l’algèbre au niveau secondaire.
De manière informelle, le rééchantillonnage peut signifier quelque chose d’un peu plus simple: répétez n’importe quelle méthode d’échantillonnage. Par exemple, si vous effectuez un test de rapport de probabilité séquentiel et que vous ne parvenez pas à une conclusion, vous rééchantillonnez et relancez le test. Dans la plupart des cas, si vous lisez sur le rééchantillonnage (par opposition au « rééchantillonnage »), l’auteur parle probablement d’une technique de rééchantillonnage spécifique.
Techniques de rééchantillonnage spécifiques
Les techniques principales sont:
- Amorçage et rééchantillonnage normal (échantillonnage à partir d’une distribution normale).
- Rééchantillonnage par permutation (également appelé Réarrangements ou Rerandomisation),
- Validation croisée.
Amorçage et rééchantillonnage normal
L’amorçage est un type de rééchantillonnage dans lequel un grand nombre d’échantillons plus petits de même taille sont tirés à plusieurs reprises, avec remplacement, à partir d’un seul échantillon original. Le rééchantillonnage normal est très similaire à l’amorçage, car il s’agit d’un cas particulier du modèle de décalage normal — l’une des hypothèses d’amorçage (Westfall et al., 1993). L’amorçage et le rééchantillonnage normal supposent tous deux que les échantillons sont tirés d’une population réelle (réelle ou théorique). Une autre similitude est que les deux techniques utilisent l’échantillonnage avec remplacement.
Idéalement, vous voudriez tirer de grands échantillons non répétés d’une population afin de créer une distribution d’échantillonnage pour une statistique. Cependant, des ressources limitées peuvent vous empêcher d’obtenir la statistique idéale. Le rééchantillonnage signifie que vous pouvez prélever de petits échantillons encore et encore à partir de la même population. En plus d’économiser du temps et de l’argent, les échantillons peuvent être de très bonnes approximations pour les paramètres de population.
Rééchantillonnage par permutation
Contrairement à l’amorçage, le rééchantillonnage par permutation ne nécessite aucune « population »; le rééchantillonnage ne dépend que de l’affectation des unités aux groupes de traitement. Le fait que vous traitiez d’échantillons réels, au lieu de populations, est l’une des raisons pour lesquelles on l’appelle parfois la technique d’amorçage de référence (Strawderman et Mehr, 1990). Une autre différence importante est que le rééchantillonnage par permutation est une technique d’échantillonnage sans remplacement.
Validation croisée
La validation croisée est un moyen de valider un modèle prédictif. Les sous-ensembles des données sont supprimés pour être utilisés comme ensemble de validation ; les données restantes sont utilisées pour former un ensemble d’entraînement, qui est utilisé pour prédire l’ensemble de validation.
——————————————————————————
Besoin d’aide pour une question de devoirs ou de test? Avec Chegg Study, vous pouvez obtenir des solutions étape par étape à vos questions d’un expert dans le domaine. Vos 30 premières minutes avec un tuteur Chegg sont gratuites!