Un Hommage Statcast au Terrain le Plus Étrange du Baseball: l’Eephus

14 novembre 2017

Je suis obsédé par l’eephus depuis un certain temps. Chaque fois que je vois un joueur sortir ce terrain de son arsenal, je deviens à parts égales excité et embêté. Ma réaction est généralement à parts égales « Je pourrais lancer ça » et « comment diable n’a-t-il pas frappé ça? »

Pour ceux qui ne sont pas familiers, voici une description rapide et l’histoire de l’eephus. En bref, un eephus est un lancer de erreur: il a une livraison paresseuse de style rec-league, peut se cambrer bien au-dessus de la tête du frappeur en route vers la plaque et a tendance à voyager de 40 à 70 mi / h lorsqu’il quitte la main du lanceur. Il est souvent difficile de dire s’il a été lancé exprès ou si le lanceur a temporairement oublié comment lancer une balle de baseball.

Ce lancer aurait été lancé pour la première fois par Bill Phillips, qui en fit une partie intégrante de son jeu de 1890 à 1903. Le terrain a ensuite été mis en évidence par Rip Sewell environ 40 ans plus tard, et a été utilisé sporadiquement depuis. Ce terrain a porté divers noms au fil des ans, y compris en tant que « terrain indésirable », « poisson mort », « LaLob » et « globe spatial » pour son arche haute (source: Une brève histoire des Pitch-NYTimes d’Eephus).

Bien en dessous de la vitesse d’un changement moyen, et généralement dépourvu de tout élément de tromperie quant à ce qui arrive dans sa livraison, pourquoi quelqu’un lance-t-il ce discours bizarre? La théorie dominante est que la vitesse comiquement lente de ce lancer déclenche l’étalonnage d’un frappeur, ce qui rend les lancers qui suivent extrêmement rapides. Dans d’autres cas, les gens spéculent que le lancer est simplement une erreur, ayant glissé de la main du lanceur. Quoi qu’il en soit, peu de recherches ont été faites à ce jour sur ce terrain peu commun, et je pense qu’il mérite mieux que cela. Ainsi, cet article va servir d’analyse exploratoire et d’hommage au mythique eephus.

Avant d’aller plus loin dans cet article, voici quelques suggestions rapides de visualisation pour le contexte sur le terrain de la grande ligue que vous pourriez probablement lancer aussi efficacement que Clayton Kershaw:

 Compilation de Pitch d'Eephus

Maintenant que ce pitch a reçu suffisamment de battage médiatique, rapprochons-nous de l’eephus et voyons à quoi il ressemble par les chiffres. Pour ce faire, nous aurons besoin de données sur chaque eephus lancé pendant les époques Statcast et PITCHf/x. Pour cela, j’ai utilisé la bibliothèque pybaseball pour récupérer les données Statcast et PITCHf /x sur chaque lancer de ligue majeure lancé depuis la saison 2008. Parmi ces 7 212 136 observations, seules 2 090 d’entre elles représentent les hauteurs d’eephus. C’est juste 0,02% – un pas rare en effet!

Eephus lancés par saison

L’eephus a connu son âge d’or de l’ère Statcast en 2014, lorsque plus de 400 ont été lancés. À l’exception des saisons 2012-2015, il semble plus courant de voir moins de 200 lancers au cours d’une année donnée. En ce qui concerne la liste des lanceurs qui ont utilisé ce terrain, il devient clair que ce n’est pas un hasard si le pic d’utilisation des eephus de 2012 à 2015 a coïncidé avec l’ère d’un R.A. Dickey en bonne santé. En fait, ce lanceur d’eéphus est responsable de plus de deux fois plus de lancers d’eéphus que le prochain utilisateur le plus prolifique du terrain.

Eephus compte par pichet, 2008 – 2017

Dans l’histoire récente, seuls Dickey, Padilla, Despaigne et Chen ont été suffisamment prolifiques pour avoir plus de 100 exemples en jeu à leur actif. Il est logique que ce soit un terrain peu commun pour la plupart de ceux qui l’utilisent; une fois que l’eephus perd son élément de surprise, ce n’est plus un terrain nouveau et désorientant, mais essentiellement une petite balle rapide de niveau Série Mondiale que n’importe quel frappeur des ligues majeures valant sa place sur une liste frapperait hors du parc.

Étant donné que les données sur un type de hauteur particulier ne sont pertinentes que dans le contexte d’autres hauteurs, nous comparerons d’abord l’eephus aux choses les plus proches de ses pairs: la balle rapide, la balle de poing et le changement.

Le point de données le plus pertinent ici est la vitesse: l’eephus a une vitesse moyenne de seulement 64,5 mph. C’est 23% plus lent que le changement moyen, et 30% plus lent que la balle rapide moyenne. Cependant, le pas ne démontre pas le même taux de rotation faible que d’autres pas délibérément lents, bien que la lenteur soit sa caractéristique déterminante. Alors que le knuckleball et le changeup affichent des taux de rotation dans les années 1500 et 1700, l’eephus tourne à 2301 tr / min – un solide 100 tr / min plus rapide que la balle rapide moyenne. Comme la vitesse de rotation est une mesure relativement nouvelle à laquelle avoir accès, les experts ne sont pas complètement certains de ce que signifie une vitesse de rotation élevée ou faible pour la qualité de la hauteur. Les premières recherches suggèrent cependant qu’un taux de rotation élevé est une bonne chose pour une balle qui ne casse pas.


Zones de diffusion (source: Baseball Savant)

La dernière statistique récapitulative indiquée dans le tableau ci-dessus est le pourcentage de chaque type de lancer placé au milieu de la zone de frappe, le long de ses bords et à l’extérieur. Ici, j’utilise les zones de Statcast indiquées ci-dessus, définissant « au milieu » comme étant dans la zone 5, « zone de bord de frappe » comme zones 1, 2, 3, 4, 6, 7, 8, et 9, et « strikezone extérieur » comme zones 11 à 14. À un niveau élevé, plus les lancers sont éloignés du milieu de la zone de frappe, plus il est probable que les lanceurs utilisent ce lancer pour des raisons stratégiques et moins il est probable qu’un lanceur ait confiance en la capacité du lancer à dépasser un frappeur sans être placé de manière experte. Ici, nous voyons ce à quoi nous nous attendions. Les balles rapides sont placées dans la zone de frappe relativement plus souvent que le changement de vitesse lente et les eephus, les eephus étant projetés en dehors de la zone de frappe deux points de pourcentage plus souvent que le changement et 12 points de pourcentage plus souvent que la balle rapide. Cela a un sens intuitif, car on peut imaginer qu’un frappeur de puissance bien préparé pourrait faire des dégâts à un lancer de 60 mph lancé au milieu. En raison de la haute arche de l’eephus, il peut être difficile de le placer avec précision, ce qui contribuerait également à la fréquence à laquelle il atterrit en dehors de la zone de frappe.


Placement d’Eephus (L) et de balle rapide (R) du Point de vue de la pâte

La figure ci-dessus montre cette même idée un peu plus en détail. Bien que la taille de l’échantillon soit beaucoup plus petite pour l’eephus que pour la balle rapide, il est clair que les lanceurs d’eephus font un effort concerté pour garder ce terrain bien hors de portée, au détriment du fait qu’il n’a souvent aucune chance d’entrer dans la zone de frappe.

Bien que les statistiques sommaires soient utiles, une moyenne simple ne raconte jamais toute l’histoire. Pour mieux comprendre le terrain le plus lent du baseball, examinons comment ses vitesses de libération sont réparties par rapport à ces autres terrains.

De cette figure, nous pouvons voir que la lenteur de l’ééphus est encore plus prononcée qu’on ne l’aurait cru! En fait, si nous éliminons le 1% le plus rapide des hauteurs d’eephus qui sont des valeurs aberrantes qui semblent avoir été mal classées, nous voyons que les 99% restants des hauteurs d’eephus enregistrées sont plus lents que 97% des changements enregistrés. Ainsi, bien qu’il y ait un certain chevauchement entre les deux hauteurs en termes de vitesse, l’eephus est essentiellement dans une ligue à part en termes de lenteur.

L’écart de vitesse entre l’eéphus et la balle rapide est encore plus prononcé. On peut imaginer à quel point il serait désorientant de voir un eephus flotter après une balle rapide de 95 mph, ou à quelle vitesse cette même balle rapide apparaîtrait après un eephus de 60 mph. En guise de remarque, la bi-modalité des vitesses de knuckleball suggère que Statcast peut classer à tort certains de ces emplacements comme des knuckleballs alors qu’ils sont en fait des eephus. Puisqu’il n’y a pas de moyen précis de dire quels sont les phalanges déclarées qui sont en fait des eephus, cependant, nous devrons laisser ces emplacements être.

Cela nous amène à une question plus pratique : l’ééphus fonctionne-t-il réellement? L’argument le plus saillant pour son utilisation est celui auquel il a été fait allusion plus tôt: l’écart de vitesse extrême entre un eephus et tout autre lancer prend les frappeurs au dépourvu pour l’eephus lui-même, et fait apparaître un pas de suivi non-eephus plus rapide et plus difficile à suivre. Mais cette théorie tient-elle dans la pratique? Examinons l’efficacité de l’eephus vs. quelques hauteurs plus courantes, puis testez si un eephus rend réellement la hauteur suivante plus difficile à frapper.

Pour examiner l’efficacité de l’eephus par rapport à tous les autres lancers, les cinq mesures suivantes fournissent un bon aperçu de la façon dont les frappeurs s’en sortent: pourcentage de contact, pourcentage de frappe, angle de lancement, vitesse de sortie et pourcentage de tonneau. Ces métriques représentent collectivement à quel point la hauteur est frappable, la qualité du contact d’un meilleur avec un eephus tend à être élevée et si les gens frappent l’eephus pour le pouvoir ou pour le contact.

Tout d’abord, peut-être étonnamment, les frappeurs entrent en contact avec ce terrain à peu près aussi souvent que tous les autres terrains, entrant en contact avec l’eephus seulement 0,33 point de pourcentage plus souvent qu’un terrain moyen. La qualité de ce contact tend cependant à être plus faible. Malgré le contact avec cela un peu plus souvent, par exemple, il devient un succès presque 11% moins souvent. Une deuxième façon de voir cela est que son pourcentage de barils, mesuré comme le pourcentage de lancers d’eephus avec une moyenne au bâton attendue supérieure à 0.500 en fonction de la vitesse et de l’angle de la balle au bâton, soit un dixième de point de pourcentage de moins pour les lancers d’eephus, soit une baisse de 2%. Ce n’est pas une diminution importante, mais associée au pourcentage de contact plus élevé de la hauteur et au pourcentage de frappe plus faible, cela donne une image de contact fréquent mais de mauvaise qualité.

Le pourcentage de barils est calculé à l’aide de la vitesse de sortie et de l’angle de lancement de la balle, mais ces facteurs peuvent également être examinés isolément pour mieux comprendre quel type de contact est établi. Ici, la moyenne et la distribution de ces mesures montrent que les angles de lancement des frappeurs sont à peu près les mêmes pour un lancer eephus vs non-eephus, mais la vitesse de la balle hors de leur bâton est plus lente. Cela se reflète par la vitesse de sortie moyenne de la balle étant plus lente de 4,29 mph et la distribution de cette métrique étant sensiblement décalée vers le côté le plus lent pour l’eephus par rapport à tous les autres pas.

Maintenant que nous avons établi que l’ééphus lui-même peut avoir la qualité souhaitable d’établir un contact de mauvaise qualité, revenons à la théorie posée précédemment: une balle rapide est-elle plus difficile à frapper si elle est lancée après un eephus? Les lanceurs lancent-ils stratégiquement des balles rapides plus fréquemment après un eephus? Ces mêmes questions pourraient être posées pour d’autres types de lancers que la balle rapide, mais si cet effet existe, c’est là que nous nous attendons à ce qu’il soit le plus prononcé, alors nous laisserons les autres lancers de côté pour l’instant. La réponse à la première de ces questions est définitive « pas vraiment. » Un frappeur moyen entre en contact avec 19,18% des balles rapides lancées. Lorsque la hauteur précédente était un eephus, ce pourcentage de contact augmente réellement à 22,60%. De plus, ce contact tend à être un contact de haute qualité. 8,49% des balles rapides précédées d’eephus se sont transformées en coups, alors que ce nombre n’est que de 6,26% en moyenne. Les barils de mesure partagent une histoire similaire, où 5,4% des balles rapides sont tirées en moyenne, mais 6,4% beaucoup plus élevées lorsque le pas précédent était un eephus. Cependant, il est difficile d’affirmer avec force l’impact d’un eephus sur une balle rapide de suivi, en raison des contraintes de taille d’échantillon. 703 balles rapides post-eephus ont été lancées pendant les époques PITCHf / x et Statcast, et seulement 203 d’entre elles se sont produites depuis que les barils sont devenus mesurables en 2015. Ce sont à peine assez de données pour faire confiance à ces chiffres particuliers hors échantillon. Il ressort de cette analyse, cependant, qu’une balle rapide lancée après un eephus fonctionne soit de manière identique, soit légèrement mieux qu’une balle rapide identique dans d’autres circonstances. Sur la base de ces résultats, je prendrais n’importe quelle affirmation selon laquelle une balle rapide est très difficile à frapper après un lancer d’eephus avec un grain de sel.

La deuxième de ces questions est plus facile à répondre. Alors qu’environ 64% des lancers des ligues majeures sont des balles rapides, seulement 47% des eephus dont l’apparence de la plaque contenait un lancer de suivi ont été suivis d’une balle rapide. Même si nous retirons R.A. Dickey, lanceur d’ééphus, de ces données, le nombre reste inférieur à la moyenne à 61%. Il semble que les lanceurs non-knuckleball lancent des balles rapides à peu près à leur fréquence normale après les lancers d’eephus, et que R.A. Dickey s’éloigne presque entièrement de la balle rapide post-eephus. Cela signifie peut-être que les lanceurs comprennent déjà que la balle rapide post-eephus à l’apparence extra-rapide n’est qu’un mythe.

Étant donné que l’eephus ne semble pas être meilleur qu’une balle rapide en tant que lancer isolé, et que nous avons également démystifié la théorie selon laquelle une balle rapide est plus mortelle lorsqu’elle est lancée après un eephus, y a-t-il une raison d’envisager d’utiliser ce lancer? Peut-être. En examinant le pourcentage de base (OBP) des apparences de plaques où l’eephus a été présenté, et en comparant cela à l’OBP des apparences de plaques non-eephus, nous constatons une légère diminution lorsque l’eephus est utilisé. Un atbat contenant de l’eéphus voit la pâte obtenir sur la base 30,8% du temps, alors qu’une apparence de plaque moyenne a un OBP légèrement plus élevé de 31,9%. Une différence de plus d’un point de pourcentage entier est plus grande que ce à quoi je m’attendais ici, et suggère que quelque chose à propos de ce terrain rare peut, en effet, jouer en faveur d’un lanceur.

Malgré sa vitesse incroyablement lente, le pas d’eephus parvient à tenir son rang. Les frappeurs ont du mal à établir un contact de haute qualité avec le terrain et, en général, ils se mettent moins souvent sur la base lorsque le terrain est utilisé dans une apparence de plaque. Cela dit, analyser un terrain rare signifie inévitablement travailler avec de petites tailles d’échantillon, ce qui signifie qu’il est difficile d’obtenir de nombreuses informations approfondies sur ce terrain au-delà de simples statistiques sommaires. Un mot d’avertissement, cependant: un lanceur doit toujours faire attention à ne pas lancer ce lancer « surprise » deux fois de suite, de peur qu’il ne finisse comme le pauvre Orlando Hernandez.

 Compilation de la hauteur d'Eéphus

  • 2020 2
  • 2019 1
  • 2018 2
  • 2017 6
  • 2016 2

2020

Bandits Multi-Armés en Python: Epsilon Greedy, UCB1, Bayesian UCB et EXP3

Lecture de 13 minutes

Cet article explore quatre algorithmes pour résoudre le problème des bandits multi-armés (Epsilon Greedy, EXP3, Bayesian UCB et UCB1), avec des implémentations en Python…

Évaluation hors ligne des algorithmes de bandit multi-armés en Python à l’aide de Replay

Lecture de 9 minutes

Les algorithmes de bandit multi-armés connaissent un regain d’enthousiasme, mais l’évaluation de leurs performances à l’aide d’un ensemble de données historiques est difficile. Voici comment je m’y prends…

Haut de page

2019

Comprendre les enchères AdTech dans Votre Navigateur: une analyse de 30 000 Prébid.js Auctions

Lecture de 7 minutes

Une analyse de la dynamique des enchères dans les enchères d’en-tête côté client

Retour en haut de page

2018

Prédire le changement: Stimuler et ensacher le positionnement stratégique du champ intérieur

Lecture de 23 minutes

Utilisation de l’apprentissage automatique pour prédire le positionnement stratégique du champ intérieur à l’aide des données statcast et de l’ingénierie des fonctionnalités contextuelles.

Visualiser les classements des équipes MLB avec ggplot2 et les graphiques de bosses

Lecture de 3 minutes

Un tutoriel rapide sur la récupération des données MLB win-loss avec pybaseball et le nettoyage et la visualisation avec le tidyverse (dplyr et ggplot).

Haut de page

2017

Sur la valeur du choix au repêchage, la nouvelle Loterie et le tanking

Lecture de 12 minutes

Le tanking devient un sujet brûlant chaque saison une fois qu’il devient évident que parmi les pires équipes de la NBA manqueront les séries éliminatoires. Dans ce post, je m’adresse au valu…

Un hommage Statcast au terrain le plus étrange du baseball: l’Eephus

Lecture de 7 minutes

Je suis obsédé par le terrain eephus depuis un certain temps maintenant. Chaque fois que je vois un joueur sortir ce terrain de son arsenal, je deviens ex à parts égales…

Quitter la MLB: Leçons apprises dans mon premier rôle en science des données

Lecture de 4 minutes

Au cours des trois derniers mois, j’ai eu l’opportunité passionnante de faire un stage en tant que data scientist chez Major League Baseball Advanced Media, la branche technologique de ML…

Présentation de pybaseball: un package Open Source pour l’analyse de données de baseball

Lecture de 2 minutes

Tout au long de mon travail sur le baseball chez MLB Advanced Media, j’ai réalisé qu’il n’y avait pas d’outil Python fiable disponible pour la recherche sabermétrique et l’adv…

Bibliothèque

Lecture de 5 minutes

Une collection de certains de mes livres préférés. Affaires, économie populaire, statistiques et apprentissage automatique, et de la littérature.

338 Tasses de café

Lecture de 6 minutes

Chaque tasse de café que j’ai consommée au cours des 5 derniers mois a été enregistrée sur une feuille de calcul. Voici ce que j’ai appris en analysant ma consommation de café.

Haut de page

2016

Construire un Système de Recommandation basé sur le Contenu pour les Livres: Utiliser le Traitement du Langage Naturel pour Comprendre les préférences littéraires

Lecture de 4 minutes

La littérature est un domaine délicat pour la science des données. Pensez à vos cinq livres préférés. Qu’ont-ils en commun ? Certains peuvent partager un auteur ou un genre, mais en plus…

L’apprentissage automatique et le But sur le terrain de la NFL: Utilisation de Techniques d’Apprentissage statistique pour Isoler la capacité de Placekicker

Lecture de 4 minutes

Modélisation probabiliste sur les données de but sur le terrain de la NFL. Application de la régression logistique, des forêts aléatoires et des réseaux de neurones dans R pour mesurer les facteurs contributifs de fiel…

Haut de page



+