Fonction Prospectus: OPS et wOBA, Brièvement Revisités

Crédit d’image: USA Today Sports

Nous continuons à examiner et à mettre à jour nos métriques, et dans le cadre de ce processus, nous avons comparé diverses métriques offensives les unes aux autres.

Deux des mesures que nous avons vérifiées sont pondérées sur la Moyenne de base (wOBA), popularisée par Tango et al dans le Livre en 2007, et Sur la Base-Plus-Slugging (OPS), une statistique popularisée par The Hidden Game of Baseball, publiée par Pete Palmer et John Thorn en 1984. Parce que les comparaisons entre ces deux ont un peu d’histoire, j’ai pensé que nous commencerions cette série en mettant à jour ces comparaisons.

Quelques informations de base

OPS est simple, du moins en termes de concept. Vous prenez le pourcentage de base d’un frappeur (OBP) – qui n’est certes pas un pourcentage important — ajoutez—le à leur pourcentage de slugging (SLG) — certainement pas un pourcentage réel (les statistiques de baseball peuvent être très étranges) — et la somme de ces deux chiffres vous donne les « OPS. »

Le wOBA est plus compliqué. wOBA attribue des « poids linéaires » à divers événements au bâton de baseball; les poids linéaires sont le nombre moyen de points marqués dans une demi-manche après qu’un tel événement se produise. Pour wOBA, ces valeurs d’exécution sont ensuite re-mises à l’échelle pour les placer sur la même échelle générale que OBP, ce qui signifie s’assurer que tous les outs sont égaux à 0. Cette mise à l’échelle supplémentaire n’est pas nécessaire, mais les auteurs du livre ont pensé qu’il serait utile (ou du moins plus convaincant) d’avoir OBP et wOBA sur la même échelle.

Ceux qui ont lu le Livre savent que les auteurs ne sont pas impressionnés par OPS: ils se plaignent que l’OBP et le SLG ont des composantes qui se chevauchent, des dénominateurs différents, et que l’OPS sous-estime considérablement l’importance de l’OBP. En d’autres termes, les auteurs du livre considèrent OPS comme une approximation au mieux, utile uniquement comme une statistique de « passerelle », si cela. À leur avis, les analystes axés sur la précision ne devraient pas utiliser OPS.

Quelle métrique est « meilleure »?

Avec cette introduction, revenons cinq ans en arrière à un article qui a lancé une discussion intéressante.

En juillet 2013, Cyril Morong, professeur d’économie au San Antonio College, a voulu comparer les performances d’OPS et de wOBA dans la prédiction du score d’exécution. C’est une chose délicate à faire pour les frappeurs individuels, car contrairement aux lanceurs, il n’y a pas d’analogue « généré par l’exécution » de RA9. Pour obtenir un pool défini de pistes avec lesquelles travailler, Morong est passé d’un niveau « supérieur » aux taux d’exécution en équipe. Étant donné que tous les individus sont associés à une équipe lorsqu’ils frappent, et que la production moyenne pondérée de tous les frappeurs d’équipe donne un OPS ou un wOBA global pour l’équipe, nous pouvons plutôt examiner les OPS ou les wOBA d’équipe moyens et les comparer aux courses d’équipe moyennes marquées par apparition de plaques.

Quand il a fait cela, Morong a trouvé quelque chose d’intéressant. En examinant toutes les équipes des saisons 2010-2012, il a constaté que les opérations de l’équipe étaient légèrement mieux corrélées aux taux de production de l’équipe que le team wOBA — même si le wOBA était bien sûr généralement considéré comme supérieur aux OPÉRATIONS. Sa conclusion a été contestée dans la section des commentaires de son article, il a donc repris la comparaison, cette fois pour les saisons 2003-2012. OPS a encore gagné.

La discussion a migré vers le blog de Tom Tango, où elle est allée dans quelques directions intéressantes. (Tango est l’auteur principal du livre). Une question non résolue était de savoir si la différence de performance entre OPS et wOBA se situait simplement dans la marge d’erreur, ou en d’autres termes, n’était pas significativement différente. Même une conclusion d’équivalence semble significative, mais si OPS correspond réellement à un meilleur score de course d’équipe, ce serait encore plus notable. Pour autant que nous puissions dire, cette question particulière n’a jamais été résolue publiquement.

Permettez-nous de vous aider. Nous aimons l’idée d’utiliser des corrélations pour des comparaisons statistiques, car les corrélations sont mathématiquement équivalentes à une erreur quadratique moyenne normalisée, mais sont rapportées sur une échelle facile à comprendre pour le lecteur. En utilisant une corrélation bayésienne robuste de Pearson, qui semble être encore plus robuste que la corrélation de Spearman que nous avons utilisée précédemment, nous avons pris toutes les saisons de frappeurs d’équipe de 1980 à 2016 et comparé les performances des opérations d’équipe par rapport à celles de l’équipe wOBA dans leurs ajustements respectifs aux courses d’équipe / PA.

Nous avons effectué ces comparaisons de la manière standard qui tend à nous intéresser:

Performance descriptive : la corrélation entre la métrique et les courses/PA de l’équipe de la même année ;
Performance de fiabilité : la corrélation entre la métrique et elle-même l’année suivante ; et
Performance prédictive : la corrélation entre la métrique et les courses/PA de l’année suivante.

Parce que nous avons codé l’analyse en Stan (ok, ok, nous avons utilisé brms), nous obtenons les incertitudes pour ces corrélations comme un sous-produit naturel de l’inférence multivariée bayésienne. Que voyons-nous lorsque nous comparons plus de 1 000 saisons d’opérations d’équipe / wOBA à des courses d’équipe / PA? Voici les résultats :

OPS / wOBA à Team Runs / PA (1980-2016)

Métrique	Descriptif	Desc_Err	Fiabilité	Rel_Err	Prédictif	Pred_Err
OPS	0.944	0.003	0.63	0.020	0.59	0.021
Wouba	0.933	0.004	0.62	0.019	0.58	0.021

La découverte de Morong n’était pas une anomalie. En termes simples, team OPS mesure mieux la production de l’équipe que team wOBA: les performances descriptives sont confortablement en dehors de la marge d’erreur pour les statistiques, et les mesures de fiabilité et de performance prédictives, tout en se situant dans leurs marges d’erreur respectives, montrent des tendances similaires.

Comme indiqué ci-dessus, si OPS avait simplement correspondu à wOBA, cela aurait semblé digne d’intérêt, en particulier si OPS était aussi mal construit que le Livre le prétend. Et pourtant, la tendance sur plusieurs décennies, à travers des périodes de notation élevée et faible, montre que OPS ne se contente pas de résister à wOBA: elle fait en fait « mieux. »

Mais Qu’est-ce que cela signifie pour OPS d’être « Meilleur »?

Au niveau de l’équipe, la conclusion est assez claire: pour mesurer les performances de frappe brutes, OPS est probablement la meilleure métrique composite à utiliser.

Si ce qui vous intéresse, c’est la performance individuelle, cependant, la supériorité des OPS devient moins claire.

Dans le fil de discussion du blog lié ci-dessus, Tom Tango, auteur principal du livre, soutient (dans le commentaire no 32) que OPS a un avantage injuste (et non pertinent) en ce sens qu’il ne compte pas les mouches sacrifiées comme apparences de plaque (car OBP ne les compte pas, et OPS est construit sur OBP). Ainsi, l’OPS a) peut attribuer tacitement aux frappeurs la chance de faire partie d’une équipe avec des coéquipiers qui se retrouvent à la base, et b) pourrait donc surestimer la valeur offensive individuelle d’un joueur.

C’est un bon point, mais pas entièrement satisfaisant. Il semble peu probable que les mouches sacrifiées à elles seules puissent expliquer la différence constante de performance. (Lorsque nous avons réexécuté la comparaison ci-dessus en excluant les mouches sacrifiées de l’OBP / OPS, les résultats étaient fondamentalement les mêmes). De plus, si les mouches sacrifiées étaient le moteur du (petit) avantage des OPS dans l’ajustement des scores de course d’équipe, alors des statistiques comme wOBA devraient sans doute mieux refléter la mécanique des mouches sacrifiées. Les mouches sacrifiées, après tout, ne se frappent pas. Générer des balles de vol au champ extérieur est une compétence, et certains frappeurs (généralement les meilleurs) sont bien meilleurs que d’autres.

Autrement dit, les sorties de balle sont probablement moins dommageables pour une équipe que les sorties de balle au sol, et cette différence, aussi petite soit-elle, peut valoir la peine d’être reflétée, même pour les estimateurs offensifs basés sur des poids linéaires individuels. Distinguer les sorties de balle au sol des sorties de balle au champ extérieur est également facile à faire, même sans limons ou données sur les balles frappées, étant donné les différentes positions de terrain impliquées.

Peut-être pour cette raison, l’estimateur multinomial pénalisé de Scott Powers fait la distinction entre les sorties de balle au sol et les sorties de balle au sol. wOBA, cependant, refuse de distinguer ainsi, peut-être pour s’assurer que tous les outs sont égaux à 0, tout comme ils le font pour OBP. C’est un choix de conception, et non déraisonnable, d’autant plus que les auteurs du livre sont francs sur leur décision de le faire. Mais ce n’est pas le seul choix, et il est possible qu’en faisant ce choix particulier, wOBA laisse une certaine précision sur la table. Dans la mesure où OPS intègre cette précision supplémentaire, aussi maladroitement soit-elle, ce fait est notable et devrait être reconnu comme tel à son crédit.

Aller de l’avant

Notre point ici n’est pas de vous forcer à choisir entre OPS, wOBA ou d’autres variantes comme True Average, car toutes vous serviront généralement bien. Nous essayons plutôt de jeter les bases d’une discussion plus approfondie sur la façon dont les mesures offensives peuvent être mesurées et de vous rappeler les types de problèmes auxquels nous devrions réfléchir lorsque nous comparons les mesures offensives.

La plupart des métriques offensives composites mesurent bien la qualité des frappeurs, du moins au niveau de l’équipe, mais il existe des différences qui reflètent à la fois la qualité de leur construction et les choix de leurs créateurs. Dans les semaines à venir, nous discuterons des raisons pour lesquelles certains de ces choix peuvent avoir des conséquences étonnantes.

Un grand merci à l’équipe de BP Stats pour l’examen par les pairs et la discussion.

Merci d’avoir lu

Ceci est un article gratuit. Si cela vous a plu, pensez à vous abonner au Prospectus de baseball. Les abonnements prennent en charge la recherche et l’analyse continues sur le baseball public dans un environnement de plus en plus propriétaire.

Abonnez-vous maintenant