Prospekt Feature: OPS und wOBA, kurz Revisited

Bildnachweis: USA Today Sports

Wir prüfen und aktualisieren unsere Metriken weiterhin und haben im Rahmen dieses Prozesses verschiedene offensive Metriken miteinander verglichen.

Zwei der Metriken, die wir überprüft haben, sind Weighted On Base Average (wOBA), popularisiert von Tango et al in dem Buch im Jahr 2007, und On-Base-Plus-Slugging (OPS), eine Statistik, die von The Hidden Game of Baseball , veröffentlicht von Pete Palmer und John Thorn im Jahr 1984. Da Vergleiche zwischen diesen beiden eine gewisse Geschichte haben, dachte ich, wir würden diese Serie mit der Aktualisierung dieser Vergleiche beginnen.

Einige kurze Hintergrundinformationen

OPS ist zumindest vom Konzept her unkompliziert. Sie nehmen den On-Base—Prozentsatz (OBP) eines Schlägers — was zugegebenermaßen kein großer Prozentsatz ist — fügen Sie ihn zu seinem Slugging—Prozentsatz (SLG) hinzu – definitiv kein echter Prozentsatz (Baseball-Statistiken können sehr seltsam sein) – und die Summe dieser beiden Zahlen gibt Ihnen die „OPS.“

wOBA ist komplizierter. wOBA weist „lineare Gewichte“ zu verschiedenen Baseball Batting Veranstaltungen; lineare Gewichte sind die durchschnittliche Anzahl der Läufe in einem halben Inning erzielt, nachdem ein solches Ereignis eintritt. Für wOBA werden diese Run-Werte dann neu skaliert, um sie auf dieselbe allgemeine Skala wie OBP zu setzen, was bedeutet, dass alle Outs gleich 0 sind. Diese zusätzliche Skalierung ist nicht notwendig, aber die Autoren des Buches hielten es für nützlich (oder zumindest überzeugender), OBP und wOBA auf derselben Skala zu haben.

Diejenigen, die das Buch gelesen haben, wissen, dass die Autoren von OPS nicht beeindruckt sind: Sie beklagen, dass OBP und SLG überlappende Komponenten und unterschiedliche Nenner haben und dass OPS die Bedeutung von OBP erheblich unterschätzt. Mit anderen Worten, die Autoren des Buches sehen OPS bestenfalls als Annäherung an, nützlich nur als „Gateway“ -Statistik, wenn das so ist. Ihrer Ansicht nach sollten Analysten, die sich auf Genauigkeit konzentrieren, OPS nicht verwenden.

Welche Metrik ist „besser“?

Mit dieser Einführung gehen wir fünf Jahre zurück zu einem Beitrag, der eine interessante Diskussion auslöste.

Im Juli 2013 wollte Cyril Morong, Wirtschaftsprofessor am San Antonio College, die Leistung von OPS und wOBA bei der Vorhersage von Run Scoring vergleichen. Dies ist eine schwierige Sache für einzelne Teige, da es im Gegensatz zu Krügen kein „Run-generiertes“ Analogon zu RA9 gibt. Um einen definierten Pool von Läufen zu erhalten, ging Morong eine Stufe „höher“ zu den Teamlaufraten. Da alle Personen einem Team zugeordnet sind, wenn sie schlagen, und die gewichtete durchschnittliche Produktion aller Teambatterien ergibt ein Gesamt-OPS oder wOBA für das Team, Wir können stattdessen die durchschnittlichen Team-OPS oder Team-wOBA betrachten und diese mit den durchschnittlichen Teamläufen vergleichen, die pro Plattenauftritt erzielt wurden.

Als er das tat, fand Morong etwas Interessantes. Mit Blick auf alle Teams aus der Saison 2010-2012 stellte er fest, dass Team OPS etwas besser mit den Produktionsraten von Team Run korrelierte als Team wOBA — obwohl wOBA natürlich allgemein als überlegen gegenüber OPS angesehen wurde. Sein Befund wurde im Kommentarbereich seines Beitrags angefochten, daher führte er den Vergleich erneut durch, diesmal für die Spielzeiten 2003-2012. OPS hat wieder gewonnen.

Die Diskussion wanderte zu Tom Tangos Blog, wo sie in einige interessante Richtungen ging. (Tango ist der Hauptautor des Buches). Eine ungelöste Frage war, ob der Leistungsunterschied zwischen OPS und wOBA lediglich innerhalb der Fehlergrenze lag, oder mit anderen Worten, nicht sinnvoll anders. Sogar ein Äquivalenzfund scheint sinnvoll zu sein, aber wenn OPS tatsächlich besser zu Team Run Scoring passt, wäre das noch bemerkenswerter. Soweit wir das beurteilen können, wurde diese spezielle Frage nie öffentlich gelöst.

Lassen Sie uns helfen. Wir mögen die Idee, Korrelationen für statistische Vergleiche zu verwenden, da Korrelationen mathematisch dem normalisierten quadratischen Mittelwertfehler entsprechen, aber auf einer Skala angegeben werden, die für den Leser leicht verständlich ist. Unter Verwendung einer robusten Bayes-Pearson-Korrelation, die noch robuster zu sein scheint als die Spearman-Korrelation, die wir zuvor verwendet haben, haben wir alle Team-Schlagzeiten von 1980-2016 genommen und die Leistung von Team OPS gegenüber Team wOBA in ihren jeweiligen Anpassungen an Team Runs / PA verglichen.

Wir haben diese Vergleiche auf die üblichen Arten durchgeführt, die uns interessieren:

  • Deskriptive Leistung: die Korrelation zwischen der Metrik und den Teamläufen / PA im selben Jahr;
  • Zuverlässigkeitsleistung: die Korrelation zwischen der Metrik und sich selbst im folgenden Jahr; und
  • Prädiktive Leistung: die Korrelation zwischen der Metrik und den Läufen / PA des folgenden Jahres.

Da wir die Analyse in Stan codiert haben (ok, ok, wir haben brms verwendet), erhalten wir die Unsicherheiten für diese Korrelationen als natürliches Nebenprodukt der Bayes’schen multivariaten Inferenz. Was sehen wir, wenn wir über 1.000 Staffeln von Team OPS / wOBA mit Team Runs / PA vergleichen? Hier sind die Ergebnisse:

OPS/wOBA zu Team Runs/PA (1980-2016)

Metrisch Beschreibend Desc_Err Zuverlässigkeit Rel_Err Prädiktiv Pred_Err
OPS 0.944 0.003 0.63 0.020 0.59 0.021
wOBA 0.933 0.004 0.62 0.019 0.58 0.021

Morongs Befund war keine Anomalie. Einfach ausgedrückt misst Team OPS die Teamleistung besser als Team wOBA: Die deskriptive Leistung liegt für beide Statistiken bequem außerhalb der Fehlergrenze, und die Zuverlässigkeits- und prädiktiven Leistungsmessungen zeigen innerhalb ihrer jeweiligen Fehlergrenzen ähnliche Trends.

Wie oben erwähnt, hätte OPS nur mit wOBA übereingestimmt, das hätte sich berichtenswert angefühlt, besonders wenn OPS so schlecht konstruiert ist, wie das Buch argumentiert. Und doch, Der Trend über mehrere Jahrzehnte, über Zeiträume von hohem und niedrigem Scoring, zeigt, dass OPS sich nicht nur gegen wOBA behauptet: Es macht es tatsächlich „besser.“

Aber was bedeutet es für OPS, „besser“zu sein?

Auf Teamebene ist die Schlussfolgerung ziemlich klar: Für die Messung der rohen Trefferleistung ist OPS wahrscheinlich die bessere zusammengesetzte Metrik.

Wenn Sie jedoch an der individuellen Leistung interessiert sind, wird die Überlegenheit von OPS weniger deutlich.

In dem oben verlinkten Blog-Thread behauptet Tom Tango, Hauptautor des Buches (in Kommentar Nr. 32), dass OPS einen unfairen (und irrelevanten) Vorteil hat, da es keine Opferfliegen als Plattenauftritte zählt (weil OBP sie nicht zählt und OPS auf OBP basiert). Daher kann OPS a) Teige stillschweigend für den Zufall anrechnen, in einem Team mit Teamkollegen zu sein, die auf der Basis stehen, und b) könnte daher den individuellen offensiven Wert eines Spielers überschätzen.

Dies ist ein guter Punkt, wenn auch nicht ganz zufriedenstellend. Es scheint unwahrscheinlich, dass die Fliegen allein den konsistenten Leistungsunterschied erklären könnten. (Als wir den obigen Vergleich ohne Opferfliegen von OBP / OPS erneut durchführten, waren die Ergebnisse im Grunde die gleichen). Wenn Sacrifice Flies der Fahrer des (kleinen) Vorteils von OPS bei der Team-Run-Wertung war, sollten Statistiken wie wOBA die Mechanik von Sacrifice Flies wohl besser widerspiegeln. Opferfliegen schlagen sich schließlich nicht selbst. Generieren Outfield Fly Bälle ist eine Fähigkeit, und einige Teige (in der Regel die besseren) sind viel besser als andere.

Anders ausgedrückt, Fly-Ball-Outs sind wahrscheinlich weniger schädlich für ein Team als Ground-Ball-Outs, und dieser Unterschied, so klein er auch sein mag, kann es wert sein, reflektiert zu werden, selbst für einzelne lineare gewichtungsbasierte Offensivschätzer. Die Unterscheidung von Ground-Ball-Outs von Outfield-Fly-Ball-Outs ist angesichts der unterschiedlichen Feldpositionen auch ohne Stringer oder Schlagballdaten einfach.

Vielleicht aus diesem Grund unterscheidet Scott Powers ‚bestrafter multinomialer Schätzer zwischen Ground-Ball- und Fly-Ball-Outs. wOBA lehnt es jedoch ab, so zu unterscheiden, vielleicht um sicherzustellen, dass alle Outs gleich 0 sind, genau wie bei OBP. Dies ist eine Designentscheidung und keine unvernünftige, zumal die Autoren des Buches offen über ihre Entscheidung sind. Aber es ist nicht die einzige Wahl, und es ist möglich, dass wOBA bei dieser besonderen Wahl eine gewisse Genauigkeit auf dem Tisch lässt. In dem Maße, in dem OPS diese zusätzliche Genauigkeit, wie ungeschickt auch immer, einbezieht, ist diese Tatsache bemerkenswert und sollte als solche anerkannt werden.

Vorwärts

Unser Punkt hier ist nicht, Sie zu zwingen, zwischen OPS, wOBA oder anderen Varianten wie True Average zu wählen, da alle von ihnen Ihnen im Allgemeinen gut dienen werden. Lieber, Wir versuchen, die Grundlage für weitere Diskussionen darüber zu schaffen, wie offensive Metriken gemessen werden können, und Sie an die Arten von Problemen zu erinnern, über die wir beim Vergleich offensiver Metriken nachdenken sollten.

Die meisten Composite Offensive Metriken messen die Schlagqualität zumindest auf Teamebene gut, aber es gibt Unterschiede, die sowohl die Qualität ihrer Konstruktion als auch die Entscheidungen ihrer Schöpfer widerspiegeln. In den kommenden Wochen werden wir diskutieren, warum einige dieser Entscheidungen erstaunliche Konsequenzen haben können.

Vielen Dank an das BP Stats Team für Peer Review und Diskussion.

Danke fürs Lesen

Dies ist ein kostenloser Artikel. Wenn es Ihnen gefallen hat, ziehen Sie in Betracht, den Prospekt zu abonnieren. Abonnements unterstützen die laufende Forschung und Analyse des öffentlichen Sektors in einer zunehmend proprietären Umgebung.

Jetzt abonnieren



+