we blijven onze statistieken onderzoeken en bijwerken, en als onderdeel van dat proces hebben we verschillende offensieve statistieken met elkaar vergeleken.
twee van de metrics die we hebben ingecheckt zijn weighted On Base Average (wOBA), gepopulariseerd door Tango et al in het boek in 2007, en On-Base-Plus-Slugging (OPS), een statistiek gepopulariseerd door The Hidden Game Of Baseball, gepubliceerd door Pete Palmer en John Thorn in 1984. Omdat vergelijkingen tussen deze twee een beetje een geschiedenis hebben, dacht ik dat we deze serie zouden beginnen door die vergelijkingen bij te werken.
enkele korte achtergronden
op ‘ s zijn duidelijk, althans in concept. Je neemt een slagman ‘ s on-base percentage (OBP)—die toegegeven is niet veel van een percentage—voeg het toe aan hun slugging percentage (SLG)—zeker niet een echt percentage (honkbal statistieken kunnen heel vreemd zijn) – en de som van die twee nummers geeft je de “OPS.”
wOBA is ingewikkelder. wOBA kent “linear weights” toe aan verschillende Baseball batting events; linear weights zijn het gemiddelde aantal gescoorde punten in een halve inning nadat een dergelijk evenement plaatsvindt. Voor wOBA worden deze run waarden dan opnieuw geschaald om ze op dezelfde algemene schaal te plaatsen als OBP, wat betekent dat alle outs gelijk zijn aan 0. Deze extra schaalvergroting is niet nodig, maar de auteurs van het boek vonden het nuttig (of op zijn minst overtuigender) om OBP en wOBA op dezelfde schaal te hebben.
degenen die het boek hebben gelezen weten dat de auteurs niet onder de indruk zijn van OPS: zij klagen dat OBP en SLG overlappende componenten, verschillende noemers hebben, en dat OPS het belang van OBP aanzienlijk onderschat. Met andere woorden, de auteurs van het boek zien OPS als een benadering op zijn best, alleen nuttig als een “gateway” statistiek, als dat. Naar hun mening, analisten gericht op nauwkeurigheid moet niet worden met behulp van OPS.
welke maatstaf is “beter”?
met deze inleiding, laten we vijf jaar teruggaan naar een post die een interessante discussie begon.In juli 2013 wilde Cyril Morong, hoogleraar economie aan het San Antonio College, de prestaties van OPS en wOBA vergelijken bij het voorspellen van runscores. Dit is een lastig ding om te doen voor individuele slagvrouwen, omdat in tegenstelling tot werpsters, er geen “run-generated” analoog is aan RA9. Om een gedefinieerde pool van runs te krijgen om mee te werken, Morong ging een niveau “omhoog” naar Team run rates. Omdat alle individuen worden geassocieerd met een team als ze slaan, en de gewogen gemiddelde productie van alle team slagvrouwen geeft een totale OPS of wOBA voor het team, kunnen we in plaats daarvan kijken naar de gemiddelde team OPS of team wOBA en dat vergelijken met de gemiddelde team runs gescoord per plaat verschijning.
toen hij dit deed, vond Morong iets interessants. Kijkend naar alle teams uit de seizoenen 2010-2012, hij vond dat team OPS gecorreleerd iets beter aan team run productie tarieven dan team wOBA—hoewel wOBA werd natuurlijk algemeen gedacht superieur aan OPS te zijn. Zijn bevinding werd uitgedaagd in het commentaar sectie van zijn post, dus hij liep de vergelijking opnieuw, dit keer voor de 2003-2012 seizoenen. OPS heeft weer gewonnen.
de discussie migreerde naar Tom Tango ‘ s blog, waar het ging in een paar interessante richtingen. (Tango is de hoofdauteur van het boek). Een onopgeloste vraag was of het verschil in prestaties tussen OPS en wOBA was alleen binnen de foutmarge, of met andere woorden, niet zinvol anders. Zelfs een bevinding van gelijkwaardigheid lijkt zinvol, maar als OPS eigenlijk past team run scoren beter, dat zou nog opmerkelijker zijn. Voor zover we weten, is die specifieke vraag nooit publiekelijk opgelost.
laat ons helpen. We houden van het idee van het gebruik van correlaties voor statistische vergelijkingen, omdat correlaties wiskundig equivalent zijn aan genormaliseerde wortel gemiddelde kwadraat fout, maar worden gerapporteerd op een schaal die gemakkelijk is voor de lezer te begrijpen. Met behulp van een robuuste Bayesian Pearson correlatie, die nog robuuster lijkt te zijn dan de Spearman correlatie die we eerder hebben gebruikt, namen we alle team batting seizoenen van 1980-2016, en vergeleken de prestaties van Team OPS versus team wOBA in hun respectieve fits om team runs/PA.
we hebben deze vergelijkingen uitgevoerd op de standaard manieren die ons interesseren:
- beschrijvende prestaties: de correlatie tussen de metriek en de runs/PA van hetzelfde jaar;
- betrouwbaarheid prestaties: de correlatie tussen de metriek en zichzelf in het volgende jaar; en
- voorspellende prestaties: de correlatie tussen de metriek en de runs/PA van het volgende jaar.
omdat we de analyse gecodeerd in Stan (ok, ok, we gebruikten brms), krijgen we de onzekerheden voor deze correlaties als een natuurlijk bijproduct van Bayesiaanse multivariate gevolgtrekking. Wat zien we als we meer dan 1.000 seizoenen van team OPS/wOBA vergelijken met Team runs/PA? Hier zijn de resultaten:
OPS/wOBA Team Draait/PA (1980-2016)
Metrische | Beschrijvende | Desc_Err | Betrouwbaarheid | Rel_Err | Voorspellende | Pred_Err |
OPS | 0.944 | 0.003 | 0.63 | 0.020 | 0.59 | 0.021 |
wOBA | 0.933 | 0.004 | 0.62 | 0.019 | 0.58 | 0.021 |
Morong ‘ s vondst was geen anomalie. Simpel gezegd, team OPS doet beter meten team raken productie dan team wOBA: de beschrijvende prestaties is comfortabel buiten de foutmarge voor beide statistieken, en de betrouwbaarheid en voorspellende prestatie maatregelen, terwijl binnen hun respectieve marges van fout, tonen soortgelijke trends.
zoals hierboven vermeld, had OPS alleen wOBA evenaren, dat zou nieuwswaardig hebben gevoeld, vooral als OPS zo slecht geconstrueerd is als het boek beweert. En toch, de trend over meerdere decennia, over tijdsperioden van hoge en lage scores, laat zien dat OPS niet alleen stand houdt tegen wOBA: het doet eigenlijk ” beter.”
maar wat betekent het dat OPS “beter”zijn?
op teamniveau is de conclusie vrij duidelijk: voor het meten van ruwe slagprestaties is OPS waarschijnlijk de betere samengestelde metriek om te gebruiken.
als u echter geïnteresseerd bent in individuele prestaties, wordt de superioriteit van OP ‘ s minder duidelijk.
in de blog thread hierboven gelinkt, Tom Tango, hoofdauteur van het boek, beweert (in commentaar Nr. 32) dat OPS een oneerlijk (en irrelevant) voordeel heeft in die zin dat het offervliegen niet meetelt als plaatverschijningen (omdat OBP ze niet meetelt, en OPS is gebouwd op OBP). Als zodanig, OPS A) kan stilzwijgend crediteren slagvrouwen voor de fortuity van het zijn op een team met teamgenoten die op het honk, en b) kan daarom overschatten de individuele offensieve waarde van een speler.
dit is een goed punt, hoewel niet geheel bevredigend. Het lijkt onwaarschijnlijk dat opofferingsvliegen alleen het consistente verschil in prestaties kunnen verklaren. (Toen we de vergelijking hierboven met uitzondering van opofferingsvliegen van OBP/OPS opnieuw uitvoerden, waren de resultaten in principe hetzelfde). Bovendien, als sacrifice flies waren de bestuurder van OPS ‘ (kleine) voordeel in het passen team run scoren, dan statistieken als wOBA aantoonbaar zou moeten doen een betere baan als gevolg van de mechanica van sacrifice flies. Offer vliegen, immers, slaan zichzelf niet. Het genereren van outfield fly balls is een vaardigheid, en sommige slagvrouwen (meestal de betere) zijn veel beter in het dan anderen.
anders gezegd, fly-ball outs zijn waarschijnlijk minder schadelijk voor een team dan ground-ball outs, en dat verschil, hoe klein ook, kan de moeite waard zijn om te reflecteren, zelfs voor individuele linear-weight based offensive estimators. Het onderscheiden van ground-ball outs van outfield fly-ball outs is ook gemakkelijk te doen, zelfs zonder stringers of batted-ball data, gezien de verschillende fielding posities betrokken.
wellicht om deze reden maakt Scott Powers ‘ penitentiaire multinomial estimator een onderscheid tussen ground-ball en fly-ball outs. wOBA, echter, weigert om dit onderscheid te maken, misschien om ervoor te zorgen dat alle outs gelijk zijn aan 0, net als ze doen voor OBP. Dit is een Ontwerpkeuze, en niet onredelijk, vooral omdat de auteurs van het boek openhartig zijn over hun beslissing om het te maken. Maar het is niet de enige keuze, en het is mogelijk dat bij het maken van deze specifieke keuze, wOBA enige nauwkeurigheid op de tafel achterlaat. Voor zover OPS deze extra nauwkeurigheid bevat, hoe onhandig ook, is dit feit opmerkelijk en dient het als zodanig te worden erkend.
vooruit
ons punt hier is niet om u te dwingen om te kiezen tussen OPS, wOBA, of andere varianten zoals True Average, omdat ze over het algemeen goed van pas komen. In plaats daarvan proberen we de basis te leggen voor verdere discussie over hoe offensieve metrics kunnen worden gemeten, en om u te herinneren aan de soorten problemen waar we over zouden moeten nadenken als we offensieve metrics vergelijken.
de meeste composite offensive metrics meten de kwaliteit van de slagman goed, tenminste op teamniveau, maar er zijn verschillen die zowel de kwaliteit van hun constructie als de keuzes die hun makers hebben gemaakt weerspiegelen. In de komende weken zullen we bespreken waarom sommige van die keuzes verbazingwekkende gevolgen kunnen hebben.
Hartelijk dank aan het BP Stats-Team voor peer review en discussie.
Bedankt voor het lezen
Dit is een gratis artikel. Als je het leuk vond, overweeg dan om je in te schrijven op Baseball Prospectus. Abonnementen ondersteunen doorlopend publiek honkbalonderzoek en-analyse in een steeds meer eigen omgeving.
nu inschrijven