my kontynuować analizować i aktualizować nasz metryka, i jako część ten proces my porównywać różny Ofensywny metryka jeden inny.
dwie z danych, które sprawdziliśmy, to ważona średnia bazowa (wOBA), spopularyzowana przez Tango i wsp.w książce w 2007 roku, oraz On-Base-Plus-Slugging (OPS), statystyka spopularyzowana przez ukrytą grę w Baseball, opublikowaną przez Pete ’ a Palmera i Johna Thorna w 1984 roku. Ponieważ porównania między tymi dwoma mają trochę historii, pomyślałem, że zaczniemy tę serię od aktualizacji tych porównań.
jakieś krótkie tło
OPS jest proste, przynajmniej w koncepcji. Bierzesz procent na bazie pałkarza (OBP)—co prawda nie jest dużym procentem—dodajesz go do ich procentu slugging (SLG)—zdecydowanie nie jest to prawdziwy procent (statystyki baseballowe mogą być bardzo dziwne) – a suma tych dwóch liczb daje „OPS.”
wOBA jest bardziej skomplikowana. wOBA przypisuje „wagi liniowe” do różnych wydarzeń Baseball mrugnięcia; wagi liniowe to średnia liczba runów zdobytych w połowie inningu po wystąpieniu takiego zdarzenia. W przypadku wOBA wartości te są następnie przeskalowane, aby umieścić je w tej samej ogólnej skali, co OBP, co oznacza, że wszystkie wyjścia są równe 0. To dodatkowe skalowanie nie jest konieczne, ale autorzy książki uznali za użyteczne (a przynajmniej bardziej przekonujące) posiadanie OBP i wOBA w tej samej skali.
ci, którzy przeczytali książkę, wiedzą, że autorzy nie są pod wrażeniem OPS: skarżą się, że OBP i SLG mają nakładające się Komponenty, różne mianowniki i że OPS znacznie zaniża znaczenie OBP. Innymi słowy, autorzy książki postrzegają OPS jako przybliżenie w najlepszym przypadku, przydatne tylko jako statystyka „bramy”, jeśli tak. Ich zdaniem analitycy skupieni na dokładności nie powinni używać OPS.
która metryka jest „lepsza”?
tym wstępem cofnijmy się o pięć lat do Postu, który zapoczątkował ciekawą dyskusję.
w lipcu 2013 Cyril Morong, profesor ekonomii w San Antonio College, chciał porównać wyniki OPS i wOBA w przewidywaniu punktacji biegu. Jest to trudna rzecz do zrobienia dla poszczególnych pałkarzy, ponieważ w przeciwieństwie do miotaczy, nie ma „generowanego przez run” analogu do RA9. Aby uzyskać zdefiniowaną pulę biegów do pracy, Morong poszedł o jeden poziom „w górę” do stawek biegu zespołowego. Ponieważ wszystkie jednostki są powiązane z drużyną, gdy uderzają, a średnia ważona produkcji wszystkich pałkarzy daje ogólny OPS lub wOBA dla drużyny, możemy zamiast tego przyjrzeć się średnim OPS lub team wOBA i porównać je ze średnią rzutów zdobytych przez drużynę na talerz.
kiedy to zrobił, Morong znalazł coś ciekawego. Patrząc na wszystkie zespoły z sezonu 2010-2012, stwierdził, że team OPS korelowało nieco lepiej z poziomem produkcji Team Run niż team wOBA—mimo że wOBA był oczywiście powszechnie uważany za lepszy od OPS. Jego odkrycie zostało zakwestionowane w sekcji komentarzy swojego postu, więc ponownie przeprowadził porównanie, tym razem w sezonach 2003-2012. OPS znowu wygrał.
dyskusja przeniosła się na Blog Toma Tango, gdzie poszła w kilku ciekawych kierunkach. (Tango jest głównym autorem książki). Jednym z nierozstrzygniętych pytań było to, czy różnica w wynikach między OP a wOBA mieści się jedynie w marginesie błędu, czy innymi słowy, nie różni się znacząco. Nawet stwierdzenie równoważności wydaje się znaczące, ale jeśli OPS rzeczywiście pasuje do punktacji drużynowej, byłoby to jeszcze bardziej zauważalne. O ile nam wiadomo, ta konkretna kwestia nigdy nie została publicznie rozwiązana.
Podoba nam się pomysł wykorzystania korelacji do porównań statystycznych, ponieważ korelacje są matematycznie równoważne znormalizowanemu średniowi pierwiastkowemu błędu kwadratowego, ale są zgłaszane w skali, która jest łatwa do zrozumienia dla czytelnika. Korzystając z solidnej korelacji Bayesa Pearsona, która wydaje się być jeszcze bardziej solidna niż korelacja Spearmana, której używamy wcześniej, wzięliśmy pod uwagę wszystkie sezony drużynowe od 1980-2016 i porównaliśmy wyniki Team OPS z team wOBA w ich odpowiednich atakach z teamowymi runami/PA.
przeprowadziliśmy te porównania w standardowy sposób, który zwykle nas interesuje:
- wydajność opisowa: korelacja między metryką a biegami/PA w tym samym roku;
- niezawodność: korelacja między metryką a samym sobą w następnym roku; oraz
- wydajność predykcyjna: korelacja między metryką a biegami/PA w następnym roku.
ponieważ zakodowaliśmy analizę w stanie (Ok, Ok, użyliśmy brms), otrzymujemy niepewność dla tych korelacji jako naturalny produkt uboczny bayesowskiego wnioskowania wielowymiarowego. Co widzimy, gdy porównamy ponad 1000 sezonów team OPS / wOBA do team runs / PA? Oto wyniki:
OPS / wOBA to Team Runs / PA (1980-2016)
metryczny | opisowy | Desc_Err | niezawodność | Rel_Err | Pred_err | |
OPS | 0.944 | 0.003 | 0.63 | 0.020 | 0.59 | 0.021 |
wOBA | 0.933 | 0.004 | 0.62 | 0.019 | 0.58 | 0.021 |
znalezisko Moronga nie było anomalią. Mówiąc prościej, team OPS lepiej mierzy produkcję zespołu niż team wOBA: opisowa wydajność jest wygodnie poza marginesem błędu zarówno w przypadku statystyk, jak i miar niezawodności i wydajności predykcyjnej, podczas gdy w ramach odpowiednich marginesów błędu pokazują podobne trendy.
jak wspomniano powyżej, gdyby OPS tylko pasował do wOBA, byłoby to warte opublikowania, szczególnie jeśli OPS jest tak słabo skonstruowany, jak twierdzi Książka. A jednak tendencja na przestrzeni kilku dekad, w okresach wysokiej i niskiej punktacji, pokazuje, że OPS nie tylko trzyma się w walce z wobą: faktycznie radzi sobie ” lepiej.”
ale co to znaczy, że OPS jest „lepszy”?
na poziomie zespołu wniosek jest dość jasny: do pomiaru wydajności uderzeń surowych, OPS prawdopodobnie jest lepszym złożonym metryką w użyciu.
jeśli jednak interesuje Cię indywidualna wydajność, wyższość OPS staje się mniej jasna.
w powyższym wątku na blogu, Tom Tango, główny autor książki, twierdzi (w komentarzu nr 32), że OPS ma nieuczciwą (i nieistotną) przewagę, ponieważ nie liczy ofiarnych much jako pozorów talerzowych (ponieważ OBP ich nie liczy, a OPS jest zbudowany na OBP). W związku z tym operacje a) mogą milcząco przyznawać pałkarzom za to, że są w drużynie z kolegami z drużyny, którzy znajdują się na bazie, A B) mogą przecenić indywidualną wartość ofensywną gracza.
to dobry punkt, choć nie do końca satysfakcjonujący. Wydaje się mało prawdopodobne, że poświęcenie much może wyjaśnić stałą różnicę w wydajności. (Kiedy ponownie przeprowadziliśmy powyższe porównanie, wykluczając muchy ofiarne z OBP / OPS, wyniki były w zasadzie takie same). Co więcej, jeśli sacrifice flies były siłą napędową (małej) przewagi OPS w punktacji drużynowej, to statystyki takie jak wOBA prawdopodobnie powinny lepiej odzwierciedlać mechanikę sacrifice flies. Muchy ofiarne, mimo wszystko, nie uderzają się. Generowanie outfield fly balls jest umiejętnością, a niektórzy pałkarze (zwykle te lepsze) są w tym znacznie lepsi niż inni.
mówiąc inaczej, fly-ball out prawdopodobnie są mniej szkodliwe dla drużyny niż ground-ball out, a ta różnica, jakkolwiek niewielka, może być warta odzwierciedlenia, nawet dla indywidualnych estymatorów ofensywnych opartych na liniowych wagach. Odróżnienie ground-ball out od outfield fly-ball out jest również łatwe do zrobienia, nawet bez stringers lub batted-ball danych, biorąc pod uwagę różne pozycje fielding zaangażowanych.
być może z tego powodu karalny wielomianowy Estymator Scotta Powersa rozróżnia ground-ball I fly-ball out. wOBA jednak odmawia takiego rozróżnienia, być może po to, aby zapewnić, że wszystkie outy są równe 0, tak jak robią to dla OBP. Jest to wybór projektu, a nie nierozsądny, zwłaszcza, że autorzy książki są szczerzy o swojej decyzji, aby to zrobić. Ale nie jest to jedyny wybór i możliwe, że dokonując tego konkretnego wyboru, wOBA pozostawia pewną dokładność na stole. W zakresie, w jakim OPS uwzględnia tę dodatkową dokładność, jakkolwiek niezgrabnie, fakt ten jest godny uwagi i powinien być uznany za taki na swój kredyt.
idąc do przodu
naszym celem nie jest zmuszanie Cię do wyboru między OPS, wOBA lub innymi wariantami, takimi jak True Average, ponieważ wszystkie z nich ogólnie będą Ci dobrze służyć. Staramy się raczej stworzyć podstawy do dalszej dyskusji na temat tego, w jaki sposób można mierzyć wskaźniki ofensywne, oraz przypomnieć o typach problemów, o których powinniśmy myśleć, porównując wskaźniki ofensywne.
Większość złożonych wskaźników ofensywnych dobrze mierzy jakość uderzeń, przynajmniej na poziomie zespołu, ale istnieją różnice, które odzwierciedlają zarówno jakość ich konstrukcji, jak i wybory dokonane przez ich twórców. W nadchodzących tygodniach omówimy, dlaczego niektóre z tych wyborów mogą mieć zdumiewające konsekwencje.
Dziękujemy zespołowi BP Stats za wzajemną recenzję i dyskusję.
dziękuję za przeczytanie
jest to darmowy artykuł. Jeśli ci się podobało, rozważ subskrypcję Prospektu baseballowego. Subskrypcje wspierają bieżące publiczne badania i analizy baseballu w coraz bardziej zastrzeżonym środowisku.
Subskrybuj teraz