Continuamos examinando y actualizando nuestras métricas, y como parte de ese proceso hemos estado comparando varias métricas ofensivas entre sí.
Dos de las métricas que hemos comprobado son ponderada en Promedio Base (wOBA), popularizada por Tango et al en El Libro en 2007, y On-Base-Plus-Slugging (OPS), una estadística popularizada por The Hidden Game of Baseball, publicada por Pete Palmer y John Thorn en 1984. Debido a que las comparaciones entre estos dos tienen un poco de historia, pensé que comenzaríamos esta serie actualizando esas comparaciones.
Algunos antecedentes breves
OPS es sencillo, al menos en concepto. Tomas el porcentaje de bateo en base (OBP), que ciertamente no es un porcentaje, lo agregas a su porcentaje de slugging (SLG), definitivamente no es un porcentaje real (las estadísticas de béisbol pueden ser muy extrañas), y la suma de esos dos números te da las «OPERACIONES».»
wOBA es más complicado. wOBA asigna «pesos lineales» a varios eventos de bateo de béisbol; los pesos lineales son el número promedio de carreras anotadas en una media entrada después de que ocurra tal evento. Para wOBA, esos valores de ejecución se vuelven a escalar para colocarlos en la misma escala general que OBP, lo que significa garantizar que todas las salidas sean iguales a 0. Esta escala adicional no es necesaria, pero los autores del Libro pensaron que sería útil (o al menos más persuasivo) tener OBP y wOBA en la misma escala.
Los que han leído El Libro saben que los autores no están impresionados por OPS: se quejan de que OBP y SLG tienen componentes superpuestos, diferentes denominadores, y que OPS sustancialmente sub-acredita la importancia de OBP. En otras palabras, los autores del Libro ven a OPS como una aproximación en el mejor de los casos, útil solo como una estadística de «puerta de enlace», si es que es así. En su opinión, los analistas centrados en la precisión no deberían usar OPS.
¿Qué métrica es «Mejor»?
Con esa introducción, retrocedamos cinco años a un post que comenzó una discusión interesante.
En julio de 2013, Cyril Morong, profesor de economía en el San Antonio College, quería comparar el rendimiento de OPS y wOBA en la predicción de la puntuación de carreras. Esto es algo difícil de hacer para bateadores individuales, ya que a diferencia de los lanzadores, no hay un análogo «generado por carreras» a RA9. Para obtener un grupo definido de carreras con las que trabajar, Morong subió un nivel a las tasas de carreras de equipo. Debido a que todos los individuos están asociados con un equipo cuando batean, y la producción promedio ponderada de todos los bateadores del equipo da un OPS o wOBA general para el equipo, en su lugar podemos mirar el promedio de OPERACIONES o wOBA del equipo y compararlo con el promedio de carreras de equipo anotadas por apariencia de plato.
Cuando hizo esto, Morong encontró algo interesante. Mirando a todos los equipos de las temporadas 2010-2012, encontró que las OPERACIONES de equipo se correlacionaban ligeramente mejor con las tasas de producción de carreras de equipo que el equipo wOBA, a pesar de que, por supuesto, se pensaba que el wOBA era superior a OPS. Su hallazgo fue cuestionado en la sección de comentarios de su publicación, por lo que realizó la comparación de nuevo, esta vez para las temporadas 2003-2012. OPERACIONES ganó de nuevo.
La discusión se trasladó al blog de Tom Tango, donde se dirigió en algunas direcciones interesantes. (Tango es el autor principal del Libro). Una cuestión sin resolver era si la diferencia de rendimiento entre la OSP y la wOBA estaba simplemente dentro del margen de error, o en otras palabras, no era significativamente diferente. Incluso un hallazgo de equivalencia parece significativo, pero si OPS realmente se ajusta mejor a la puntuación de carrera del equipo, eso sería aún más notable. Por lo que podemos decir, esa pregunta en particular nunca se resolvió públicamente.
Permítanos ayudarle. Nos gusta la idea de usar correlaciones para comparaciones estadísticas, porque las correlaciones son matemáticamente equivalentes al error cuadrático medio de raíz normalizado, pero se informan en una escala que es fácil de entender para el lector. Usando una sólida correlación Bayesiana de Pearson, que parece ser aún más robusta que la correlación de Spearman que hemos estado usando anteriormente, tomamos todas las temporadas de bateo de equipo de 1980 a 2016, y comparamos el rendimiento de operaciones de equipo versus equipo wOBA en sus respectivos ajustes a carreras/PA de equipo.
Realizamos estas comparaciones en las formas estándar que tienden a interesarnos:
- Rendimiento descriptivo: la correlación entre la métrica y las corridas / PA del equipo del mismo año;
- Rendimiento de confiabilidad: la correlación entre la métrica y sí misma en el año siguiente; y
- Rendimiento Predictivo: la correlación entre la métrica y las corridas/PA del año siguiente.
Debido a que codificamos el análisis en Stan (ok, ok, usamos brms), obtenemos las incertidumbres para estas correlaciones como un subproducto natural de la inferencia multivariante bayesiana. ¿Qué vemos cuando comparamos más de 1000 temporadas de operaciones de equipo/wOBA con carreras de equipo/PA? Aquí están los resultados:
OPS/wOBA para el Equipo de Carreras/PA (1980-2016)
Métrica | Descriptivo | Desc_Err | Fiabilidad | Rel_Err | Predictivo | Pred_Err |
OPS | 0.944 | 0.003 | 0.63 | 0.020 | 0.59 | 0.021 |
wOBA | 0.933 | 0.004 | 0.62 | 0.019 | 0.58 | 0.021 |
El hallazgo de Morong no fue una anomalía. En pocas palabras, team OPS mide mejor la producción de golpe de equipo que team wOBA: el rendimiento descriptivo está cómodamente fuera del margen de error para ambas estadísticas, y las medidas de rendimiento predictivo y de confiabilidad, mientras que dentro de sus respectivos márgenes de error, muestran tendencias similares.
Como se señaló anteriormente, si OPS simplemente hubiera igualado a wOBA, eso se habría sentido de interés periodístico, particularmente si OPS está tan mal construido como argumenta El Libro. Y, sin embargo, la tendencia a lo largo de varias décadas, a través de períodos de puntuación alta y baja, muestra que OPS no se limita a defenderse de wOBA: en realidad lo hace «mejor».»
Pero, ¿Qué significa que OPS sea «Mejor»?
A nivel de equipo, la conclusión es bastante clara: para medir el rendimiento de golpes en bruto, OPS probablemente sea la mejor métrica compuesta para usar.
Sin embargo, si lo que le interesa es el rendimiento individual, la superioridad de OPS se vuelve menos clara.
En el hilo del blog enlazado anteriormente, Tom Tango, autor principal del Libro, sostiene (en el comentario no. 32) que OPS tiene una ventaja injusta (e irrelevante) en el sentido de que no cuenta las moscas de sacrificio como apariencias de platos (porque OBP no las cuenta, y OPS se basa en OBP). Como tal, OPS a) puede estar acreditando tácitamente a los bateadores por la fortuitud de estar en un equipo con compañeros de equipo que llegan a la base, y b) por lo tanto podría sobreestimar el valor ofensivo individual de un jugador.
Este es un buen punto, aunque no es del todo satisfactorio. Parece poco probable que las moscas de sacrificio por sí solas puedan explicar la diferencia constante en el rendimiento. (Cuando repasamos la comparación anterior excluyendo las moscas de sacrificio de OBP / OPS, los resultados fueron básicamente los mismos). Por otra parte, si las moscas de sacrificio fueron el motor de la (pequeña) ventaja de OPS en la puntuación de carreras de equipo, entonces las estadísticas como wOBA podrían hacer un mejor trabajo reflejando la mecánica de las moscas de sacrificio. Las moscas de sacrificio, después de todo, no se pegan a sí mismas. Generar bolas de fly de campo es una habilidad, y algunos bateadores (generalmente los mejores) son mucho mejores que otros.
Dicho de otra manera, los outs de fly-ball probablemente son menos dañinos para un equipo que los outs de ground-ball, y esa diferencia, por pequeña que sea, puede valer la pena reflejarse, incluso para estimadores ofensivos individuales basados en pesos lineales. También es fácil distinguir las outs de bola de tierra de las outs de bola de vuelo del campo, incluso sin largueros o datos de bola bateada, dadas las diferentes posiciones de fildeo involucradas.
Quizás por esta razón, el estimador multinomial penalizado de Scott Powers distingue entre outs de bola de tierra y bola de mosca. wOBA, sin embargo, se niega a distinguir, tal vez para asegurarse de que todas las salidas sean iguales a 0, al igual que lo hacen para OBP. Esta es una elección de diseño, y no es irrazonable, particularmente porque los autores del Libro son francos sobre su decisión de hacerlo. Pero no es la única opción, y es posible que al hacer esta elección en particular, wOBA esté dejando algo de precisión sobre la mesa. En la medida en que la OSP incorpore esta precisión adicional, por torpe que sea, ese hecho es notable y debe reconocerse como tal en su haber.
Avanzando
Nuestro objetivo aquí no es obligarte a elegir entre OPS, wOBA u otras variantes como True Average, ya que todas ellas generalmente te servirán bien. Más bien, estamos tratando de sentar las bases para una mayor discusión sobre cómo se pueden medir las métricas ofensivas, y para recordarle los tipos de problemas en los que deberíamos pensar al comparar las métricas ofensivas.
La mayoría de las métricas ofensivas compuestas hacen un buen trabajo midiendo la calidad de los bateadores, al menos a nivel de equipo, pero hay diferencias que reflejan tanto la calidad de su construcción como las elecciones que han hecho sus creadores. En las próximas semanas, discutiremos por qué algunas de esas opciones pueden tener consecuencias asombrosas.
Muchas gracias al equipo de BP Stats por la revisión por pares y la discusión.
Gracias por leer
Este es un artículo libre. Si lo disfrutaste, considera suscribirte al Prospecto de Béisbol. Las suscripciones apoyan la investigación y el análisis de béisbol público en curso en un entorno cada vez más propietario.
Suscríbase ahora