Los “expected goals”, la métrica de moda del análisis big data

Posiblemente lo hayamos visto en algún gráfico de algún análisis de partido. Es la métrica, una más, que buscar acercar al fútbol a una ciencia exacta. Se trata de goles esperado o “expected goals” y está ubicado al lado de otras estadísticas como disparos, pases correctos, etc. con el símbolo “xG”.

Los goles esperados, o xG, son la cantidad de goles que un jugador o equipo debería haber marcado al considerar la cantidad y el tipo de oportunidades que tuvo en un partido. Es una forma de utilizar las estadísticas para proporcionar una visión objetiva de comentarios comunes como: «¡No debería perderse eso!» «¡Tiene que anotar esas oportunidades!» «¡Debería haber tenido un hat-trick!»

Aunque es de uso reciente, fue aplicado en 1993 por Vic Barnett y su colega Sarah Hilditch, quienes se refirieron por primera vez a los «goles esperados» en su artículo de ese año que investigaba los efectos de las superficies de campo artificial en el rendimiento del equipo local en en Inglaterra.

Luego, en 2004, Jake Ensum, Richard Pollard y Samuel Taylor  informaron de su estudio de datos de 37 partidos de la Copa del Mundo de 2002 en los que se registraron 930 tiros y 93 goles. Su investigación buscaba «investigar y cuantificar 12 factores que podrían afectar el éxito de un tiro». Este último trabajo dio forma al cálculo que debe utilizarse para la nueva métrica que desde el año pasado se ha hecho tendencia global.

En abril de 2012, Sam Green, analista de datos avanzados de la empresa de estadísticas deportivas Opta, explicó por primera vez su enfoque innovador para evaluar el rendimiento de los goleadores de la Premier League, inspirado en modelos similares que se utilizan en los deportes estadounidenses. Sin embargo, no fue hasta el comienzo de la temporada 2017/18 cuando el Match of The Day de la BBC debutó con el uso de xG por parte de sus populares expertos en fútbol para hacer de xG un tema central de conversación para muchos fanáticos del fútbol.

Hay que decirlo, no hay formato estándar o definido para cuantificar esta cifra, como es sencillo recopilar goles anotados o disparos al arco. Grandes firmas de datos, como Opta, In Stats o Stats Perform, tienen coincidencia en sus fórmulas, pero otros investigadores quieren añadir más datos, como ángulo de tiro, para ofrecer mayor precisión.

Posibilidad de gol según la zona de disparo. Cortesía Opta

La fórmula estándar

El modelo xG fue diseñado para devolver un valor xG para cada jugador, equipo o oportunidad dependiendo de la dimensión en la que se analizan los datos: una temporada completa, un partido en particular, una mitad específica en un juego o un grupo de intentos de gol. Digamos que un jugador como Harry Kane toma 100 tiros s que, según los datos históricos de la Premier League, tienen una probabilidad de ser anotado de 0,202 (o 20,2%). El valor de xG de Kane sería de 20 goles esperados (100 tiros x 0,202). Este número de xG contendría un promedio de algunas ‘grandes oportunidades de gol’ que tomó Kane, como penaltis con 0.783xG, otros tiros que no son de penalización dentro del área con valores variables de xG como 0.387xG y tal vez incluso tiros fuera del área con 0.036 valor xG. Los modelos intentan equilibrar la cantidad de tiros que realiza un jugador con la calidad de estas oportunidades.

Lee también   American Fútbol: Tijuana
Comparativa de valor y escala de distancia y ángulo. Cortesía Data Science.

Se calcula comparándolo con miles de disparos registrados anteriormente en función de factores como la distancia, la posición de los defensores, el tipo y la velocidad del pase, el tipo de disparo, y los ángulos de disparo. Digamos esta es la fórmula más sencilla.

Evidentemente, ni el mejor matemático puede entregar en forma exprés este resultado, así que con algoritmos y solo con juegos que tengan transmisión de TV y video, sumando programas especiales para con el material gráfico pueda “escanear” jugador, velocidad y posición, se puedan obtener estos números.

En pocas palabras, a cada disparo se le asigna un valor particular entre 0 y 1, siendo 1 la probabilidad más alta de anotar y 0 la más baja.

Los angulos también influyen en la métrica final. Cortesía Stats Bomb

Revolución y resistencia

¿Para qué puede servir está fórmula? El ejemplo más utilizado para explicar la eficiencia de xG es la temporada de la Juventus de 2015/16. La Juventus solo ganó 3 de sus primeros 10 juegos, pero la diferencia entre sus goles reales y xG fue considerablemente alta. Esto significaba que tenían las oportunidades pero no las estaban convirtiendo, lo que sugiere que su racha negativa de resultados podría no durar si tienen un poco más de suerte frente a la portería. El despido del técnico Massimo Allegri pudo haber sido un error, ya que tras la jornada 12 su suerte cambió y acabó ganando el título de liga con 9 partidos de sobra.

Hay que recordar que también existe una fuerte resistencia de la comunidad futbolística al uso de datos. El fútbol es un deporte tradicional y emocional por naturaleza, con la experiencia y la sabiduría aceptada dominando las opiniones de las personas. La mayoría de los fanáticos ven el uso de estadísticas como intrusivo y desafía su conocimiento histórico y popular del «juego hermoso«. Después de experimentar la derrota de su equipo, la mayoría de ellos no están interesados ​​en escuchar a los expertos en televisión discutir cómo se desempeñó su equipo en contra de sus objetivos esperados. A pesar de que la analítica tiene mucho que ofrecer al análisis del rendimiento del fútbol, ​​todavía hay escépticos. El debut de xG en Match of the Day (Inglaterra)  sacudió las redes sociales con menciones instantáneas de «nerds de las estadísticas» y afirma que los números en el fútbol son «inútiles» y «tonterías».