Cada variable fue diseñada con hipótesis específica. No son transformaciones mecánicas: cada una responde a una pregunta futbolística concreta sobre forma, calidad y ventaja relativa.
Every variable was designed with a specific hypothesis. These are not mechanical transformations — each answers a concrete football question about form, quality, and relative advantage.
elo_diff
Diferencia entre ELO local y visitante. La variable de "calidad relativa" más pura del modelo. Un elo_diff > 50 define el subgrupo Q4, condición necesaria para generar señales de apuesta.
Difference between home and away ELO. The purest "relative quality" variable in the model. elo_diff > 50 defines the Q4 subgroup — the necessary condition for generating betting signals.
coef: +0.188 · ELOELO
elo_prob_home
Probabilidad de victoria local según el ELO ajustado (K=12, ha=−25). Incorpora la asimetría real del fútbol mexicano sobre ventaja de localía. Feature #4 por importancia.
Home win probability from adjusted ELO (K=12, ha=−25). Captures the real asymmetry of Mexican football regarding home advantage. Feature ranked #4 by importance.
coef: +0.229 · ELO
elo_form
Interacción: elo_diff × señal de forma últimos 5 partidos. Un equipo ELO superior que también lleva buena racha tiene un indicador compuesto más fuerte. Detecta momentum.
Interaction: elo_diff × last-5-match form signal. A higher ELO team on a good run has a stronger composite indicator. Captures momentum.
coef: — · ELO + Forma
d_avg_ga_pre
Diferencial de goles recibidos en promedio (local − visitante). Feature #1 por magnitud de coeficiente. La calidad defensiva diferencial es el predictor más fuerte de victoria en Liga MX.
Differential in average goals conceded (home − away). Feature #1 by coefficient magnitude. Defensive quality differential is the single strongest victory predictor in Liga MX.
coef: −0.468 · DefensaDefence
d_attack_pre
Índice de ataque diferencial. Derivado de goles a favor normalizados por el promedio de la liga en esa fecha. Feature #2 por importancia. La liga tiene fuerte correlación entre ataque y puntos.
Differential attack index. Derived from goals scored normalised by the league average at that date. Feature #2 by importance. Liga MX shows strong correlation between attack and points.
coef: +0.404 · AtaqueAttack
d_ppg_pre
Puntos por partido diferencial (local − visitante), acumulado hasta ese partido. Normaliza la calidad por número de partidos jugados. Más robusto que puntos brutos para temporadas cortas.
Differential points per game (home − away), cumulative up to that match. Normalises quality by matches played. More robust than raw points for short-season formats.
coef: −0.289 · Forma
d_pts_last3_pre · d_pts_last5_pre
Puntos en últimos 3 y 5 partidos. Capturan la forma reciente sin el peso de toda la temporada. Clave para detectar rachas y caídas post-lesiones o cambios de entrenador.
Points from last 3 and 5 matches. Capture recent form without the drag of the full season. Key for detecting runs and slumps following injuries or managerial changes.
NaN en jornada ≤3 · imputados con 0 · Forma reciente
NaN in matchday ≤3 · imputed with 0 · Recent form
h_team_jornada · late_season
late_season = 1 si jornada > 12. Las jornadas finales tienen dinámicas distintas: más presión, rotaciones por Liguilla. El modelo las penaliza ligeramente — reduce el peso de la localía tardía.
late_season = 1 if matchday > 12. Final matchdays have different dynamics: more pressure, rotation for Liguilla. The model slightly penalises them — reduces late-season home advantage weight.
Sesgo jornada detectado: J1 WR=36.5% vs J19+ WR=53.5% · Contexto
Matchday bias detected: J1 WR=36.5% vs J19+ WR=53.5% · Context
Correlación de features individuales con victoria local
Individual feature correlation with home win
Por qué las correlaciones individuales son bajas (r≈0.10). En fútbol, ninguna variable explica la victoria por sí sola — la incertidumbre es intrínseca. El modelo captura el efecto combinado. Con 18 variables diferenciales, el AUC de 0.680 es estadísticamente sólido para este dominio.
Why individual correlations are low (r≈0.10). In football, no single variable explains the win on its own — uncertainty is intrinsic. The model captures the combined effect. With 18 differential variables, AUC 0.680 is statistically strong for this domain.