¿Jugamos a las cartas? #R [Parte 1]

Jugando el otro día con mi familia a La Podrida, me empezaron a asaltar algunas cuestiones del juego, como por ejemplo, ¿en qué ronda los jugadores acertamos más las bazas? ¿y en cual menos? ¿cuántos puntos gana de media cada jugador por cada carta adicional que se agrega en cada ronda? etc... y que quizás R con su estadística me pudiera ayudar a resolver.

------------


Antes que nada, quería explicar brevemente en qué consiste este juego de cartas y cuál es la razón por la que me gusta tanto.



Es un juego que te garantiza muchas risas ya que mezcla dos factores: por un lado la aletoriedad de las cartas y por otro, la toma de decisiones por parte de los jugadores en sus apuestas, resulta en situaciones inesperadas en las que al menos uno de los jugadores sale perdiendo siempre.


Se utiliza una baraja de naipes inglés. Consta de 13 rondas, en la primera el jugador dispone de 2 cartas, en la tercera de 3, y así consecutivamente hasta llegar a 12. En la ronda 13 se dispone de 12 cartas aunque se juega de maneara diferente, sin triunfos.


En cada una de las rondas cada jugador ha de decidir en función de las cartas que tiene, cuántas bazas estima se va a llevar. Por tanto, el objetivo del juego se centra en acertar las previsiones hechas al principio de cada mano procurando que el número de bazas obtenidas sea lo más alto posible.

Esto lo indican los puntos, si se acierta la apuesta te dan 10 puntos más 3 por baza acertada: se premia el acierto de la apuesta. En caso de no haber acertado con lo apostado, se restan 3 puntos por bazas apostadas no acertadas.

En realidad, para entender mejor la mecánica del juego es necesario disponer de algo más de detalle, así que para todo aquel que esté interesado, puede consultar en esta página.

                                                                        ------------



Como contaba al principio, mientras jugaba me quedé mirando las anotaciones. Esta es la hoja que las recoge: se trata de 4 juegos en las que participamos 4 jugadores.






Lo primero que me pregunté...


La lógica de este juego lleva a pensar que conforme avanzan las rondas, el jugador dispone de más cartas y por tanto, aumenta la posibilidad de apostar más bazas y así lograr más puntos.  Por tanto, la relación entre el número de cartas respecto al número de puntos logrados, debería reflejarse en una regresión lineal muy clara. Voy a confirmarlo. 

Además, me gustaría saber (que eso me lo dice la regresión lineal), cuántos puntos adicionales suman los 4 jugadores juntos por cada carta adicional que se reparte en cada ronda.




  ####### PRIMER ANÁLISIS: REGRESIÓN LINEAL ########
             

Para ello, genero 2 vectores: uno que recoge el número de cartas por ronda, y otro que recoge los puntos agregados de los 4 jugadores, únicamente para el primer juego:


A partir de ahí, busco la función lineal que relaciona ambas variables: incluyendo primero la variable dependiente (los puntos que los jugadores hacen dependen del número de cartas que dispongan) y la variable independiente que es número de cartas repartidas.



Este es el resultado que arroja, ¿qué significa?

 

Bueno, lo primero que me está diciendo es que los datos se representan a partir del siguiente modelo y=30,97 * x - 80,85

  • El -80,85 significa los puntos que tendrían los 4 jugadores en caso de que el número de cartas repartidas fueran 0. En este caso esto no aplica pues no tiene sentido.
  • El 30,97 son los puntos que los 4 jugadores generan por cada carta adicional que se reparte. Este dato es muy interesante ya que si 10 puntos es lo gana cada jugador cuando acierta la apuesta, me está diciendo que aproximadamente en cada ronda, por cada carta adicional que se juegue, 3 jugadores acertarán su apuesta y 1 no. Y es que al final, esa es la esencia del juego, como mínimo un jugador pierde, ¡de ahí que se diga que es un juego podrido! 


Ahora, busco dibujar el modelo. En este caso no he utilizado ninguna librería que haga que los gráficos sean más chulos, sino que he tomado la básica de R.

Sin duda el dibujo es claro: a mayor número de cartas, mayores son los puntos que hacen los jugadores.


Si analizo el nivel de correlación que existe entre ambas variables, se puede observar que es bastante elevado y cercano a 1.


Eso significa que las variables de número de cartas y puntos está correlacionadas, es decir, que cuando sube una sube la otra y a la inversa. Sin embargo, como ya muchos sabréis, la correlación no implica causalidad, es decir, no significa que una variable tenga impacto sobre la otra, y esto lo podéis observar en esta página en la que se muestra algunos de los ejemplos de correlaciones entre variables más absurdas.


Por último, reviso el resumen estadístico:



Y así a primera vista puede ser difícil de entender. La verdad que yo misma desconocía el significado de algunos conceptos que arroja este resumen estadístico así que me he puesto a averiguar para tenerlo más claro, y aquí lo dejo:


1) Residuos:

Estos son la diferencia entre los valores reales de la variable que se está prediciendo y los valores predichos a partir de su regresión (y-^y). 

Para la mayoría de las regresiones se desea que los residuos se vean como una distribución normal cuando se representa. Si nuestros residuos se distribuyen normalmente, esto indica que la media de la diferencia entre predicciones y los valores reales están cerca de 0. Esto nos está indicando que la función definida es un buen modelo que permite predecir de manera acertada.


2) Significancia:

Las estrellas son la abreviatura de los niveles de significación. Con el número de asteriscos que se muestran de acuerdo con el p-valor calculado podemos saber si es poco o muy probable que exista una relación entre ambas variables (*** para alta importancia y * para baja importancia).

En este caso, las *** indican que es poco probable que no exista relación entre el número de cartas y los puntos.


3) Coeficiente estimado (Estimate):

Es el valor de pendiente calculada por la regresión, recoge el modelo: y=30,97 * x - 80,85 y siempre es bueno revisarlo para comprobar que los números arrojados parecen razonables.


4) Standard Error:

Es la medida de la variabilidad en la estimación del coeficiente. Cuanto más pequeño sea el valor mejor pero el número depende del valor arrojado para el coeficiente.

En este caso el standard error es 30 veces menor que el coeficiente: 1,020 < 30,969.


5) t-value del coeficiente:

Puntuación que mide si el coeficiente de esta variable es significativa para el modelo. En si este valoro no se usa, aunque sí se utiliza para calcular el p-valor y los niveles de significación.


6) Variable p-valor (Pr(>|t|):

Es la probabilidad de que la variable no sea relevante y se busca que este valor sea lo más pequeño posible. Si es muy pequeño, R muestra una notación científica, por ejemplo 3,51 e-11.


7) Residual standard error / degrees of freedom:

Es la desviación estándar de los residuos.  Se busca que sea un número porporcional a los cuartiles de los residuos explicados en el punto 1. Para una distribución normal, el primer y tercer cuartil deben ser de 1,5 +/- el error estándar.

Los grados de libertad son la diferencia entre el número de observaciones incluidas en la muestra y el número de variables utilizadas en el modelo (12-2=10). 


8) R cuadrado (squared):

Métrica que sirve para evaluar la bondad de ajuste del modelo. Cuanto más alto y más se acerque a 1 mejor. Indica la variabilidad en lo que se está prediciendo, lo bien o mal que explica el modelo. 

En este caso, el 98% de los puntos generados son debidos al número de cartas. Este dato indica una buena correlación aunque no implica causalidad como se ha comentado anteriormente.


9) F-statistic:

Es una prueba F en el modelo. Lo que hace es tomar los parámetros del modelo (en este caso sólo hay 1) y lo compara con un modelo que tiene un menor número de parámetros. En teoría el modelo con más parámetros debe encajar mejor. Si el modelo con más parámetros no funciona mejor que el que tiene mejor, la prueba F arrojará un valor alto de p (probabilidad de que no sea significativo) y viceversa. 

DF o grados de libertad, se refiere a la cantidad de variables que se encuentran en el modelo. En este caso hay una variable por lo que hay 1 grado de libertad.







La relación lineal me indicaba que a mayor número de cartas, mayor número de puntos, con lo que son las últimas rondas aquellas en las que se logra sumar mayor número de puntos. Analizando las variaciones de puntos por ronda, ¿se puede saber exactamente en qué ronda se logra un mayor incremento de puntos? considerando los puntos generados por los 4 jugadores, no a nivel individual.




                ####### SEGUNDO ANÁLISIS: ANÁLISIS de VARIACIONES  ########


Para ello, creo 4 vectores que recogen dicha información:


Y lo dibujo en un único lienzo resaltando aquellos puntos en los que observo una mayor variación:





Observando los plots,
- en el primer juego, la ronda de 10 cartas es en la que se logra más puntos
- en el segundo juego, son las rondas de 6 y 10 cartas las que destacan
- en el tercer juego,  se observa en este caso una mayor variación en la ronda con 8 cartas
- en el cuarto juego, es la ronda con 10 cartas de nuevo, la que más despunta

Está claro que se dispone de una muestra muy pequeña (no significativa), estamos hablando de 4 juegos cuando se debería al me nos disponer de datos de 30 juegos para que las conclusiones puedan ser consideradas. 

Aún así, sí que se observa cierto patrón, ¿no? parece que prima la ronda de 10 cartas como aquella que logra una mayor incremento de puntos. Interesante... 

Esta información la podría considerar "aunque con pinzas" para la próxima vez que vuelva a jugar: cuando llegue a la ronda de 10 cartas, sabré que es la situación en la que puedo lograr un mayor número de puntos. 




Sin embargo, me sigo haciendo preguntas....


... ¿y qué probabilidad tengo de acertar en la ronda con 10 cartas? ¿y por qué es en la ronda de 10 cartas en la que se suma más puntos, quizás es porque en las siguientes -11, 12 y 13 - se eleva la probabilidad de no acertar las bazas apostadas?

Al final, todo lleva a cuestiones que tienen que ver con la probabilidad, y claro, tiene sentido ya que estamos hablando de un juego que dispone de ese componente aleatorio que hace que sea divertido.



Debido a que he continuado la investigación en términos de probabilidades, he decidido dividir el post en 2 partes ya que sino, pasaba a ser un artículo demasiado largo. 

En en próximo, podréis leer una continuación de este en el que intento ver en qué ronda hay mayor probabilidad de acierto, cuál de los 4 jugadores tiene una mayor probabilidad de acierto a nivel global, etc...



Continuará en... [Parte 2]


Comentarios

Entradas populares de este blog

¿Diseñamos un Dashboard con R?

Profundizando en Google Data Studio

¿Por qué me gusta ser Analista Digital?