AnaLística Web


La estadística está en todos lados

¿Eres de los que miras habitualmente las predicciones del tiempo en tu ciudad? ¿sabías que los datos se basan en probabilidades?

¿Has ido alguna vez a un scape room? ¿sabías que cada una de las salas tiene una probabilidad de éxito diferente en función de su dificultad?

¿Sabías que en el segundo trimestre del embarazo los ginecólogos son capaces de predecir con cierto margen de error las probabilidades de que el bebé tenga o no síndrome de down?

¿Has escuchado alguna vez en un medio de comunicación estudios médicos que demuestran cómo fumar es el principal factor de riesgo para desarrollar cáncer pulmonar?

¿Por qué crees que en redes sociales se muestra publicidad y perfiles afines a tu perfil?



Sin duda, la estadística forma parte de nuestro día a día. Muchas de las preguntas que nos hacemos son hipótesis que podrían ser respondidas bajo esta disciplina, especialmente de causalidad: ¿esto ha pasado por esto o por aquello otro?

Afecta a todos los sectores profesionales que trabajan con datos: desde la psicología, sociología, educación, banca, etc... Y por supuesto, no podría faltar la analítica web, que como ya sabéis, se caracteriza por analizar los datos que podemos recoger de distintas plataformas como Google Analytics, Adobe Site Catalyst o Piwik.


Supongamos un e-commerce -habitualmente negocios estacionales-. Este mes ha vendido menos cantidad de un producto que el año anterior, ¿qué ha sucedido? ¿ha sido tan determinante la subida en el precio que se ha hecho para ese producto? Mirando los datos se puede observar cómo se ha captado no sólo más tráfico que el mismo periodo del año anterior, sino que ha habido un mayor número de usuarios interesados por la ficha de ese producto. Entonces, ¿si vuelvo a bajar el precio se incrementarán las ventas? ¿o quizás hayan aparecido nuevos factores que no estoy teniendo como nuevos competidores?


Otro ejemplo. Son distintas las interacciones que un usuario puede hacer en un sitio web tipo e-commerce además de iniciar el proceso de compra y/o comprar. Por ejemplo, puede interactuar con el chat para hacer consultas concretas de algún producto que les haya interesado, pueden acceder al blog, puede subscribirse a la newsletter, pueden completar el formulario de contacto, pueden publicar en redes sociales, etc...
Es posible medir todas acciones con una buena implementación de la herramienta, de forma que se puede saber cuántos usuarios de los que no rebotaron, hicieron una u otra acción. Sin embargo, cada una de esas acciones explica un nivel distinto en la intención de compra del usuario: no es lo mismo que un usuario mire el post del blog, a que haga una pregunta sobre una producto en el chat, ¿qué acción creéis que muestra un mayor compromiso por parte del usuario? en cierta manera se puede intuir pero necesitamos datos... ¿quizás el conocer las acciones que arrojen una mayor probabilidad de compra nos ayude a comprender mejor el comportamiento de nuestros usuarios?



Todo esto y mucho más se puede lograr con la estadística. Es una disciplina que permite ir más allá, alcanzar un mayor nivel en el análisis de los datos, adquirir una mayor comprensión y por ende, un mayor conocimiento del negocio a partir del cual poder tomar acciones.

Cada día que pasa, pienso que los métodos estadísticos son una técnica que debería utilizar todo analista web, bien manejándose mediante técnicas sencillas, o bien ahondando en técnicas más complejas que lo hagan evolucionar como data scientist.

Con técnicas sencillas me refiero a saber hacer determinadas comprobaciones estadísticas antes de hacer determinadas afirmaciones. ¿Las dos tasas de rebote de un site en momentos distintos del tiempo son comparables? ¿es correcto tratándose de distintas muestras de usuarios?





Sin embargo, tampoco nos podemos poner como locos a aplicar sin tener una base sólida. Recuerdo cómo hace tiempo, cuando empecé a interesarme por el tema, leí en un blog una frase que me dije: "esta es la clave". Era una frase que decía algo así cómo que "...lo importante del análisis estadístico es conocer las limitaciones o asunciones en las que se asientan las diferentes técnicas".





Ahora todo interesado, puede aplicar técnicas de manera relativamente sencilla. El ordenador es capaz de hacer complejos cálculos y/o aplicar modelos matemáticos / estadísticos sin que uno vea lo que se cuece por debajo, para después arrojar un resultado. No digo que sea necesario comprenderlo al detalle, pero SI adquirir una comprensión de la base y las asunciones en las que se apoyan dichas técnicas, de tal forma que se pueda realizar una interpretación correcta de los resultados. Por ejemplo...


Uno de los ejercicios más complicados en el ámbito de la analítica web es la causalidad: ¿una mayor inversión en Adwords ha generado una mayor cantidad de ventas

Una confusión generalizada es que el hecho que dos acciones que estén correlacionadas (cuando el coste aumenta, las ventas también lo hacen) implica que una es la causa de otra. Sin embargo, como todo el mundo sabe, el hecho de que las ventas de helado y los ahogos en las piscinas se incrementen en verano, no significa que uno sea la causa de otro.

De hecho, hasta hace poco tiempo pensaba que las regresiones lineales ayudaban a resolver este tipo de hipótesis causales. Es cierto que es una técnica que va más allá de la correlación pero al final, lo que hace, es explicar un nivel de asociación entre dos factores. Se trata de un método que ayuda a cuantificar la relación entre una variable y el resultado mientras el resto de variables se mantiene constante, logrando aislar el efecto de uno de ellos.

Es el procedimiento en el que se basa la mayoría de los estudios, que se caracteriza por ser fácil de usar pero difícil de usar bien. Se trata de una técnica que se puede aprender fácilmente a ejecutar y que es realmente potente porque provee de respuestas concisas a preguntas complicadas sin embargo, en manos equivocadas que no tienen en cuenta ciertas cuestiones, los resultados pueden interpretarse de manera errónea.

Hacer una regresión lineal simple o múltiple después de ordenar los datos, suele llevar aproximadamente una línea de código en R. Aportando los datos adecuados y acceso a un ordenador, cualquier persona puede generar el resultado.

Una vez obtenido el "output", es importante observar no sólo el peso de cada uno de los coeficientes y su signo, también su "significancia". No hay que olvidar que la técnica se está aplicando sobre una muestra de datos: lo que se está haciendo es una estimación de cómo se comportaría la población en función del resultado en una muestra, de ahí que sea necesario enriquecerlo con un "test de hipótesis".

Respecto a las partes más complicadas del proceso que son muy importantes tener en cuenta, que no se centran en la ejecución, se podrían resumir a grosso modo en las siguientes tres categorías:

  • la identificación de variables que han de ser consideradas en el análisis. Muchas veces pensamos que la asociación entre A y B prueba que A causa B sin embargo, es totalmente plausible que B cause A. También se pueden cometer los errores de omitir variables que se encuentran entre las más explicativas o agregar variables explicativas en exceso, no siendo tampoco la solución.
  • la alta correlación entre las distintas variables (multico-linaridad). Esto se debe a que es complicado que los usuarios estén afectados por una variable mientras la otra se mantiene constante cuando ambas correlacionadas y se mueven en la misma dirección. Se trata de un hecho que va en contra de la propia definición del método.
  • la utilización de relaciones no lineales. Vivimos en un mundo muy complejo donde no todas las relaciones se pueden representar bajo una línea recta. En ese caso, es necesario aplicar una técnica que permite traducir la relación de dos variables a una ecuación lineal.




Como antes comentaba, vivimos bajo una realidad muy compleja

que el hombre siempre ha buscado aprender a simplificar para realizar predicciones. El hecho es que cada vez va siendo más y más compleja, la evolución de la tecnología ha hecho que todos nosotros estemos más conectados y por ende puedan existir más influencias y factores, a la hora de analizar causalidades.

En una publicación sobre Eficiencia Publicitaria se comenta sobre ello: cómo hace un par de décadas, emitir un anuncio en el único canal de televisión disponible garantizaba un incremento significativo de las ventas mientras que ahora no es posible, no sólo porque convivimos con multitud de canales de televisión, sino que se dispone de otros muchos más además de otras plataformas como Netflix, YouTube, etc...
Se han ampliado tanto los canales por los que canalizar los impactos publicitarios siendo cada vez más difícil la captación de la atención de los públicos objetivos.  Una importante inversión en publicidad ya no garantiza un importante retorno: las reglas del juego han cambiado, y por tanto la estrategia también también ha de evolucionar.

Si hablamos de un e-commerce, se pueden buscar modelos que ayuden a entender qué variables ayudan a generar ventas. Está claro que uno se puede centrar en conocer la influencia de los distintos canales que captan tráfico pero también el foco puede centrarse en otras opciones como comentaba anteriormente: modelizar las acciones que realiza el usuario en el sitio web y que nos puede dar una pista de la verdadera intención del usuario.

Simplificar dicha compleja realidad bajo un modelo es algo muy buscado porque permite una mayor comprensión y la tan ansiada predicción. Sin embargo es importante estar al tanto de que no es tan sencillo de desarrollar: no sólo hay que buscar las principales variables que inciden en el foco de nuestro estudio, sino que también que el modelo sea generalizable.

Cuando se empieza a definir un modelo, este se prueba con datos de una muestra sin embargo, el hecho de que el modelo se ajuste perfectamente a ella, no significa que se vaya a ajustar a otra muestra de usuarios diferentes, es lo que se le llaman como "overfitting". Un modelo que se ajuste 100% a la muestra porque memoriza el patrón, no va a ser capaz de adaptarse a los datos de nuevas muestras y arrojará resultados incoherentes.

Me he dado cuenta de que la generalización es una de las principales preocupaciones de la estadística y es la razón por las que ha desarrollado las técnicas sobre desviaciones estándar e intervalos de confianza. Al final, siempre que se hace un análisis, se hace sobre una muestra pues es realmente complicado hacerlo sobre la población total. Es por ello fundamental asegurarse de que el resultado obtenido, si se aplica sobre otra muestra, no arrojará grandes desviaciones respecto al resultado inicial, bajo una probabilidad del 90/95%.

Respecto a la realización de predicciones a través de los modelos... soy bastante escéptica al respecto. Un modelo predice el futuro en base siempre a los datos que dispone, al histórico, a lo ya ocurrido, sin tener en cuenta los posibles los cisnes negros positivos y negativos, básicamente... porque no pueden.


En fin, espero que os haya gustado el post. Soy consciente que el tema de Analística Web da para mucho así que no descarto seguir escribiendo más adelante sobre ello :)

Comentarios

Entradas populares de este blog

¿Diseñamos un Dashboard con R?

Profundizando en Google Data Studio

¿Por qué me gusta ser Analista Digital?