Análisis web y herramientas estadísticas


El tema de las estadísticas y, en el fondo, de las matemáticas, no es algo que atraiga a muchos lectores. Pero si nos dedicamos a la Analítica Web, tarde o temprano tenemos que enfrentarnos con ellas.

La estadística es una herramienta indispensable a la hora de efectuar un análisis serio. Nos permite ver relaciones que de otra forma pueden pasar desapercibidas. Ya sé que el objetivo de un analista web es, en última instancia, proponer líneas de acción. Pero para ello es necesario tener claro el cuadro general, el contexto en el que nos movemos.

Para clarificar el cuadro, hay técnicas estadísticas especialmente indicadas. Me refiero a los diagramas de dispersión, al concepto de correlación lineal, y a la recta de mejor ajuste. Es evidente que no se pueden aplicar estas herramientas a cualquier métrica, y que incluso hay ocasiones en que la métrica indicada no presenta correlación, o que si la presenta, no es lineal (en otro post hablaremos de ello).

Sin embargo, se dan casos en que la correlación lineal existe, y la presuponemos (suele haber mucho de intuición en esto), pero es necesario comprobarlo. Una vez comprobada, la recta de mejor ajuste nos permite ver tendencias e, incluso, hacer predicciones. Sí, habéis leído bien… Predicciones.

Ahore viene la parte densa. Antes de huir, recomiendo hacer scroll y leer el final del post…

Diagramas de dispersión

“Un diagrama de dispersión es una gráfica de todos los pares ordenados de datos bivariados en un sistema de ejes de coordenadas. La variable de entrada X, se localiza en el eje horizontal, y la variable de salida, Y, se localiza en el eje vertical.”

En cristiano: un diagrama de dispersión es una gráfica de puntos, como la que se ve en el ejemplo:

Diagra de dispiersión. Visitas por días
La cuestión es: ¿existe alguna relación entre los valores de X e Y?

En Analytics, los mismos datos se ven así:

Gráfica de líneas

Las líneas nos ayudan a ver que hay una ligera tendencia al alza en las visitas, pero no responden la la pregunta de forma satisfactoria. Como mucho, podemos decir que los valores de Y aumentan conforme aumentan los valores de X.

Para conocer la “fuerza” de la relación entre X e Y, debemos echar mano de otra herramienta estadística: el coeficiente de correlación lineal, que refleja la consistencia del efecto que un cambio en una variable tiene sobre la otra. El coeficiente de correlación lineal presenta valores comprendidos entre -1 y +1. Un valor de +1 significa que existe una correlación lineal positiva perfecta, y un valor de -1, que existe una correlación lineal negativa perfecta.

Correlaciones lineales perfectas (+1 y -1)

La fórmula para calcular el coeficiente de correlación lineal es:

r=[\sum(x-\bar{x})(y-\bar{y})]/(n-1)s_xs_y

donde \overline{x}e \overline{y} son los valores medios de las variables X e Y, y s_xy s_y son las desviaciones estándar de las variables X e Y.

Sin embargo, no hay para qué complicarse la vida. En cualquier Hoja de Cálculo (Excel, u Open Office), se puede calcular fácilmente seleccionado la función correspondiente.

Para los datos de la primera gráfica, el coeficiente de correlación es de 0,44. Esto supone una relación positiva, pero no muy fuerte. Es lógico. Los puntos están bastante dispersos.

Para terminar, una vez comprobada la existencia de cierta relación lineal, podemos calcular la recta de mejor ajuste. Intuitivamente, y para no entrar en detalles, la recta de mejor ajuste viene a ser la ecuación lineal que más se acerca a la nube de puntos, o que “mejor la representa”. Con la recta de mejor ajuste es posible hacer predicciones.

La expresión de una ecuación lineal es:

y=mx+b

Donde mes la pendiente de la recta y b, la ordenada en el origen. Para calcular la recta de mejor ajuste se usa el método de mínimos cuadrados, que nos da los valores  m y de  b.

La fórmula para calcular la pendiente es:

m=[\sum(x-\overline{x})(y-\overline{y})]/\sum(x-\overline{x})^2

Pero, otra vez, no hay que complicarse la vida. Es cuestión de usar la función correspondiente de nuestra hoja de cálculo.

La fórmula para el cálculo de b, es:

b=[\sum y-(m*\sum x)]/n
Usando los valores con los que se hizo el diagrama inicial, obtenemos que mes 4,47, y que bes 419,92.

Nuestra ecuación de la recta es:

y=4,47x+419,92

Si calculamos los valores de Y usando la ecuación, podemos construir una gráfica como la siguiente:

Diagrama de dispersion y recta de mejor ajuste. Visitas por días
La nube de puntos azules, es la gráfica original, y la recta de puntos rojos es la de mejor ajuste.

El siguiente paso es comparar los datos reales de Y con los valores de Y que nos da la recta. Para hacer la comparación, agrupamos los días en meses. La tabla de comparaciones es la siguiente:

Comparación de datos
Noviembre tiene asterisco porque no está completo. Usando la recta, podemos “predecir”, que noviembre acabará con alrededor de 27.000 vistas (27.543 es el dato que nos da la recta, pero como puede verse hay diferencia entre los datos reales y los calculados). De la misma manera, podemos decir que diciembre debería acabar con unas 32.000 visitas. Atención: estamos hablando de orden de magnitud. Si damos un dato, debemos ser consientes de que nos movemos dentro de un rango. Ese rango será menor, mientras más cerca esté el coeficiente de correlación lineal de +1 ó de -1.

Para ejemplificar esto, vamos a hacer los mismos cálculos con la gráfica de visitas agrupadas por semanas, en lugar de días (advierta que son los mismos datos de la gráfica original, sólo que mostrados en períodos distintos):

Visitas agrupadas por semanas

El correspondiente diagrama de dispersión es:

Diagrama de dispersión. Datos agrupados por semanasEn este caso, los cálculos arrojan los siguientes resultados:

r = 0,87 (la correlación lineal es muy fuerte)
m = 221,44
b = 2880, 48

La ecuación de la recta de mejor ajuste es:

y=221,44x+2880,48

La gráfica con la recta de mejor ajuste es:

Dispersión y recta de mejor ajusteSi comparamos los datos reales con los que nos da la ecuación de la recta, vemos que la diferencia es mucho menor que en el primer caso:

Comparación de datos reales con los dados por la recta de mejor ajuste

¿Y para que sirve todo esto?

Nadie dijo que la analítica web sea un trabajo fácil. Si detectamos tendencias, podemos saber qué debemos esperar, y qué no. Por ejemplo. Supongamos que vendemos consolas de videojuegos a través de nuestra web, y que las visitas en noviembre y diciembre crecen, pero muestran un tendencia al alza que concuerda con la recta de mejor ajuste… ¿Es bueno o es malo?. La visitas han crecido, pero si el crecimiento se encuentra dentro de la tendencia “natural”, es malo. Es de esperar que antes de Navidad las visitas a una web que vende consolas se disparen. Deberíamos encontrarnos con que los datos se salen, por arriba, de la gráfica ¿Deberíamos reforzar el tráfico con campañas CPC para esas fechas?¿Nuestro posicionamiento SEO debería ser mejorado?

Otro ejemplo: si durante un mes en concreto hemos invertido en CPC, y no notamos una subida de las visitas por encima de la tendencia esperada, es que las cosas no se han hecho bien. ¿Hemos invertido bien el dinero? ¿Nuestras palabras clave eran las indicadas?

Pero no todo deben ser ejemplos pesimistas: si se observa un aumento de las visitas por encima de la tendencia esperada, debemos investigar qué ha pasado. ¿Hemos acertado en nuestras campañas de tráfico de pago? ¿Nos hemos posicionado bien? ¿Ha aumentado el tráfico proveniente de sitios referentes? ¿Cuáles?…

Las preguntas que podemos hacernos, y las acciones que las respuestas nos sugieran, dependen de la naturaleza del negocio y, en última instancia, de nuestra capacidad de análisis.

Fuente para definiciones y datos matemáticos: Estadística Elemental: Lo esencial. 10ª Edición. Autores: Johnson y Kuby. Ed. CENGAGE Learning, 2008

2 comentarios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: