Analítica y estadísticas con azúcar: la media como dato inútil


No me fío de las estadísticas… El otro día casi me ahogué en un río de un metro y medio de profundidad media. Con las estadísticas es fácil meter la pata hasta el fondo, y conseguir con ello que los clientes pierdan la fe. Por eso es bueno repasar sus conceptos clave de vez en cuando. Sobre todo los que se relacionan con nuestra actividad como analistas web.

Pero las estadísticas no son un plato que le guste a todo el mundo. Los posts en los que hablo de ellas son siempre los menos leídos… Así que intentaré tratar el tema de una manera amena… con un poco de azúcar.

Para empezar, hablemos de la media (o media aritmética). La media es la más común de las medidas de tendencia central, y suele asociarse con el término promedio. La gente la conoce desde sus días de colegio. Matemáticamente, es la suma de todos los valores que toma una muestra, dividida por el número total de valores. La media de los valores muestrales 1, 5 y 10, es 5,3

(1+5+10)/3 = 5,3

Fácil y bonita. Tan fácil y tan bonita, que nos encanta calcularla. La entendemos nosotros pero, sobre todo, la entienden los clientes, y siempre preguntan por ella: ¿Cuál es media de visitas mensuales que recibe mi web? Y nosotros, consumados matemáticos de calculadora, soltamos la respuesta sin un ápice de rubor en las mejillas: tantas mil. Incluso hasta sentimos orgullo… Pero vamos a ver, ¿para qué sirve ese dato? Yo os lo digo: para nada. Mirad este gráfico:

Visitas mensuales

¿A qué es chulo? Con sus valles, y sus picos, incluso con el Everest a finales de noviembre. Y pregunto ¿las visitas en los fines de semana, concretamente los sábados (los puntos más bajos de los valles), tienen alguna semejanza, numéricamente hablando, con las visitas de los lunes (los puntos marcados con las líneas grises horizontales)? Evidentemente no.

Aquí entra en juego otro concepto estadístico importante: las medidas de dispersión, que describen la variabilidad de los datos… nos dicen cuán alejados están los valores de las medidas centrales. Las medidas de dispersión más comunes son el rango, la viarianza y la desviación estándar. Pero no os agobiéis, no voy a meterme ahora con ellas. En su lugar voy a poner un ejemplo para intentar explicar el concepto, y de paso incidir en lo inútil de un dato como el de la media de las visitas mensuales.

Supongamos que nos queremos comprar un Ferrari (yo quiero uno, estoy en plena crisis de los 40), y vamos al concesionario. Una vez allí nos plantamos delante de un 288 GTO y le preguntamos al comercial «¿oiga, y cuánto corre este cacharro?».

Lo que queremos saber es su velocidad punta, pero el tipo, en un alarde de imaginación, nos dice que su velocidad media es de 220 km/h. Guay, pero poco para el precio que nos piden. La respuesta es correcta, más o menos, pero muy alejada del dato útil: aquel que nos puede convencer de que hemos de soltar la pasta: el GTO 288 corre a 420 km/h. Eso sí que es impresionante.

Ferrari 288 GTO

Para dar su respuesta, el concesionario se basó en el siguiente cálculo: estos bichos van a 20 km/h. como mínimo, si no, se calan. Su velocidad máxima es de 420 km/h. La velocidad media es por tanto

(20+420)/2 = 220.

Very clever.

¿ Y qué pasa si cogemos ese pedazo de buga para pasearnos por la cuidad, un lunes lluvioso en hora punta? De la casa al trabajo en hora y media, y eso que el «despacho» está a 10 minutos andando. Los primeros 100 metros a 20 km/h. Luego detenidos durante 5 minutos. Recta larga a 160 (estamos locos). Otra vez detenidos. Aceleramos de 0 a 100 en 4,8 segundos para frenar en seco ante un semáforo en rojo. Luego otros 5 mimutos a 40 km/h. Finalmente la cosa se despeja y nos ponemos a 260 por una avenida… ¿Qué contaríamos luego en la oficina? ¿¡Que nuestra velocidad media fue de 35 km/h., en un Ferrari!? Si lo que queremos es ligar con la morena del área de diseño, la llevamos clara.

El dato puede ser exacto en términos matemáticos (no se molesten en calcularlo usando los datos del ejemplo, yo no lo he hecho), y puede servir en determinadas circunstancias (para arobar un examen de Física General, por ejemplo). Pero, evidentemente, es engañoso. No dice nada de las increíbles prestaciones de nuestro Ferrari.

La media, en el caso de la analítica web, sólo tiene sentido si las visitas a un site presentan durante un período determinado un comportamiento homogéneo, y los datos no distan mucho del valor central.

Y miren lo que les voy a decir, tampoco son útiles, en sí mismas:

  1. La media de vistas de páginas por visita.
  2. La media de tiempo de permanencia en el sitio.

Estos datos pueden servirnos para hacer comparaciones, y para detectar tendencias de mejora (o empeoramiento) de la fidelización, pero si no segmentamos estamos como en caso del Ferrari. El Ferrari en ciudad va como calquier otro coche. En una autopista, vuela. Velocidad en ciudad – Velocidad en autopista. Eso es segmentar.

En el caso de la fidelización, la segmentación básica es:

  1. Visitas que vienen de tráfico orgánico.
  2. Visitas de tráfico directo.
  3. Visitas provenientes de campañas de publicitarias online.

Pero también debemos segmentar por zonas geográficas, y por tipos de «consumisión» de contenidos: ¿Cómo se comporta la gente, en términos de fidelización, que viene a ver información de productos, comparada con la que consume contenido corportativo?

Volviendo a la media de las visitas, ya hemos visto que el dato general no tiene sentido. Pero miremos ahora este otro gráfico:

Analytcs: Patrón de visitas comparadas: ajuste de períodos

Aquí estamos comparando períodos, y los hemos ajustado para que coincidan los días de la semana (lunes con lunes, martes con martes…). Esto nos permite detectar patrones, y ver claramente cuándo dichos patrones sufren un cambio. A la vista de este gráfico puede tener sentido preguntar por la media de visitas en fin de semana, o la media de visitas en los días lunes, que suelen presentar picos similares. Si la tendencia cambia, si un día en concreto el dato se aleja la media de forma importante, entonces debemos determinar qué ha sucedido: ¿el lanzamiento una campaña de pago, o de un producto nuevo? ¿un día de fiesta en mitad de la semana? Fijaros en la gráfica a mediados y a finales de noviembre…

Es como si el Ferrari, en una autopista de Alemania, donde no hay límite legal a la hora de pisar el acelerador, se desplazara a una velocidad media de 90 km/h. ¿Le pasa algo en el motor, hay retenciones importantes, lo conduce un abuelito?

Atención, pregunta: a la vista de este gráfico, y de las media de visitas POR DÍA DE LA SEMANA (no en general), ¿en qué día de la semana deberíamos anunciar un producto nuevo, o una oferta especial, con el objetivo de obtener un mayor impacto? Y si se ha hecho un cambio importante en el site, y éste debe publicarse con el consiguiente riesgo que esto siempre conlleva, ¿qué días son los indicados para dicha operación? La respuesta a ambas preguntas es evidente. Pero no pueden responderse si el dato con el que trabajamos es la media de las visitas durante X período.

Ahora es vuestro turno. Cualquier idea que se os ocurra al respecto, será bienvenida. Por favor, incluir los comentarios en el post. ¿Qué otros datos típicos de los informes de análsis os parecen inútiles? ¿De qué forma se puede hacer útil un dato que sí mismo no aporta mucho?

Los comentarios están cerrados.

A %d blogueros les gusta esto: