Discrepancias entre BQ y la interfaz de GA4 (publicado en LinkedIn)

El 1 de julio de 2024 Google completó la migración de Universal Analytics a GA4. Los meses anteriores fueron un verdadero via crucis para muchas empresas, y sus consultores de analítica web. En esa guerra, librada, sobre todo, contra el tiempo, una de las batallas más cruentas fue la que enfrentó a los datos que se recogían de GA4 y su reflejo en las tablas de BigQuery.
Ante la desaparición en la interfaz de GA4 de muchos de los informes a los que Universal nos tenía acostumbrados, la reacción natural fue intentar montarlos en alguna herramienta de visualización de datos o Business intelligence, a partir de las tablas de BigQuery que se creaban gracias a la exportación automática de datos entre ambas plataformas.
Sin embargo, ésa solución no estaba exenta de problemas. El primero y más relevante, es que los datos de la interfaz de la herramienta no coindicen con los que se almacenan en las tablas de BigQuery. Esto provocó enormes dolores de cabeza en todos los implicados en el proceso de migración.
En medio del fragor de esta batalla, concretamente el 5 de octubre de 2023, publiqué en LinkedIn un artículo sobre el tema.
En dicho artículo, expuse que existe una desconexión fundamental entre los datos que se visualizan en la interfaz de Google Analytics 4 (GA4) y los que se exportan a BigQuery (BQ), generando desconfianza en los usuarios. La causa principal de estas discrepancias no suele ser un error de implementación, sino la diferencia intrínseca entre los datos: la interfaz de GA4 muestra datos procesados, mientras que BQ recibe datos crudos.
Google enriquece los datos de la interfaz con información y procesos que no están disponibles en BigQuery. Entre estos «añadidos de valor» se incluyen la deduplicación de usuarios mediante Google Signals, la modelización de conversiones (especialmente con Consent Mode activado) y la atribución de tráfico avanzada. Por ejemplo, con el etiquetado automático de campañas de Google Ads, la interfaz muestra la fuente y el medio correctos, pero en BQ solo se recibe un GCLID (identificador de clic), imposibilitando replicar la misma atribución a nivel de sesión mediante consultas SQL.
Otro factor clave es el uso de algoritmos como HyperLogLog++ por parte de GA4 para estimar métricas como usuarios y sesiones en su interfaz, mientras que en BQ se realiza un recuento exacto, lo que introduce pequeñas variaciones. Además, influyen las conversiones de divisas, que en GA4 se calculan automáticamente y en BQ deben gestionarse manualmente, y los tiempos de consolidación de datos, que pueden tardar hasta 72 horas en actualizarse completamente en BQ, provocando diferencias temporales.
Como solución provisional para obtener informes consistentes, propuse utilizar la API de GA4 para extraer los datos ya procesados y llevarlos a BQ.
Al final del artículo, mi conclusión era que GA4 estaba aún en desarrollo, y que Google debía mejorar tanto su interfaz como la información que se exporta a BigQuery para cerrar la brecha y restaurar la confianza del usuario.
Enlace al artículo completo original
Descubre más desde Consultor en Ciencia de Datos
Suscríbete y recibe las últimas entradas en tu correo electrónico.