Saltar al contenido

Los desastres de la prueba A/B testing: gestión de métricas

Casi todos los cambios de producto hecho aquí en Lucid es validado por primera vez por Un test a/B. A través de los años, hemos hecho un montón de errores durante la ejecución de pruebas a/B y a escribir el código para la gestión de los mismos. En esta serie de posts, vamos a estar compartiendo lo que hemos aprendido de estos errores y cómo se pueden evitar.

Algunas de las mejores pruebas a/B hacer el menor cambio posible. Lo que olvidan es que los pequeños cambios pueden tener mucho más grande consecuencias. Por ejemplo, recientemente hemos probado un nuevo diseño de nuestro cuadro de diálogo de registro. Por supuesto, estábamos interesados principalmente en la forma en que el diálogo podría afectar la tasa de inscripción, pero tenía algunas consecuencias inesperadas así.

Diálogo de registro B brazoCuadro de Diálogo de registro B brazo

La versión más simple y B de la versión de nuestro cuadro de diálogo de registro

Nuestro diálogo fue un gran éxito, al menos para la tasa de inscripción. A la gente le encantaba el diálogo y registrado en masa.

Registro de aumento para pruebas a/B

Wow, un 20% de elevación en los registros. Eso es genial.

Sin embargo, un mes más tarde, nuestro Director de Producto que se llama a una reunión de emergencia con mi equipo. El porcentaje de usuarios recién registrados creación de nuevos documentos, nuestra clave de participación métrica, se había reducido significativamente hace un mes y nunca se recuperó. Después de algún pensamiento, localizamos el único gran cambio que ocurrió alrededor de ese tiempo, el nuevo cuadro de diálogo de registro.

Compromiso de la caída de Una prueba a/B

Ouch, una caída del 10% en la participación. Deseamos que había visto esa tarde.

A pesar de que había aumentado el número total de usuarios de la creación de documentos, el porcentaje de registros nuevos, que creó un documento que había caído. Más de estos nuevos usuarios rebotó antes de la creación de un documento. Sin embargo, por el aumento de la parte superior del embudo, el número de usuarios de involucramiento con el producto aumentado en su conjunto. Si tuviéramos mejor comunicada, este impacto que podrían haber evitado el pánico que vino con tener una medida importante caída tan de repente. Más adelante nos hacen un punto para realizar un seguimiento de los resultados de la prueba, así como otras métricas importantes.

Para prevenir errores futuros, necesitamos un AB testing framework que nos permitirá mantener un seguimiento de varias métricas para una sola prueba, y no sólo una métrica para cada prueba. Decidimos medir nuestros usuarios las acciones independientes de cualquier prueba y luego ver cómo nuestras pruebas afectados esas acciones.

Kissmetrics, uno de nuestros proveedores de análisis, ofrece un marco simple para este tipo de medición. Somos capaces de seguir las acciones que cada usuario toma como eventos y almacenar información del usuario, como lo del brazo de una prueba que se han mostrado, como propiedades. Esto hace que sea fácil de comparar cómo los diferentes brazos de la prueba afectar a casi cualquier cosa que hagan nuestros usuarios.

Aprender de nuestro error. Si usted no entiende las consecuencias de sus pruebas a/B, hay una buena probabilidad de que usted se encontrará en problemas en el camino. Asegúrese de entender los posibles efectos secundarios de cada uno de los test a/B que tiene, especialmente en las métricas clave, usted será capaz de tomar mejores decisiones informadas acerca de sus pruebas y iterar sobre ellos mucho más rápidamente.