Cómo hacer A/B test a tu product page de App Store sin perder los rankings que tienes

Apple le da a cada developer un canal gratuito de A/B testing dentro de App Store Connect. La mayoría de developers indie nunca lo han usado.

Esto no se trata de Custom Product Pages pagadas para campañas de ads. Es la herramienta integrada Product Page Optimization, y corre en tráfico orgánico. Eso significa que testea los usuarios que realmente te encontraron a través de búsqueda o browsing.

Aquí está qué vale la pena testear, cuánto correrlo y cómo leer los resultados sin perder los rankings que ya tienes.

Qué es realmente Product Page Optimization

Product Page Optimization (PPO) te deja crear hasta tres variantes de tratamiento de la product page de tu app. Apple divide tu tráfico orgánico de App Store entre el control y tus tratamientos, después mide qué versión convierte mejor.

Puedes testear tres elementos: el icono de la app, los screenshots y el video preview. Apple maneja el split de tráfico y la medición. Tú eliges las variantes y configuras un porcentaje target de tráfico.

Este es un A/B test real en tráfico orgánico real de búsqueda y browse. No es simulado. No es una encuesta de panel. Son tus usuarios reales.

La pregunta es qué testear y cuándo.

Testea screenshots antes que el icono

La mayoría de developers defaultean a testear el icono primero porque es visualmente impactante y se siente como una decisión de alto leverage. Usualmente no es el primer test correcto.

Aquí está por qué: el icono aparece en resultados de búsqueda y superficies browse antes de que los usuarios alcancen tu product page. Afecta el click-through rate, o si alguien tappea hacia tu listing en absoluto. Pero PPO mide la conversión después del tap, en la product page misma.

Los screenshots son lo que la mayoría de usuarios miran en la product page antes de decidir descargar. Para la mayoría de apps indie sin una marca fuerte o volumen de reseñas, los screenshots están haciendo el lift de conversión más pesado.

Empieza ahí.

Para una app como Pi Digits, que actualmente tiene 1 rating US y compite contra apps establecidas de brain-training, los screenshots son la superficie principal de confianza. Un usuario que encuentra la app a través de una búsqueda como “memory trainer” está evaluando los screenshots casi inmediatamente después de tappear. Si los screenshots no hacen el valor obvio en dos segundos, la sesión termina.

Testea el orden de screenshots y el caption del screenshot uno. Ahí vive el cambio de conversión de mayor leverage para la mayoría de apps indie.

Para qué es realmente el test del icono

Testea el icono cuando tengas una de estas preguntas específicas:

Has actualizado tu branding y quieres datos antes de comprometerte.
Tu cluster de keywords cambió, por ejemplo de “math games” a “memory challenge”, y quieres saber si el icono todavía matchea la intención.
Tu click-through rate desde superficies browse es medible más bajo que los competidores en el pull de keywords de Marteso y ya has descartado los screenshots como el problema.

Los tests de icono son más lentos para alcanzar significancia porque el icono afecta el click-through, y necesitas datos de click-through combinados con datos de install para hacer una lectura limpia. Si tu volumen de tráfico es bajo, los tests de icono pueden tomar meses en producir un resultado sobre el que puedas actuar.

Sáltate el video preview hasta que estés listo

Los videos preview en PPO son el test más caro de correr: requieren trabajo de producción, requieren una versión del video optimizada para la product page, y pueden salir mal si no están pulidos.

Para la mayoría de developers indie, el video preview es lo último que testear. La secuencia que tiene sentido es screenshots, después icono, después video preview.

No dejes que la opción cree obligación.

La mayoría de tests son muy cortos

El error más común en App Store PPO es detener el test después de una semana.

Una semana casi nunca es suficiente tráfico para alcanzar significancia estadística para una app indie. La guidance de Apple sugiere correr tests hasta que alcances significancia, pero no te fuerza a esperar. El dashboard puede mostrarte un ganador que se ve convincente en el día 7 y se revierte en el día 21.

Aquí está la regla práctica: corre tests por un mínimo de 3 semanas antes de tomar una decisión, y no empieces un test justo antes de un pico estacional porque ese tráfico no es representativo del comportamiento normal.

Si Apple muestra significancia antes de 3 semanas, anótalo, pero no actúes inmediatamente. Deja correr el test. La significancia temprana es a menudo ruido de un burst de tráfico que sesga la muestra.

Cómo leer resultados sin un grado en estadística

Apple te muestra un nivel de confianza y una estimación de mejora para cada tratamiento. Buscas dos cosas.

Primero, confianza sobre 90 %. Apple usa un modelo Bayesiano. Cuando la confianza cruza 90 %, el resultado es razonablemente confiable. Por debajo de eso, estás leyendo ruido.

Segundo, mejora en la métrica correcta. PPO mide la tasa de conversión: el porcentaje de visitantes de product page que descargan. Un tratamiento que mejora la conversión en 5 % es significativo. Un tratamiento que la mejora en 0,4 % es probablemente ruido incluso con alta confianza, porque cambios absolutos pequeños pueden ocurrir por shifts de composición de tráfico.

Para una app con un keyword como “memory games for adults”, donde el ranking ya es difícil, una mejora del 5 % en conversión de product page compoundea directamente en si el ranking vale la pena mantener. Apple observa la tasa de conversión como una señal de ranking. Una conversión más alta en un keyword significa que el rank es más defendible.

No necesitas entender estadística Bayesiana para hacer este call. Necesitas entender si la mejora es lo suficientemente grande para importar.

Un test a la vez

La herramienta PPO te deja testear múltiples elementos, pero casi siempre deberías testear una cosa a la vez.

Si cambias el icono y los screenshots simultáneamente, no puedes decir qué cambio impulsó el resultado. Si el test gana, no sabes qué guardar. Si pierde, no sabes qué arreglar.

Para apps indie con tráfico orgánico limitado, correr un test limpio es más valioso que correr tres tests simultáneos con resultados inconcluyentes.

Testea screenshot uno. Espera tres semanas. Lee el resultado. Aplícalo. Después testea algo más.

Conecta el test con tu apuesta de keywords

Cada test PPO debería estar atado al cluster de keywords que estás optimizando actualmente en metadatos.

Si tu apuesta actual de metadatos es “pi memorization”, el screenshot de tratamiento debería reforzar esa intención, no pivotar a un posicionamiento diferente. Si cambias los metadatos a “number challenge” y corres un test PPO al mismo tiempo, no sabrás si el cambio de conversión vino del nuevo posicionamiento o del nuevo screenshot.

Este es el mismo principio que el loop de review de metadatos de 21 días: una variable a la vez. Mantén el test legible.

Cuanto más limpia tu estructura de test, más rápido aprendes. Y para developers indie corriendo estos tests solos sin equipo de datos, la velocidad de aprendizaje es la única ventaja competitiva que tienes.