Apple은 모든 개발자에게 App Store Connect 안에서 무료 A/B 테스트 채널을 제공합니다. 그런데 대부분의 인디 개발자는 이 기능을 한 번도 써본 적이 없습니다.

이것은 광고 캠페인용 유료 Custom Product Pages 이야기가 아닙니다. 내장된 Product Page Optimization 도구 이야기이며, 이 도구는 오가닉 트래픽을 대상으로 동작합니다. 즉, 검색이나 둘러보기를 통해 실제로 여러분의 앱을 찾아낸 사용자들을 테스트한다는 뜻입니다.

여기서는 테스트할 가치가 있는 것, 얼마나 오래 돌려야 하는지, 그리고 이미 확보한 랭킹을 잃지 않으면서 결과를 읽어내는 방법을 다룹니다.

Product Page Optimization이 실제로 무엇인가

Product Page Optimization(PPO)을 사용하면 앱 제품 페이지의 트리트먼트(검증용 변형)를 최대 3개까지 만들 수 있습니다. Apple은 여러분의 오가닉 App Store 트래픽을 컨트롤과 트리트먼트 사이에 나누고, 어느 버전이 더 잘 전환되는지 측정합니다.

테스트할 수 있는 요소는 세 가지입니다. 앱 아이콘, 스크린샷, 그리고 미리보기 동영상입니다. 트래픽 분배와 측정은 Apple이 처리합니다. 여러분은 변형을 고르고 트래픽의 목표 비율을 설정하기만 하면 됩니다.

이것은 실제 오가닉 검색·둘러보기 트래픽을 대상으로 한 진짜 A/B 테스트입니다. 시뮬레이션이 아닙니다. 패널 설문조사도 아닙니다. 여러분의 실제 사용자가 대상입니다.

문제는 무엇을, 언제 테스트하느냐입니다.

아이콘보다 스크린샷을 먼저 테스트하라

대부분의 개발자는 먼저 아이콘부터 테스트하려고 합니다. 시각적으로 인상적이고, 영향력이 큰 결정처럼 느껴지기 때문입니다. 하지만 이것은 대개 첫 번째 테스트로는 옳지 않습니다.

이유는 이렇습니다. 아이콘은 사용자가 제품 페이지에 도달하기 전, 검색 결과와 둘러보기 화면에 표시됩니다. 즉 아이콘이 영향을 미치는 것은 클릭률, 다시 말해 애초에 누군가가 여러분의 목록을 탭하는지 여부입니다. 반면 PPO가 측정하는 것은 탭한 이후, 제품 페이지 자체에서의 전환입니다.

스크린샷은 대부분의 사용자가 다운로드를 결정하기 전에 제품 페이지에서 보는 요소입니다. 강력한 브랜드나 많은 리뷰가 없는 대부분의 인디 앱에서는 전환을 가장 크게 끌어올리는 것이 바로 스크린샷입니다.

거기서부터 시작하세요.

예를 들어 Pi Digits 같은 앱은 현재 미국 평점이 1건뿐이며, 이미 자리를 잡은 두뇌 훈련 앱들과 경쟁하고 있습니다. 이런 앱에게 스크린샷은 신뢰를 전하는 핵심 접점입니다. “memory trainer” 같은 검색으로 앱을 찾은 사용자는 탭한 직후 거의 즉시 스크린샷을 평가합니다. 스크린샷이 2초 안에 가치를 분명하게 전달하지 못하면 그 세션은 끝납니다.

스크린샷의 순서와 첫 번째 스크린샷의 캡션을 테스트하세요. 대부분의 인디 앱에서 전환을 가장 크게 움직일 수 있는 변화가 바로 거기에 있습니다.

아이콘 테스트는 실제로 무엇을 위한 것인가

아이콘은 다음과 같은 구체적인 질문이 있을 때 테스트하세요.

  • 브랜딩을 막 새로 바꿨고, 확정하기 전에 데이터를 보고 싶을 때.
  • 키워드 클러스터가 바뀌었을 때. 예를 들어 “math games”에서 “memory challenge”로 옮겨갔고, 아이콘이 여전히 그 의도에 맞는지 알고 싶을 때.
  • Marteso의 키워드 데이터에서 둘러보기 화면으로부터의 클릭률이 경쟁사보다 눈에 띄게 낮고, 이미 스크린샷이 원인이 아니라는 것을 확인했을 때.

아이콘 테스트는 유의성에 도달하기까지 더 오래 걸립니다. 아이콘은 클릭률에 영향을 미치므로, 결과를 깔끔하게 읽으려면 클릭률 데이터와 설치 데이터가 함께 필요하기 때문입니다. 트래픽 양이 적다면 아이콘 테스트는 실행에 옮길 만한 결과를 내는 데 몇 달이 걸릴 수도 있습니다.

준비가 될 때까지 미리보기 동영상은 미뤄라

PPO에서 미리보기 동영상은 가장 비용이 많이 드는 테스트입니다. 제작 작업이 필요하고, 제품 페이지에 맞게 최적화된 버전의 동영상도 필요하며, 마무리가 어설프면 역효과를 낼 수도 있습니다.

대부분의 인디 개발자에게 미리보기 동영상은 가장 마지막에 테스트할 대상입니다. 합리적인 순서는 스크린샷, 다음으로 아이콘, 그리고 미리보기 동영상입니다.

선택지가 있다고 해서 그것을 의무로 느낄 필요는 없습니다.

대부분의 테스트는 기간이 너무 짧다

App Store PPO에서 가장 흔한 실수는 일주일 만에 테스트를 멈추는 것입니다.

인디 앱에서 일주일 만에 통계적 유의성에 도달할 만큼 트래픽이 모이는 일은 거의 없습니다. Apple의 가이드는 유의성에 도달할 때까지 테스트를 돌리라고 권장하지만, 기다리도록 강제하지는 않습니다. 대시보드는 7일째에는 설득력 있어 보이는 승자를 보여주다가 21일째에는 그 결과가 뒤집힐 수도 있습니다.

실용적인 규칙은 이렇습니다. 결정을 내리기 전에 최소 3주는 테스트를 돌리고, 계절적 트래픽 급증 직전에는 테스트를 시작하지 마세요. 그 트래픽은 평소의 행동을 대표하지 않기 때문입니다.

Apple이 3주가 되기 전에 유의하다고 표시하더라도, 그것은 기록만 해두고 즉시 행동에 옮기지 마세요. 테스트는 그대로 계속 돌리세요. 너무 이른 유의성은 표본을 왜곡하는 일시적인 트래픽 급증에서 비롯된 노이즈인 경우가 많습니다.

통계학 학위 없이 결과를 읽는 방법

Apple은 각 트리트먼트에 대해 신뢰도와 개선 추정치를 보여줍니다. 주목해야 할 것은 두 가지입니다.

첫째, 신뢰도가 90%를 넘는지입니다. Apple은 베이지안 모델을 사용합니다. 신뢰도가 90%를 넘으면 그 결과는 어느 정도 믿을 만합니다. 그 아래라면 여러분이 보고 있는 것은 노이즈입니다.

둘째, 올바른 지표에서 개선이 있는지입니다. PPO가 측정하는 것은 전환율, 즉 제품 페이지를 본 사람 중 다운로드한 사람의 비율입니다. 전환을 5% 개선하는 트리트먼트는 의미가 있습니다. 반면 0.4%만 개선하는 트리트먼트는 신뢰도가 높더라도 아마 노이즈일 것입니다. 작은 절댓값 변화는 트래픽 구성의 변동만으로도 생길 수 있기 때문입니다.

“memory games for adults”처럼 이미 랭킹을 따내기 어려운 키워드를 가진 앱이라면, 제품 페이지 전환이 5% 개선되는지 여부가 그 랭킹을 지킬 가치가 있는지에 직결됩니다. Apple은 전환율을 랭킹 신호로 관찰합니다. 특정 키워드에서 전환이 높을수록 그 순위는 더 방어하기 쉬워집니다.

이 판단을 내리는 데 베이지안 통계를 이해할 필요는 없습니다. 필요한 것은 그 개선이 의미를 가질 만큼 충분히 큰지를 이해하는 것입니다.

한 번에 하나의 테스트

PPO 도구로 여러 요소를 테스트할 수 있지만, 거의 항상 한 번에 하나만 테스트해야 합니다.

아이콘과 스크린샷을 동시에 바꾸면 어느 변경이 결과를 만들었는지 알 수 없습니다. 테스트에서 이겨도 무엇을 유지해야 할지 모르고, 져도 무엇을 고쳐야 할지 모릅니다.

오가닉 트래픽이 제한된 인디 앱에게는 결론이 나지 않는 동시 테스트 세 개를 돌리는 것보다 깔끔한 테스트 하나를 돌리는 것이 더 가치 있습니다.

첫 번째 스크린샷을 테스트하세요. 3주를 기다리세요. 결과를 읽으세요. 그것을 반영하세요. 그런 다음 다른 것을 테스트하세요.

테스트를 자신의 키워드 베팅과 연결하라

모든 PPO 테스트는 지금 메타데이터에서 최적화하고 있는 키워드 클러스터와 연결되어 있어야 합니다.

지금의 메타데이터 베팅이 “pi memorization”이라면, 트리트먼트 스크린샷은 그 의도를 강화해야 하며, 다른 포지셔닝으로 방향을 틀어서는 안 됩니다. 만약 메타데이터를 “number challenge”로 바꾸면서 동시에 PPO 테스트를 돌린다면, 전환 변화가 새로운 포지셔닝에서 온 것인지 새로운 스크린샷에서 온 것인지 알 수 없게 됩니다.

이것은 21일 메타데이터 검토 루프와 같은 원칙입니다. 한 번에 바꾸는 변수는 하나뿐. 테스트를 읽을 수 있는 상태로 유지하세요.

테스트 구조가 깔끔할수록 학습은 더 빨라집니다. 그리고 데이터 팀 없이 혼자서 이 테스트들을 돌리는 인디 개발자에게는 학습의 속도야말로 유일한 경쟁 우위입니다.