ランキングを落とさずに App Store のプロダクトページを A/B テストする方法

Apple はすべての開発者に対して、App Store Connect の中に無料の A/B テスト機能を用意しています。しかし、ほとんどのインディー開発者はこれを使ったことがありません。

これは広告キャンペーン向けの有料の Custom Product Pages の話ではありません。組み込みの Product Page Optimization というツールの話で、これはオーガニックトラフィックを対象に動作します。つまり、検索やブラウジングを通じて実際にあなたのアプリを見つけたユーザーをテストできるということです。

ここでは、テストする価値があるもの、どれくらいの期間回すべきか、そしてすでに獲得しているランキングを失わずに結果を読み解く方法を解説します。

Product Page Optimization とは実際に何なのか

Product Page Optimization (PPO) を使うと、アプリのプロダクトページのトリートメント (検証用バリアント) を最大 3 つまで作成できます。Apple はあなたのオーガニックな App Store トラフィックをコントロールとトリートメントの間で分配し、どのバージョンの方がコンバージョンが高いかを計測します。

テストできる要素は 3 つです。アプリアイコン、スクリーンショット、そしてプレビュー動画です。トラフィックの分配と計測は Apple が処理します。あなたはバリアントを選び、トラフィックの目標割合を設定するだけです。

これは実際のオーガニックな検索・ブラウズトラフィックに対する本物の A/B テストです。シミュレーションではありません。パネル調査でもありません。あなたの実際のユーザーが対象です。

問題は、何を、いつテストするかです。

アイコンより先にスクリーンショットをテストする

多くの開発者は、まずアイコンからテストしようとします。視覚的なインパクトが大きく、影響力の大きい意思決定に感じられるからです。しかし、これはたいてい最初のテストとしては正しくありません。

理由はこうです。アイコンはユーザーがプロダクトページに到達する前の検索結果やブラウズ画面に表示されます。つまりアイコンが影響するのはクリックスルー率、すなわちそもそもユーザーがあなたのリスティングをタップするかどうかです。一方で PPO が計測するのは、タップした後の、プロダクトページ上でのコンバージョンです。

スクリーンショットは、ほとんどのユーザーがダウンロードを決める前にプロダクトページで見る要素です。強いブランドや大量のレビューを持たないほとんどのインディーアプリにとって、コンバージョンを最も大きく押し上げているのはスクリーンショットなのです。

まずはそこから始めましょう。

たとえば Pi Digits のようなアプリは、現在アメリカでのレーティングが 1 件しかなく、確立された脳トレアプリと競合しています。このようなアプリにとって、スクリーンショットは信頼を伝える主要な接点です。「memory trainer」のような検索でアプリを見つけたユーザーは、タップした直後からほぼ即座にスクリーンショットを評価します。スクリーンショットが 2 秒で価値を明確に伝えられなければ、そのセッションは終わってしまいます。

スクリーンショットの並び順と、1 枚目のスクリーンショットのキャプションをテストしましょう。ほとんどのインディーアプリにとって、コンバージョンを最も大きく動かせる変更はそこにあります。

アイコンテストは実際には何のためにあるのか

アイコンをテストするのは、次のような具体的な問いがあるときです。

ブランディングを刷新したばかりで、確定する前にデータが欲しいとき。
キーワードクラスタが変化したとき。たとえば「math games」から「memory challenge」へと変わり、アイコンがまだその意図に合っているか知りたいとき。
Marteso のキーワードデータで、ブラウズ画面からのクリックスルー率が競合より明らかに低く、すでにスクリーンショットが原因ではないと確認できているとき。

アイコンのテストは有意性に達するまでに時間がかかります。アイコンはクリックスルーに影響するため、きれいに結果を読むにはクリックスルーのデータとインストールのデータの両方が必要になるからです。トラフィック量が少ない場合、アイコンテストはアクションを起こせるだけの結果を出すのに何か月もかかることがあります。

準備ができるまでプレビュー動画は後回しにする

PPO におけるプレビュー動画は、最もコストの高いテストです。制作作業が必要で、プロダクトページ向けに最適化したバージョンの動画も必要で、しかも仕上がりが甘いと逆効果になりかねません。

ほとんどのインディー開発者にとって、プレビュー動画は最後にテストすべきものです。理にかなった順序は、スクリーンショット、次にアイコン、そしてプレビュー動画です。

選択肢があるからといって、義務だと感じる必要はありません。

ほとんどのテストは期間が短すぎる

App Store の PPO で最もよくある失敗は、1 週間でテストを止めてしまうことです。

インディーアプリにとって、1 週間で統計的有意性に達するだけのトラフィックが集まることはまずありません。Apple のガイダンスは有意性に達するまでテストを回すことを推奨していますが、待つことを強制はしません。ダッシュボードは 7 日目には説得力があるように見える勝者を示しておきながら、21 日目には逆転していることもあります。

実践的なルールはこうです。意思決定を下す前に、最低でも 3 週間はテストを回すこと。そして、季節的なアクセス急増の直前にテストを始めないこと。そのトラフィックは通常の行動を代表していないからです。

3 週間より前に Apple が有意だと示した場合でも、それは記録しておくだけにとどめ、すぐにアクションを起こさないでください。テストはそのまま回し続けましょう。早すぎる有意性は、サンプルを歪める一時的なトラフィックの急増によるノイズであることが多いのです。

統計学の学位がなくても結果を読む方法

Apple は各トリートメントについて、信頼度と改善率の推定値を表示します。注目すべきは 2 つです。

1 つ目は、信頼度が 90% を超えているかどうか。Apple はベイズモデルを使っています。信頼度が 90% を超えれば、その結果はそれなりに信頼できます。それを下回る場合、あなたが見ているのはノイズです。

2 つ目は、正しい指標で改善しているかどうか。PPO が計測するのはコンバージョン率、つまりプロダクトページの閲覧者のうちダウンロードした人の割合です。コンバージョンを 5% 改善するトリートメントには意味があります。一方で 0.4% しか改善しないトリートメントは、たとえ高い信頼度であってもおそらくノイズです。なぜなら、わずかな絶対値の変化はトラフィック構成の変動によっても起こりうるからです。

「memory games for adults」のような、すでにランキング獲得が難しいキーワードを持つアプリでは、プロダクトページのコンバージョンが 5% 改善するかどうかが、そのランキングを維持する価値があるかどうかに直結します。Apple はコンバージョン率をランキングのシグナルとして観察しています。あるキーワードでのコンバージョンが高いほど、そのランクは守りやすくなります。

この判断を下すのにベイズ統計を理解する必要はありません。必要なのは、その改善が意味を持つほど大きいかどうかを理解することです。

一度にひとつのテスト

PPO ツールでは複数の要素をテストできますが、ほとんどの場合、一度にひとつだけテストすべきです。

アイコンとスクリーンショットを同時に変えてしまうと、どちらの変更が結果を生んだのかが分かりません。テストに勝っても、何を残せばいいのか分かりません。負けても、何を直せばいいのか分かりません。

オーガニックトラフィックの限られたインディーアプリにとっては、結論の出ない 3 つの同時テストを回すよりも、きれいなテストをひとつ回す方が価値があります。

1 枚目のスクリーンショットをテストする。3 週間待つ。結果を読む。それを反映する。そして次のものをテストする。

テストを自分のキーワードの賭けに結びつける

すべての PPO テストは、いま自分がメタデータで最適化しているキーワードクラスタと結びついているべきです。

いまのメタデータの賭けが「pi memorization」なら、トリートメントのスクリーンショットはその意図を補強すべきで、別のポジショニングに振ってはいけません。もしメタデータを「number challenge」に変えて、同時に PPO テストを回したら、コンバージョンの変化が新しいポジショニングによるものなのか、新しいスクリーンショットによるものなのか分からなくなります。

これは 21 日間のメタデータレビューループと同じ原則です。一度に変える変数はひとつだけ。テストを読める状態に保ちましょう。

テスト構造がきれいであるほど、学習は速くなります。そしてデータチームを持たず、たった一人でこれらのテストを回すインディー開発者にとって、学習の速さこそが唯一の競争優位なのです。