先說結論:如果你改網站的依據是「我覺得這樣比較好看」,那你大概率在用自己的營收買教訓。我看過太多老闆把首頁主圖換掉、把按鈕從綠色改成橘色,隔週看後台轉換率高了零點幾個百分點,就拍板「果然有效」。問題是,那零點幾根本可能只是這週剛好天氣好、薪水日到了、或某個網紅順手提了一句。要分辨「真的有效」和「剛好運氣好」,唯一可靠的方法就是 A/B 測試。這篇我用白話把整套觀念講完,包括最容易嚇到人的「統計顯著」,以及電商實務上最值得測、最常測壞的地方。
為什麼「改了覺得變好」幾乎都是錯覺
電商的數字天生會跳。同一個頁面,今天轉換率 2.1%、明天 2.6%、後天 1.9%,這是正常的波動,不是你做了什麼。問題在於,人腦特別擅長在隨機裡找故事——只要數字往上,我們就會自動把它歸功給「我剛剛那個改動」,這在心理學上叫確認偏誤。
更麻煩的是,電商流量受太多外力影響:檔期、廣告投放金額、節氣、甚至競爭對手剛好缺貨。你改版的同一週,可能正好撞上其中一兩個。所以「改完數字變好」這件事,本身完全不能當作改動有效的證據。它頂多是個值得去驗證的假設。
我的實戰判斷很簡單:沒有對照組的改動,等於沒有證據。你必須讓「有改」和「沒改」的兩群人,在同一段時間、同樣的外部環境下被比較,差異才講得清楚。這就是 A/B 測試的全部精神。
A/B 測試到底在做什麼
A/B 測試說穿了就是分流實驗。把進站的訪客隨機分成兩組:A 組看原本的版本(對照組),B 組看你改過的版本(實驗組),其他條件完全一樣,最後比兩組的轉換率誰高。因為是同一段時間、隨機分流,檔期、天氣、廣告這些外力會「公平地」打在兩組身上,互相抵銷,剩下的差異才比較可能是你那個改動造成的。
幾個關鍵原則我一定會盯:
- 一次只測一個變因:這次測主圖,就只改主圖,其他全部不動。同時改三個地方,就算數字動了你也不知道是哪個的功勞。
- 隨機且同時:不是這週用 A、下週用 B(那叫前後比較,會被時間因素污染),而是同一時間隨機分流。
- 先定義成功指標:你要看的是加入購物車、結帳完成、還是客單價?開測前就講死,不要事後挑一個剛好變好的數字來慶祝。
- 事前算好要跑多久、收多少樣本:這點最常被跳過,後面會專門講。
如果你想要一份更完整的設定與分流步驟,我把流程整理在 A/B 測試工具與教學,可以照著一步步建第一個實驗。
白話講「統計顯著」:別被這四個字嚇到
很多人一聽到統計顯著就退縮,覺得那是工程師和分析師的事。其實它要回答的問題超直白:「這兩組的差異,有沒有可能只是運氣?」
想像你丟硬幣。丟 10 次出現 6 次正面,你會說這硬幣有問題嗎?不會,太正常了。但如果丟 1000 次出現 600 次正面,那就很可疑了。同樣的差距比例(六成),樣本越大,越不可能是巧合。統計顯著就是在幫你算這件事:在目前的樣本量下,A 和 B 的差距大到「不太可能是隨機造成」的程度了嗎?
實務上你會看到一個叫 p 值的數字,業界慣例是 p 小於 0.05 就稱為「達到統計顯著」。白話翻譯:假設兩個版本其實一樣好,那麼純靠運氣也能跑出眼前這種差距的機率,低於 5%。低於 5% 我們就願意相信差異是真的。另一個常見說法是「信心水準 95%」,意思一樣。
你不需要會手算,現在的測試工具都會直接告訴你達不達標。你只要記住一句話:沒到顯著,就還不能下結論,繼續跑或承認沒差,別自己腦補。想直接估算改動可能帶來多少轉換提升、要多少樣本才測得出來,可以用 轉換率提升試算工具 先抓個感覺。
樣本數與時間怎麼抓
這是 A/B 測試最務實、也最殘酷的一關。流量不夠的店,很多測試根本做不起來,這要先認清。
抓樣本的邏輯是這樣:你原本的轉換率越低、你期待的提升幅度越小,需要的樣本就越多。要從 2% 提升到 2.1%(相對只多 5%)這種小改動,可能要每組好幾萬次造訪才測得出來;但如果是從 2% 拉到 3% 這種大改動,需要的樣本就少很多。
| 情境 | 原始轉換率 | 想偵測的提升 | 每組大致需要的訪客量 |
|---|---|---|---|
| 小改(按鈕文案微調) | 2% | +10%(到 2.2%) | 數萬 |
| 中改(主圖/價格呈現) | 2% | +25%(到 2.5%) | 約數千到上萬 |
| 大改(整段結帳流程) | 2% | +50%(到 3%) | 約一兩千起 |
上表是給你建立直覺的級距,精確數字請丟進計算工具算。時間方面,我的硬規則是至少跑滿完整的兩個自然週,不管樣本多快到位。原因是消費行為有星期循環——平日和假日、發薪日前後的買氣差很多。只跑三天,等於只測到一種星期狀態,結論會偏。跑滿兩週,平日假日各兩輪,數字才穩。
電商最值得測的五個元素
流量有限就要測在刀口上。以我帶過的案子經驗,下面這幾個地方投報率最高,因為它們直接卡在「要不要買」的決策點上。
| 測試元素 | 可以怎麼假設 | 主要看的指標 |
|---|---|---|
| CTA 按鈕(文案/顏色/位置) | 把「加入購物車」改成「現在帶回家」會提升點擊 | 加購率、點擊率 |
| 商品主圖 | 情境使用圖比白底去背圖更能讓人下單 | 商品頁轉換率 |
| 價格呈現 | 顯示原價劃線+折後價,比只寫折後價更有感 | 加購率、轉換率 |
| 運費門檻 | 把免運門檻從 990 降到 790,會拉高完成結帳比例 | 結帳完成率、客單價 |
| 結帳流程 | 支援訪客結帳(免註冊)能降低棄單 | 棄單率、結帳完成率 |
我個人最推薦從 CTA 和運費門檻下手。CTA 改起來成本最低、流量最集中,很快能測出結果;運費門檻則往往一動就直接牽動客單價和完成率,影響面大。主圖和價格呈現效果也很實在,但要注意主圖牽涉品牌調性,別只看單次數字就全站換掉。結帳流程是最該測但工程成本最高的一塊,建議排在後面、一次到位。
沒有足夠流量怎麼辦
如果你的站每天造訪只有幾百,老實說大部分 A/B 測試你跑不動——跑三個月才到樣本,黃花菜都涼了。這種階段我的建議是:先別執著於 A/B,改用「明顯有問題就直接修」的策略,把那些公認的最佳實務(訪客結帳、清楚運費、手機版速度)直接套上,省下的力氣拿去衝流量。等流量上來,再回頭做精細測試。想先確認自己網站體質和基本問題,可以用 網站體檢工具 掃一遍。
最常見的四個做壞
會白測的原因,十之八九逃不出這幾個。我幾乎每接一個案子都會碰到。
- 太早收手:開測第三天看到 B 領先就停掉宣布勝利。這叫偷看(peeking),早期數字波動極大,常常隔幾天就反轉。一定要跑滿事先設定的樣本和時間。
- 同時改太多:一次把主圖、按鈕、文案全換新版去比舊版。就算贏了也不知道是誰的功勞,下次想複製也複製不出來。要拆開一個一個測。
- 流量根本不夠:每組才幾百個樣本就硬要下結論,那個「顯著」是假的。沒到樣本量,差異再大都只是雜訊。
- 沒設成功指標就開測:跑完才開始翻數據找哪個變好。這樣你永遠找得到一個漂亮數字,但那是事後諸葛,不是驗證。
還有一個進階陷阱:同時跑太多測試。測試之間會互相干擾,加上你看的指標越多,純靠運氣「中獎」一個顯著結果的機率就越高。流量不大的店,建議一次專心跑一個實驗就好。
我的收尾建議
A/B 測試不是要把你變成統計學家,而是幫你把「我覺得」換成「數據說」。它最大的價值,其實是逼你在改動前就把假設講清楚、把成功定義講死——光是這個紀律,就能擋掉一大半拍腦袋的決策。
從一個小而集中的測試開始,跑滿兩週、收足樣本、看達不達顯著,誠實面對結果。測出沒差也是收穫,至少你不會再浪費資源在沒用的改動上。把這套做成習慣,你的網站就會在一次次驗證裡,慢慢長成真正能賺錢的樣子。更多電商實戰拆解,歡迎逛逛 ECPRO 電商博士部落格。