幾乎每個電商經營者都遇過這種場景:覺得首頁不夠好看,把主視覺換掉、按鈕改個顏色、文案重寫一輪,上線後盯著營收看,漲了就說「果然有效」,跌了就怪「最近大環境差」。問題是,你永遠不知道究竟是改版帶來的,還是當天剛好有人下大單、或某個廣告檔期結束。把生意建立在這種無法驗證的直覺上,等於每次改版都在擲骰子。A/B 測試(A/B Testing)就是用來終結這種猜測的工具,它讓你用真實流量做一場有對照組的科學實驗,讓數據替你做決定。
A/B 測試到底是什麼
A/B 測試的核心概念非常單純:同一個頁面準備兩個版本,A 版(原本的,稱為對照組)和 B 版(改過的,稱為實驗組),把進站的流量隨機平分給兩邊,其他條件完全一樣,最後比較哪一版的目標指標(通常是轉換率)比較高。因為流量是隨機分配、且兩版同時跑,季節、廣告、星期幾這些干擾因素會平均落在兩組身上,互相抵銷,剩下的差異就能合理歸因於「你改的那個東西」。
這跟「先跑舊版一週、再跑新版一週」的前後比較有本質差異。前後比較沒有同時存在的對照組,兩週之間只要有任何外部變化(例如其中一週碰到發薪日、或對手剛好缺貨),結論就被汙染了。A/B 測試的價值,正是來自「同時、隨機、單一變數」這三件事。
為什麼不能憑感覺改網站
人對「什麼會賣」的直覺,準度其實低得驚人。根據業界普遍經驗(此處為產業常見估算,非精確統計),認真設計過的 A/B 測試裡,真正能顯著提升轉換的版本大約只佔三到四成,其餘多數是沒差或變更差。也就是說,如果你完全靠感覺改版又不做測試,等於有超過一半的機率在傷害自己的網站而不自知。
更危險的是「資深者的詛咒」。看店越久,越容易把個人偏好當成顧客需求。你覺得醜的版面,可能因為資訊清楚反而轉換更高;你引以為傲的華麗動畫,可能拖慢載入、讓人跳出。顧客不是你,唯一能仲裁的只有他們的真實行為。A/B 測試的意義,就是把「我覺得」換成「數據顯示」。
一場有效測試的完整流程
很多人以為 A/B 測試就是「丟兩個版本上去看誰贏」,其實真正決定成敗的是前後的紀律。一個完整的流程包含五步。
第一步:先有假設
不要為了測而測。每個測試都該寫成一句清楚的假設:「因為我觀察到 X(現象),所以我認為改成 Y(變更)會帶來 Z(結果),衡量指標是 W。」例如:「因為結帳頁跳出率高達六成,我認為把運費資訊提前到購物車顯示,會降低結帳棄單率,衡量指標是結帳完成率。」有假設,輸了也能學到東西;沒假設,贏了也不知道為什麼。
第二步:界定單一變數
一次只改一個東西。如果你同時換了標題、按鈕顏色和產品圖,就算 B 版贏了,你也分不清是哪個元素的功勞,無法累積可複用的知識。想同時測多個元素,要用多變量測試(MVT)並準備更大的流量,不是把它們混在一個 A/B 裡。
第三步:設定分流與目標
用工具把流量隨機 50/50(或其他比例)分配,並明確定義「轉換」是什麼——是加入購物車、完成結帳,還是註冊?同一個訪客在整個測試期間要固定看到同一版(靠 cookie 或裝置 ID 鎖定),否則他一下看到 A、一下看到 B,資料就亂了。
第四步:跑滿,不要提早收
這是最多人犯錯的地方,下一段會專門講。簡單說:在達到預先算好的樣本數之前,不准看一眼就喊停。
第五步:判讀與決策
跑完後看的不只是「誰的數字高」,而是這個差異「在統計上可不可信」。達到顯著且效果夠大才採用;沒顯著就視為無差異,保留原版、記錄學習,進入下一輪。
樣本數與統計顯著性:為什麼不能太早收
假設你的 A 版轉換率 3%、B 版 3.6%,看起來 B 大勝。但如果每邊才跑了 100 個訪客,這個差距很可能只是隨機波動——就像丟十次硬幣出現六次正面,不代表硬幣有問題。要區分「真的有差」和「剛好這次運氣」,靠的是兩個概念:
- 統計顯著性(p 值):業界慣例是 p < 0.05,意思是「如果兩版其實沒差,觀察到這麼大差距純屬巧合的機率低於 5%」。達標才敢說差異是真的。
- 樣本數:基準轉換率越低、你想偵測的提升幅度越小,需要的樣本就越大。粗略的範例估算:基準轉換 3%、想可靠偵測到相對提升 10%(即升到 3.3%),每組大約需要上萬名訪客等級的樣本,總量可能要好幾萬。
最致命的錯誤叫「偷看到顯著就收(peeking)」。如果你每天盯著後台,一看到「達到顯著」就立刻喊停,會大幅膨脹假陽性——因為隨機波動在過程中本來就會短暫穿越顯著線。正確做法是:開跑前就用樣本數計算器算好需要多少流量、預估要跑幾週(建議至少涵蓋完整的一到兩個星期,把週末與平日都納入),跑滿才看結論。中途的數字只能參考、不能當決策依據。
電商可以測什麼
原則是「離錢越近、流量越大的頁面,越值得優先測」。下表整理常見的可測元素與預期影響方向,幫你排優先順序。
| 可測元素 | 具體做法範例 | 主要影響指標 | 預期影響量級(估算) |
|---|---|---|---|
| 商品標題/文案 | 強調痛點 vs 強調規格 | 商品頁點擊、加購率 | 小到中 |
| CTA 按鈕 | 「立即購買」vs「加入購物車」、顏色與位置 | 加購率 | 小到中 |
| 主圖/情境圖 | 白底去背 vs 使用情境照 | 停留時間、加購率 | 中 |
| 價格呈現 | 是否顯示原價刪除線、分期金額、單位換算 | 加購率、轉換率 | 中 |
| 結帳流程 | 單頁結帳 vs 多步驟、減少必填欄位 | 結帳完成率 | 中到大 |
| 運費門檻 | 免運門檻金額、是否提早顯示運費 | 客單價、棄單率 | 中到大 |
| 信任元素 | 評價、退貨保證、金流標章的有無與位置 | 整體轉換率 | 小到中 |
經驗上,結帳流程與運費策略往往是投報率最高的戰場,因為這裡的訪客都是高意願客戶,一點摩擦就直接流失成績。相對地,把按鈕從藍色換成綠色這種「微調」雖然好做,能撈到的提升通常很有限,別把全部精力花在那。
最常見的四個錯誤
- 同時改太多:一次動三五個元素,贏了不知道功臣是誰,知識無法累積。守住「一次一變數」。
- 流量不足就下結論:每組幾百人就喊「B 贏了」,多半是雜訊。沒跑到預定樣本,結論不算數。
- 提早偷看就收:看到一時顯著就停,假陽性暴增。事前定好停損點,跑滿再看。
- 忽略區隔(segment):整體看 B 沒贏,但拆開後可能「B 對新客大勝、對舊客略輸」被平均掉了;或新版在手機上贏、桌機上輸。只看總平均,會錯過真相,也可能把對部分客群更好的版本誤殺。判讀時至少要拆「新客/舊客」與「手機/桌機」。
沒有大流量,怎麼做測試
中小型電商最常見的痛點就是流量不夠,跑一個測試要好幾個月才達顯著,根本緩不濟急。這不代表你不能優化,而是要換策略:
- 選大影響的測試:流量有限就別測按鈕顏色這種微小效果,挑「可能帶來中到大幅提升」的變更(結帳流程、運費門檻、整頁改版),效果越大、需要的樣本越少。
- 把指標往漏斗上游移:完成購買的人少,但「加入購物車」的人多很多。用較上游、樣本較多的指標當主要衡量,能更快達到顯著(但要小心上游贏不代表最終營收贏,需追蹤到底)。
- 拉長測試週期:流量小就用時間換樣本,老老實實跑四到六週,別因為等不及而提早下結論。
- 善用質化線索補強:流量真的太小時,搭配熱圖、錄影回放、問卷、可用性測試,雖然不是統計實驗,但能在資料不足時提供方向,降低改錯的風險。
- 工具選擇:起步可用 Google 生態的免費或低成本方案、或店商平台內建的版本測試功能;流量成長後再評估 VWO、Optimizely 等專業工具。重點不是工具多高級,而是流程紀律。
把贏的版本制度化
測完不是結束。一個贏的測試如果只是手動把 B 版設成預設、然後忘記,下次改版很可能不小心改回去,等於白做。要讓優化能累積,得做三件事:第一,建立「測試紀錄表」,把每次的假設、變更、樣本數、結果、結論都寫下來,形成團隊的知識庫,避免重複測同樣的東西。第二,把勝出的設計回寫進正式的設計規範或元件庫,讓它成為新頁面的預設起點,而不是個案。第三,安排「再驗證」,因為顧客行為會隨時間變化,半年前贏的版本不保證永遠贏,重要頁面值得定期回測。當這套「假設→測試→制度化→再驗證」變成團隊的固定節奏,你的網站就會像複利一樣,每一輪都站在上一輪的肩膀上往上長,而不是原地打轉、靠運氣過活。
常見問題
A/B 測試一定要寫程式嗎?
不一定。多數主流電商平台與測試工具都提供視覺化編輯器,可以不寫程式就改文案、按鈕、版位並設定分流。不過若要測較複雜的功能(例如整段結帳流程或演算法推薦),仍會需要工程師協助實作。
一個測試要跑多久才夠?
沒有固定天數,取決於你預先算出的樣本數需求與每日流量。原則是兩個:一是達到事先計算的樣本量,二是至少完整涵蓋一到兩個星期,讓平日與週末的行為差異都被納入。流量小的站可能要四到六週,急不得。
結果沒有達到顯著,是不是白測了?
不是。沒顯著代表「在目前證據下,兩版沒有可信的差異」,這本身就是有用的資訊——它阻止你把資源投入一個沒效果的改版,並引導你去測影響更大的元素。把它記錄下來,就是一筆寶貴的學習。
可以同時跑很多個 A/B 測試嗎?
可以,但要注意兩件事。一是不同測試最好分布在不互相干擾的頁面或流程上;若兩個測試作用在同一條轉換路徑、彼此可能交互影響,要不就合併成多變量測試,要不就排隊依序跑。二是同時跑越多,整體出現假陽性的機率越高,判讀時要更謹慎。
小流量電商真的有必要做 A/B 測試嗎?
有必要,但要務實。流量極小時,與其硬跑統計顯著的微調,不如先用熱圖、回放、問卷找出明顯的大問題,做幅度較大的改版,再針對關鍵頁面做長週期測試。重點是養成「先假設、再驗證」的習慣,而不是一開始就追求完美的統計嚴謹度。