查網站電商媒體電商數據榜單中心數據速報 工具箱小教室電商健檢比較清單對手對戰API關於
轉換與優化

別憑感覺改網站:A/B測試實戰

別憑感覺改網站:A/B測試實戰|ECPRO 電商博士
字級
ChatGPT 摘要 Claude 摘要 Perplexity 摘要
林克威導讀

改了覺得變好,多半只是錯覺,這種事我看太多。我把 A/B 測試跟統計顯著用最白的話講清楚:該測什麼、樣本怎麼抓、哪些注定白測。適合愛憑感覺改網站的人。

本文重點
  • 為什麼「改了覺得變好」幾乎都是錯覺
  • A/B 測試到底在做什麼
  • 白話講「統計顯著」:別被這四個字嚇到
  • 樣本數與時間怎麼抓
  • 電商最值得測的五個元素
  • 最常見的四個做壞

先說結論:如果你改網站的依據是「我覺得這樣比較好看」,那你大概率在用自己的營收買教訓。我看過太多老闆把首頁主圖換掉、把按鈕從綠色改成橘色,隔週看後台轉換率高了零點幾個百分點,就拍板「果然有效」。問題是,那零點幾根本可能只是這週剛好天氣好、薪水日到了、或某個網紅順手提了一句。要分辨「真的有效」和「剛好運氣好」,唯一可靠的方法就是 A/B 測試。這篇我用白話把整套觀念講完,包括最容易嚇到人的「統計顯著」,以及電商實務上最值得測、最常測壞的地方。

為什麼「改了覺得變好」幾乎都是錯覺

電商的數字天生會跳。同一個頁面,今天轉換率 2.1%、明天 2.6%、後天 1.9%,這是正常的波動,不是你做了什麼。問題在於,人腦特別擅長在隨機裡找故事——只要數字往上,我們就會自動把它歸功給「我剛剛那個改動」,這在心理學上叫確認偏誤。

更麻煩的是,電商流量受太多外力影響:檔期、廣告投放金額、節氣、甚至競爭對手剛好缺貨。你改版的同一週,可能正好撞上其中一兩個。所以「改完數字變好」這件事,本身完全不能當作改動有效的證據。它頂多是個值得去驗證的假設。

我的實戰判斷很簡單:沒有對照組的改動,等於沒有證據。你必須讓「有改」和「沒改」的兩群人,在同一段時間、同樣的外部環境下被比較,差異才講得清楚。這就是 A/B 測試的全部精神。

A/B 測試到底在做什麼

A/B 測試說穿了就是分流實驗。把進站的訪客隨機分成兩組:A 組看原本的版本(對照組),B 組看你改過的版本(實驗組),其他條件完全一樣,最後比兩組的轉換率誰高。因為是同一段時間、隨機分流,檔期、天氣、廣告這些外力會「公平地」打在兩組身上,互相抵銷,剩下的差異才比較可能是你那個改動造成的。

幾個關鍵原則我一定會盯:

  • 一次只測一個變因:這次測主圖,就只改主圖,其他全部不動。同時改三個地方,就算數字動了你也不知道是哪個的功勞。
  • 隨機且同時:不是這週用 A、下週用 B(那叫前後比較,會被時間因素污染),而是同一時間隨機分流。
  • 先定義成功指標:你要看的是加入購物車、結帳完成、還是客單價?開測前就講死,不要事後挑一個剛好變好的數字來慶祝。
  • 事前算好要跑多久、收多少樣本:這點最常被跳過,後面會專門講。

如果你想要一份更完整的設定與分流步驟,我把流程整理在 A/B 測試工具與教學,可以照著一步步建第一個實驗。

白話講「統計顯著」:別被這四個字嚇到

很多人一聽到統計顯著就退縮,覺得那是工程師和分析師的事。其實它要回答的問題超直白:「這兩組的差異,有沒有可能只是運氣?」

想像你丟硬幣。丟 10 次出現 6 次正面,你會說這硬幣有問題嗎?不會,太正常了。但如果丟 1000 次出現 600 次正面,那就很可疑了。同樣的差距比例(六成),樣本越大,越不可能是巧合。統計顯著就是在幫你算這件事:在目前的樣本量下,A 和 B 的差距大到「不太可能是隨機造成」的程度了嗎?

實務上你會看到一個叫 p 值的數字,業界慣例是 p 小於 0.05 就稱為「達到統計顯著」。白話翻譯:假設兩個版本其實一樣好,那麼純靠運氣也能跑出眼前這種差距的機率,低於 5%。低於 5% 我們就願意相信差異是真的。另一個常見說法是「信心水準 95%」,意思一樣。

你不需要會手算,現在的測試工具都會直接告訴你達不達標。你只要記住一句話:沒到顯著,就還不能下結論,繼續跑或承認沒差,別自己腦補。想直接估算改動可能帶來多少轉換提升、要多少樣本才測得出來,可以用 轉換率提升試算工具 先抓個感覺。

樣本數與時間怎麼抓

這是 A/B 測試最務實、也最殘酷的一關。流量不夠的店,很多測試根本做不起來,這要先認清。

抓樣本的邏輯是這樣:你原本的轉換率越低、你期待的提升幅度越小,需要的樣本就越多。要從 2% 提升到 2.1%(相對只多 5%)這種小改動,可能要每組好幾萬次造訪才測得出來;但如果是從 2% 拉到 3% 這種大改動,需要的樣本就少很多。

情境原始轉換率想偵測的提升每組大致需要的訪客量
小改(按鈕文案微調)2%+10%(到 2.2%)數萬
中改(主圖/價格呈現)2%+25%(到 2.5%)約數千到上萬
大改(整段結帳流程)2%+50%(到 3%)約一兩千起

上表是給你建立直覺的級距,精確數字請丟進計算工具算。時間方面,我的硬規則是至少跑滿完整的兩個自然週,不管樣本多快到位。原因是消費行為有星期循環——平日和假日、發薪日前後的買氣差很多。只跑三天,等於只測到一種星期狀態,結論會偏。跑滿兩週,平日假日各兩輪,數字才穩。

電商最值得測的五個元素

流量有限就要測在刀口上。以我帶過的案子經驗,下面這幾個地方投報率最高,因為它們直接卡在「要不要買」的決策點上。

測試元素可以怎麼假設主要看的指標
CTA 按鈕(文案/顏色/位置)把「加入購物車」改成「現在帶回家」會提升點擊加購率、點擊率
商品主圖情境使用圖比白底去背圖更能讓人下單商品頁轉換率
價格呈現顯示原價劃線+折後價,比只寫折後價更有感加購率、轉換率
運費門檻把免運門檻從 990 降到 790,會拉高完成結帳比例結帳完成率、客單價
結帳流程支援訪客結帳(免註冊)能降低棄單棄單率、結帳完成率

我個人最推薦從 CTA 和運費門檻下手。CTA 改起來成本最低、流量最集中,很快能測出結果;運費門檻則往往一動就直接牽動客單價和完成率,影響面大。主圖和價格呈現效果也很實在,但要注意主圖牽涉品牌調性,別只看單次數字就全站換掉。結帳流程是最該測但工程成本最高的一塊,建議排在後面、一次到位。

沒有足夠流量怎麼辦

如果你的站每天造訪只有幾百,老實說大部分 A/B 測試你跑不動——跑三個月才到樣本,黃花菜都涼了。這種階段我的建議是:先別執著於 A/B,改用「明顯有問題就直接修」的策略,把那些公認的最佳實務(訪客結帳、清楚運費、手機版速度)直接套上,省下的力氣拿去衝流量。等流量上來,再回頭做精細測試。想先確認自己網站體質和基本問題,可以用 網站體檢工具 掃一遍。

最常見的四個做壞

會白測的原因,十之八九逃不出這幾個。我幾乎每接一個案子都會碰到。

  • 太早收手:開測第三天看到 B 領先就停掉宣布勝利。這叫偷看(peeking),早期數字波動極大,常常隔幾天就反轉。一定要跑滿事先設定的樣本和時間。
  • 同時改太多:一次把主圖、按鈕、文案全換新版去比舊版。就算贏了也不知道是誰的功勞,下次想複製也複製不出來。要拆開一個一個測。
  • 流量根本不夠:每組才幾百個樣本就硬要下結論,那個「顯著」是假的。沒到樣本量,差異再大都只是雜訊。
  • 沒設成功指標就開測:跑完才開始翻數據找哪個變好。這樣你永遠找得到一個漂亮數字,但那是事後諸葛,不是驗證。

還有一個進階陷阱:同時跑太多測試。測試之間會互相干擾,加上你看的指標越多,純靠運氣「中獎」一個顯著結果的機率就越高。流量不大的店,建議一次專心跑一個實驗就好。

我的收尾建議

A/B 測試不是要把你變成統計學家,而是幫你把「我覺得」換成「數據說」。它最大的價值,其實是逼你在改動前就把假設講清楚、把成功定義講死——光是這個紀律,就能擋掉一大半拍腦袋的決策。

從一個小而集中的測試開始,跑滿兩週、收足樣本、看達不達顯著,誠實面對結果。測出沒差也是收穫,至少你不會再浪費資源在沒用的改動上。把這套做成習慣,你的網站就會在一次次驗證裡,慢慢長成真正能賺錢的樣子。更多電商實戰拆解,歡迎逛逛 ECPRO 電商博士部落格

電商博士小教室

本文相關的 KPI 公式

轉換率CVR
轉換率 = 下單人數 ÷ 總訪客數 × 100%

每 100 個進站的人,最後有幾個真的下單。衡量網站「把流量變訂單」的能力。

平均客單價AOV
客單價 = 總營收 ÷ 總訂單數

平均每一筆訂單貢獻多少營收。提高客單價是不靠加流量就增加營收的捷徑。

購物車放棄率Cart Abandonment
放棄率 = 1 −(完成結帳人數 ÷ 加入購物車人數)

把東西加進購物車卻沒結帳的比例。是漏斗末端最關鍵、最該救的破口。

廣告投資報酬率ROAS
ROAS = 廣告帶來的營收 ÷ 廣告花費

每投 1 元廣告換回多少營收。判斷廣告划不划算的第一指標。

看完整電商 KPI 公式庫 →
ECPRO 數據觀察

用真實數據延伸這個主題

ECPRO 電商博士實測逾 10 萬個台灣電商網站。想用數據驗證本文觀點,延伸閱讀這幾份實測報告:

覺得有用?分享出去
LINE Facebook X Threads

常見問題

A/B 測試一定要懂統計才能做嗎?

不用。現在的 A/B 測試工具都會自動幫你算統計顯著、p 值和信心水準,直接告訴你「分出勝負了沒」。你需要懂的只是觀念:一次只測一個變因、同時隨機分流、跑滿足夠的時間和樣本、沒到顯著就別下結論。把這幾條紀律守住,比會手算公式重要得多。

什麼是統計顯著?p 值 0.05 是什麼意思?

統計顯著就是在回答「這兩個版本的差異,有沒有可能只是運氣」。p 值小於 0.05(也就是信心水準 95%)是業界慣例的門檻,白話說是:假設兩個版本其實一樣好,純靠運氣也跑出眼前這種差距的機率低於 5%,低到我們願意相信差異是真的。沒到 0.05 就代表還不能下結論,要繼續跑或承認沒差。

A/B 測試至少要跑多久?

我的硬規則是至少跑滿兩個完整自然週,不管樣本多快到位。因為消費行為有明顯的星期循環,平日、假日、發薪日前後買氣差很多。只跑三五天容易只測到單一星期狀態,結論會偏。跑滿兩週讓平日假日各輪兩次,再加上達到事先算好的樣本量,數字才站得住腳。

我的網站流量很小,還能做 A/B 測試嗎?

如果每天造訪只有幾百,多數 A/B 測試你跑不動,因為要等好幾個月才湊到樣本。這階段建議先別執著 A/B,直接把公認的最佳實務(訪客結帳、清楚的運費資訊、手機版速度)套上去,力氣花在衝流量。等流量上來,再回頭做精細的對照測試會更有效率。

電商最該優先測哪個元素?

以投報率來說,我最推薦從 CTA 按鈕和運費門檻下手。CTA 改動成本最低、流量集中,很快能測出結果;運費門檻一動往往直接牽動客單價和結帳完成率,影響面大。主圖和價格呈現效果也實在,但牽涉品牌調性要謹慎;結帳流程最該測但工程成本高,建議排後面一次到位。

訂閱電商情報每週一封,台灣電商數據與經營洞察。
相關文章