認識 Google Analytics的『取樣數據』- 初學者篇

"取樣數據"是為了能更快速地完成資料分析的工作,常用於資料過於龐大時,為了降低分析成本以及效率,我們可能會取其中一部份的樣本來進行分析,基本上只要取的樣本足夠代表整個資料群體,分析出來的結果就能夠有一定的參考價值。在台灣你常常能看到新聞說,此問卷樣本為xxx萬人、或是某市長的民調顯示xxx,這些都是取樣數據。

 

舉例來說,如果你想知道台灣人口的2300萬人的行為資料,但2300萬人的資料過於龐大、處理起來會花費更高的成本與時間,因此你取了20%的460萬人口來做分析、理解他們的行為,並用這20%的人口樣本做為參考來理解整個2300萬人,在概念上,20%的取樣必須包含所有可能影響到資料的族群特徵,比方說這20%的取樣裡面必須包含所有的年齡層、性別、生活型態,這就是所謂的取樣數據。

 

題外話:前幾個月因Harris在撰寫Google Analytics的書籍(預計2017年底前出版),所以文章有一段時間沒有更新,從九月初開始我將回來部落格繼續撰寫每週一篇的文章~,大家敬請期待。

 

Google Analytics的取樣數據可能對你的分析工作造成傷害

Google Analytics裡面一樣會有取樣數據的狀況,雖然取樣數據能夠讓整個分析過程加速進行、並具備高效率的特徵,但取樣數據的問題在於,你所得到的資料並不會是絕對精準,有極大的可能你所看到的取樣資料,與沒有被取樣到的資料具備著完全不同的特徵與結果。

 

如下圖,從Google Analytics報表的右上方我們可以看到該報表是否有被取樣(幾乎所有的報表右上方都會有這個欄位),上面會顯示“這份報表是以xx%的工作階段來計算,只要這裡顯示的不是以100%的工作階段來計算,就代表你當下正在看的報表,是有取樣數據的問題。

 

 

在網站分析上取樣數據並不是一件有正面影響的事情,因為這代表你看到的資料並不精準,尤其當你要計算網站收益、廣告成效這些重要指標時,取樣數據更可能錯誤的影響你的決策。

 

Google Analytics的取樣數據如何運作

Google Analytics在收集資料時,會先將資料整理、運算好,並預先儲存到資料庫裡面,當你在使用預設報表時(像是目標對象、客戶開發裡的預設標準報表),Google Analytics因為已經把這些資料提前運算並整理好,所以你可以在很短的時間內看到數據報表(Google Analytics的數據這麼龐大,但還能一點報表就立刻跑出數據,就是這個原因)。

 

但如果你今天使用了次要維度、或進階區隔來篩選出客製化的資料,因為Google Analytics並沒有預先把你要的資料運算好,為了加速報表呈現給你的速度,它就會取樣部分的資料來運算你的需求給你,這當然也是為了更快地呈現出報表。

 

甚麼樣的狀況Google Analytics可能會使用取樣數據?

當資料太龐大、或你提出客製化的資料需求時(比方說進階區隔或是次要維度),Google Analytics會先檢視這些資料條件是否需要取樣,如果Google Analytics判定需要,它會為了加快給你數據報表的時間,採用取樣數據,這些特定狀況如下:

 

  • 在指定日期範圍中,資源層級的工作階段量超過 500,000個。
  • 你在預設的報表內使用了客製化的進階區隔、或次要維度。
  • 在自訂報表內的篩選器使用了客製化的篩選條件。
  • 在多管道程序報表中,你所選取的指定日期範圍中,超過一百萬個轉換。
  • 在行為流程報表中,你所選取的指定日期範圍中,超過十萬個工作階段。

 

如何解決Google Analytics的取樣數據問題?

 

取樣數據並不能完整地被解決,這是Google Analytics的缺陷之一,但你可以用以下的方式來稍微改善取樣數據的問題:

 

1.調整取樣數據的設定

 

在報表的右上方,如果你看到數據並不是來自於100%,你可以選擇“精準度更高"來降低取樣的狀況,假設你原先設定為“回應速度更快",並且取樣為1%的工作階段,在你更改為精準度更高之後,Google Analytics會根據你的需求,花上更多時間運算,並把取樣的比例調高到4%。基本上取樣的比例越高,數據會越精準,若沒有趕時間的話,我建議你都選取“精準度更高"來給Google Analytics多一點時間運算、並觀察取樣比例較高的數據資料。

 

2. 縮短觀察的時間比例

 

有時候取樣數據會發生在你所選取的時間範圍太長,假設你一次選取了一整年的數據資料來觀察,因資料過於龐大,Google Analytics為了加快運算,會用取樣數據,我建議你不妨把觀察的時間範圍縮短,來減少資料量、並取得更精準的數據。

 

3. 盡量使用預設報表

 

如果你的需求都能被預設報表滿足的話,你可以盡量只使用預設報表來減少數據取樣的發生狀況。

 

無論如何,在使用Google Analytics時,你一定要注意取樣的問題,尤其如果部門在計算KPI、ROI、各個流量管道成效時,取樣更有可能傷害到你的指標計算,如果你的網站流量很大,更會提高數據取樣的機率,因此你一定要注意。

你可能也想看

你可能也想看