干貨!詳解頁面標(biāo)記收集和服務(wù)器日志收集的優(yōu)劣

2021年05月28日 18:05 來源: 作者:fungawai

當(dāng)前網(wǎng)站分析/統(tǒng)計工具中對訪客行為的追蹤,最常用的方式是Web服務(wù)器日志和JavaScript頁面標(biāo)記兩種,現(xiàn)在主流的是采用頁面標(biāo)記技術(shù),如51la、Google Analytics、Adobe Analytics等都是采用這一模式。

頁面標(biāo)記方式之所以被第三方網(wǎng)站統(tǒng)計分析工具廣泛應(yīng)用,主要原因是:在技術(shù)上,頁面分析技術(shù)更容易實現(xiàn);另一方面是,近幾年的云計算大力發(fā)展,存儲成本極大降低,計算能力提高,采集到的數(shù)據(jù)都是在第三方服務(wù)器存儲和計算,因此,數(shù)據(jù)的維護成本也極大降低。

服務(wù)器日志技術(shù)和頁面標(biāo)簽記技術(shù)這兩種方法各有優(yōu)缺點,在數(shù)據(jù)準(zhǔn)確度上都不可能保證完全精確,幸好對于網(wǎng)站統(tǒng)計分析而言,并沒有那么高的精度要求,我們只是需要準(zhǔn)確的數(shù)據(jù),然后查看趨勢,通過數(shù)據(jù)趨勢判斷問題,定位原因就足夠了。

頁面標(biāo)記技術(shù)基本原理:在訪客請求的頁面中,包含一段或幾段用來記錄客戶端(瀏覽器)行為的JavaScript代碼,在頁面被載入時執(zhí)行該JS代碼或者在事件被觸發(fā)時執(zhí)行某JS代碼,并將收集到的客戶端行為數(shù)據(jù)發(fā)送給指定的服務(wù)器,可能是通過請求某資源的形式,也可能是直接寫入數(shù)據(jù)庫。JavaScript頁面標(biāo)記代碼可由網(wǎng)站所有者自定義提供,也可使用第三方工具提供的代碼。頁面標(biāo)記代碼一般需要覆蓋到所有用戶能訪問到的頁面,通??梢酝ㄟ^將此代碼包含在公共引用模塊中。由第三方提供的代碼,通常會將數(shù)據(jù)發(fā)送到第三方制定的地址,并由第三方工具提供日志分析和數(shù)據(jù)統(tǒng)計報表,如51la V6網(wǎng)站統(tǒng)計。原則上,JavaScript頁面標(biāo)記代碼可以追蹤到任何通過JS記錄到的行為和觸發(fā)的事件。

頁面標(biāo)記技術(shù)優(yōu)點:

  • 不受代理和緩存服務(wù)器影響,提供更精準(zhǔn)的會話跟蹤
  • 可以記錄客戶端的所有JS能記錄的行為,最基本的記錄包括頁面瀏覽、flash事件、Ajax交互、鼠標(biāo)點擊、滾動條滾動、表單填寫等
  • 實時收集和處理客戶端數(shù)據(jù)
  • 數(shù)據(jù)存放在云端,操作上,可以獨立于IT團隊,不用后臺開發(fā)人員維護,甚至不用前端開發(fā),可以交給第三方工具(首次代碼鋪設(shè)需由網(wǎng)站擁有者添加)維護和統(tǒng)計

頁面標(biāo)記技術(shù)劣勢

  • 錯誤設(shè)置容易導(dǎo)致數(shù)據(jù)丟失,且不能重新處理數(shù)據(jù)
  • 會受防火墻阻隔
  • 如果瀏覽器不啟用JavaScript,則頁面標(biāo)記無用,記錄不到這些訪客行為,大約少于2%;
  • 不能追蹤帶寬或下載完成,文件的下載狀態(tài)無法直接記錄
  • 搜索機器人不執(zhí)行JS,故不能追蹤記錄搜索引擎機器人(爬蟲)的行為

服務(wù)器日志技術(shù)基本原理:用戶對網(wǎng)頁的提出的一次請求,就稱為一次命中。通過Web服務(wù)器日志軟件,將請求信息記錄在日志文件中,通過日志分析程序即可獲得點擊流(訪問流)數(shù)據(jù)。根據(jù)這些請求信息,分析軟件可以得到訪客在什么時間請求了什么頁面,是否出錯,從什么地方來的,訪客的客戶端信息和地理位置,還可以通過設(shè)置的cookie獲得訪客的更多信息。通過臨時cookie即session表示一次訪問,通過永久cookie標(biāo)識唯一訪客,或者用IP、IP + User-Agent標(biāo)識唯一訪客。

服務(wù)器日志技術(shù)優(yōu)點:

  • 只要服務(wù)器不出問題日志不會丟失,數(shù)據(jù)更安全可靠,并且可方便處理歷史數(shù)據(jù)
  • 能夠記錄機器人/自動程序?qū)W(wǎng)站的訪問
  • 所有資源文件(HTML元素)的請求均可記錄,包括追蹤帶寬或下載完成
  • 不會受防火墻阻隔
  • 不受訪問終端設(shè)備影響,可以追蹤移動用戶

服務(wù)器日志技術(shù)劣勢:

  • 不能追蹤事件,只能記錄客戶端對Web服務(wù)器的請求日志,非向服務(wù)器的請求無法記錄。訪客在客戶端的鼠標(biāo)點擊行為、對象交互事件,如Ajax交互行為、Flash事件、按鍵鍵入等,無法通過Web服務(wù)器日志獲知
  • 受代理和緩存的影響,頁面緩存不會發(fā)生服務(wù)器請求,也就不會被無服務(wù)器日志記錄,而訪客二次訪問網(wǎng)站通常會有本地緩存,因此數(shù)據(jù)真實性會有偏差
  • 較弱的實時性,網(wǎng)站服務(wù)器日志是記錄服務(wù)器運行的實時數(shù)據(jù)的,但是這些數(shù)據(jù)想要被取出分析,實時性就沒有那么好了
  • 數(shù)據(jù)需本地存放,占據(jù)空間大、不夠便捷

如果您對網(wǎng)頁統(tǒng)計分析的重心在于網(wǎng)站真實訪問者行為的追蹤和分析上,那么,通過日志方法來實現(xiàn)相對而言難度相對比較大,操作也比較繁瑣,這時候應(yīng)該用頁面標(biāo)記法來實現(xiàn)對網(wǎng)站訪問數(shù)據(jù)的收集。

點擊立刻免費注冊使用

本文經(jīng)授權(quán)發(fā)布,不代表51LA立場,如若轉(zhuǎn)載請聯(lián)系原作者。

干貨!詳解頁面標(biāo)記收集和服務(wù)器日志收集的優(yōu)劣

來源: 作者:fungawai
2021年05月28日 18:05

當(dāng)前網(wǎng)站分析/統(tǒng)計工具中對訪客行為的追蹤,最常用的方式是Web服務(wù)器日志和JavaScript頁面標(biāo)記兩種,現(xiàn)在主流的是采用頁面標(biāo)記技術(shù),如51la、Google Analytics、Adobe Analytics等都是采用這一模式。

頁面標(biāo)記方式之所以被第三方網(wǎng)站統(tǒng)計分析工具廣泛應(yīng)用,主要原因是:在技術(shù)上,頁面分析技術(shù)更容易實現(xiàn);另一方面是,近幾年的云計算大力發(fā)展,存儲成本極大降低,計算能力提高,采集到的數(shù)據(jù)都是在第三方服務(wù)器存儲和計算,因此,數(shù)據(jù)的維護成本也極大降低。

服務(wù)器日志技術(shù)和頁面標(biāo)簽記技術(shù)這兩種方法各有優(yōu)缺點,在數(shù)據(jù)準(zhǔn)確度上都不可能保證完全精確,幸好對于網(wǎng)站統(tǒng)計分析而言,并沒有那么高的精度要求,我們只是需要準(zhǔn)確的數(shù)據(jù),然后查看趨勢,通過數(shù)據(jù)趨勢判斷問題,定位原因就足夠了。

頁面標(biāo)記技術(shù)基本原理:在訪客請求的頁面中,包含一段或幾段用來記錄客戶端(瀏覽器)行為的JavaScript代碼,在頁面被載入時執(zhí)行該JS代碼或者在事件被觸發(fā)時執(zhí)行某JS代碼,并將收集到的客戶端行為數(shù)據(jù)發(fā)送給指定的服務(wù)器,可能是通過請求某資源的形式,也可能是直接寫入數(shù)據(jù)庫。JavaScript頁面標(biāo)記代碼可由網(wǎng)站所有者自定義提供,也可使用第三方工具提供的代碼。頁面標(biāo)記代碼一般需要覆蓋到所有用戶能訪問到的頁面,通??梢酝ㄟ^將此代碼包含在公共引用模塊中。由第三方提供的代碼,通常會將數(shù)據(jù)發(fā)送到第三方制定的地址,并由第三方工具提供日志分析和數(shù)據(jù)統(tǒng)計報表,如51la V6網(wǎng)站統(tǒng)計。原則上,JavaScript頁面標(biāo)記代碼可以追蹤到任何通過JS記錄到的行為和觸發(fā)的事件。

頁面標(biāo)記技術(shù)優(yōu)點:

  • 不受代理和緩存服務(wù)器影響,提供更精準(zhǔn)的會話跟蹤
  • 可以記錄客戶端的所有JS能記錄的行為,最基本的記錄包括頁面瀏覽、flash事件、Ajax交互、鼠標(biāo)點擊、滾動條滾動、表單填寫等
  • 實時收集和處理客戶端數(shù)據(jù)
  • 數(shù)據(jù)存放在云端,操作上,可以獨立于IT團隊,不用后臺開發(fā)人員維護,甚至不用前端開發(fā),可以交給第三方工具(首次代碼鋪設(shè)需由網(wǎng)站擁有者添加)維護和統(tǒng)計

頁面標(biāo)記技術(shù)劣勢

  • 錯誤設(shè)置容易導(dǎo)致數(shù)據(jù)丟失,且不能重新處理數(shù)據(jù)
  • 會受防火墻阻隔
  • 如果瀏覽器不啟用JavaScript,則頁面標(biāo)記無用,記錄不到這些訪客行為,大約少于2%;
  • 不能追蹤帶寬或下載完成,文件的下載狀態(tài)無法直接記錄
  • 搜索機器人不執(zhí)行JS,故不能追蹤記錄搜索引擎機器人(爬蟲)的行為

服務(wù)器日志技術(shù)基本原理:用戶對網(wǎng)頁的提出的一次請求,就稱為一次命中。通過Web服務(wù)器日志軟件,將請求信息記錄在日志文件中,通過日志分析程序即可獲得點擊流(訪問流)數(shù)據(jù)。根據(jù)這些請求信息,分析軟件可以得到訪客在什么時間請求了什么頁面,是否出錯,從什么地方來的,訪客的客戶端信息和地理位置,還可以通過設(shè)置的cookie獲得訪客的更多信息。通過臨時cookie即session表示一次訪問,通過永久cookie標(biāo)識唯一訪客,或者用IP、IP + User-Agent標(biāo)識唯一訪客。

服務(wù)器日志技術(shù)優(yōu)點:

  • 只要服務(wù)器不出問題日志不會丟失,數(shù)據(jù)更安全可靠,并且可方便處理歷史數(shù)據(jù)
  • 能夠記錄機器人/自動程序?qū)W(wǎng)站的訪問
  • 所有資源文件(HTML元素)的請求均可記錄,包括追蹤帶寬或下載完成
  • 不會受防火墻阻隔
  • 不受訪問終端設(shè)備影響,可以追蹤移動用戶

服務(wù)器日志技術(shù)劣勢:

  • 不能追蹤事件,只能記錄客戶端對Web服務(wù)器的請求日志,非向服務(wù)器的請求無法記錄。訪客在客戶端的鼠標(biāo)點擊行為、對象交互事件,如Ajax交互行為、Flash事件、按鍵鍵入等,無法通過Web服務(wù)器日志獲知
  • 受代理和緩存的影響,頁面緩存不會發(fā)生服務(wù)器請求,也就不會被無服務(wù)器日志記錄,而訪客二次訪問網(wǎng)站通常會有本地緩存,因此數(shù)據(jù)真實性會有偏差
  • 較弱的實時性,網(wǎng)站服務(wù)器日志是記錄服務(wù)器運行的實時數(shù)據(jù)的,但是這些數(shù)據(jù)想要被取出分析,實時性就沒有那么好了
  • 數(shù)據(jù)需本地存放,占據(jù)空間大、不夠便捷

如果您對網(wǎng)頁統(tǒng)計分析的重心在于網(wǎng)站真實訪問者行為的追蹤和分析上,那么,通過日志方法來實現(xiàn)相對而言難度相對比較大,操作也比較繁瑣,這時候應(yīng)該用頁面標(biāo)記法來實現(xiàn)對網(wǎng)站訪問數(shù)據(jù)的收集。

點擊立刻免費注冊使用

本文經(jīng)授權(quán)發(fā)布,不代表51LA立場,如若轉(zhuǎn)載請聯(lián)系原作者。

51LA網(wǎng)站統(tǒng)計V6

51LA與500位站長聯(lián)合打造全新一代網(wǎng)站統(tǒng)計工具