A/B實驗與“增量主義”
時間:2023-09-29 05:48:01 | 來源:網(wǎng)站運營
時間:2023-09-29 05:48:01 來源:網(wǎng)站運營
A/B實驗與“增量主義”:A/B實驗通常被視為促進創(chuàng)新的“利器”。然而,Berk Can Deniz[1]的工作論文指出:所謂過猶不及,
A/B實驗也有可能導(dǎo)致更多的“增量式”創(chuàng)新。具體來說,對于536家媒體網(wǎng)站,他發(fā)現(xiàn)在
引入A/B實驗后,這些網(wǎng)站的頁面設(shè)計隨時間推移發(fā)生的變化顯著減少,特別是發(fā)生劇烈變化的可能性顯著降低。這些變化背后可能存在兩類機制:一是
不適于實驗的創(chuàng)新想法愈發(fā)受到排斥;二是
組織內(nèi)管理人員趨向保守,只會實驗結(jié)果確定的增量式創(chuàng)新。
圖1 引入A/B實驗前后(以虛線為界),媒體網(wǎng)站發(fā)生劇烈變化(定義為網(wǎng)站相似度的下降大于0.1)的概率原文方法簡潔,直接回歸看相關(guān)性。對于媒體網(wǎng)站,相關(guān)行業(yè)協(xié)會和市場研究企業(yè)已有全面的數(shù)據(jù)。具體到回歸的自變量,是這些網(wǎng)站采用A/B實驗的時間[2]。因變量方面,結(jié)合既有的業(yè)界實踐,可以構(gòu)造以下反映兩個網(wǎng)頁設(shè)計相似度的指標:以樹編輯距離衡量HTML代碼相似度,以類間交集大小除以類間并集大小衡量CSS類的相似度,再等權(quán)重加總兩個相似度得到最終指標[3]。于是,可以季度為單位衡量同一網(wǎng)頁的不同版本是否彼此相似。
圖2 引入A/B實驗前后(以虛線為界),媒體網(wǎng)站前后版本間相似度的變化結(jié)果[4]相當清晰。對網(wǎng)頁版本相似度的歷時變化而言,既有發(fā)生劇烈(>0.1)變化的概率顯著下降,又有相似程度的顯著上升?!奥窡粜?yīng)”和代理人問題都是可能解釋。前者意味著有了實驗以后,視野里幾乎只會出現(xiàn)可實驗的創(chuàng)新,其他想法受到排斥;后者意味著即使存在其他大膽的新想法,管理人員也會選擇能夠確保實驗結(jié)果數(shù)字上跳的想法。這些都是有趣且可以進一步驗證的方向,也是實驗與組織如何相互作用這一新興小領(lǐng)域[5]的趨向。
[1] 原文作者后來前往業(yè)界繼續(xù)從事A/B實驗相關(guān)的工作。
[2] 由于作者依靠前端代碼判斷相應(yīng)網(wǎng)站是否進行實驗,此處數(shù)據(jù)可能存在遺漏,主要是難以識別實驗部署在后端的情形。原文作者的解決思路是:相比于前端方案,后端方案通常需要更強的技術(shù)能力和更多的資源。由于頭部媒體網(wǎng)站都是采取前端方案,可以推斷幾乎所有媒體都是采取前端方案。
[3] 相應(yīng)思路和權(quán)重選擇主要來自Gowda, Thamme, and Chris A. Mattmann. "Clustering web pages based on structure and style similarity (application paper)."
2016 IEEE 17th International Conference on Information Reuse and Integration (IRI). IEEE, 2016.
[4] 原文還控制了技術(shù)棧等變量,并且做了一些穩(wěn)健性檢驗。缺乏因果識別可能是一項缺憾。不過,即使沒有因果識別,結(jié)論也頗為讓人信服,且具有一定趣味。
[5] 例如,參見Hall, Todd A., and Sharique Hasan. "The Politics of Experimentation." (2022).
文獻來源:Deniz, Berk Can. "Experimentation and Incrementalism: The Impact of the Adoption of A/B Testing." (2021).