熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 獨(dú)家 | 115個(gè)A/B測(cè)試的分析結(jié)果︰平均提升為4%,大部分缺乏統(tǒng)計(jì)檢定力(2)

獨(dú)家 | 115個(gè)A/B測(cè)試的分析結(jié)果︰平均提升為4%,大部分缺乏統(tǒng)計(jì)檢定力(2)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2021-10-20 來源:工程師 發(fā)布文章

從A/B測(cè)試的角度分析多元測(cè)試

筆者遇到的另一個(gè)問題是如何把多元測(cè)試(一個(gè)對(duì)照對(duì)比多個(gè)變量)表達(dá)成兩個(gè)分別的A/B測(cè)試。筆者認(rèn)為這是可能的,因?yàn)閮烧叩膶?duì)照完全一致,且多元測(cè)試和兩個(gè)連續(xù)的測(cè)試有著相同的樣本大小和轉(zhuǎn)換率。有一篇博客文章完整描述了其中一個(gè)測(cè)試的整個(gè)實(shí)驗(yàn),結(jié)果表明,不單單是一個(gè)多元測(cè)試,還有未被提及的其他變量。因?yàn)樵诙嘣獪y(cè)試中,為了反映對(duì)照是和多個(gè)變量進(jìn)行測(cè)試,我們需要調(diào)整p值和置信區(qū)間。這里便出現(xiàn)了問題,因?yàn)槲覀儾荒芎?jiǎn)單地進(jìn)行成對(duì)的t檢定或z檢定,就像GoodUI中對(duì)一個(gè)個(gè)變量和對(duì)照進(jìn)行p值計(jì)算。

p值和信賴區(qū)間的有效性所導(dǎo)致的后果和無從發(fā)現(xiàn)的數(shù)據(jù)窺探的后果相似︰相較報(bào)告中名義上的可能性,實(shí)際觀察結(jié)果的可能性會(huì)更高。由于筆者并不知道在每一個(gè)A/B測(cè)試中有多少個(gè)變量,所以不能夠?qū)Y(jié)果和最小可檢測(cè)效應(yīng)的計(jì)算進(jìn)行Dunnett修正。筆者知道其中兩個(gè)測(cè)試(#16和#17)的變量數(shù)目和它們的效應(yīng)大小大于40%,暗示著它們有未解釋的自選停止情況,故筆者決定把這兩個(gè)測(cè)試移除。

筆者決定保留余下的測(cè)試,因?yàn)樗鼈兇蟛糠衷谟兄?至2個(gè)額外變量的假設(shè)下,仍然適當(dāng)?shù)乇3至藱z定力。

A/B測(cè)試的元分析結(jié)果

115個(gè)測(cè)試的元分析結(jié)果明顯有一部分測(cè)試(80=69.57%)欠缺統(tǒng)計(jì)檢定力,有著或多或少嚴(yán)重的方法論問題。其中,有27個(gè)測(cè)試因明顯妥協(xié)性測(cè)試而被移除。3個(gè)測(cè)試有著對(duì)照組和實(shí)驗(yàn)組在人流分配上的顯著不平衡,故為了避免使用因技術(shù)上的可能問題而導(dǎo)致的偏差數(shù)據(jù),這3個(gè)測(cè)試也被移除。16個(gè)測(cè)試是8個(gè)多元測(cè)試分拆的結(jié)果,即使如此,我們?nèi)詻Q定有能力能合理地評(píng)估它們的誤差控制,它們當(dāng)中的2個(gè)被移除,余下的則繼續(xù)用作分析(有爭(zhēng)議的決定)。

在移除3個(gè)不平衡隨機(jī)化的測(cè)試和27個(gè)因缺乏固定樣本大小和無從發(fā)現(xiàn)的數(shù)據(jù)窺探,導(dǎo)致統(tǒng)計(jì)上明顯妥協(xié)的測(cè)試后,能進(jìn)入元分析的測(cè)試有85個(gè)。(初始有115個(gè))。

85個(gè)測(cè)試的平均百分比提升是3.77%,而中位數(shù)提升是3.92%,其分布如下︰

7.png

上面的分布與有著平均值3.77%的正態(tài)分布十分相似,大部分的效應(yīng)(58%)在-3%和+10%之間。可以看到,在數(shù)據(jù)修剪后大部分的極端高的結(jié)果都被移除,在最初的數(shù)據(jù)集中有8個(gè)效應(yīng)大于35%。這是因?yàn)樵跇O端早的結(jié)果中,測(cè)試往往是在數(shù)據(jù)窺探、極端大的提升下就被早早停止。自然而然,這些結(jié)果也有著極端的不確定性。

大部分效應(yīng)在10%提升以下的這一事實(shí)進(jìn)一步支持大部分測(cè)試的檢定力低下的論點(diǎn),因?yàn)樵?15個(gè)測(cè)試中只有24個(gè)測(cè)試在90%檢定力和95%顯著度下,有著小于10%的最小可檢定效應(yīng)。

統(tǒng)計(jì)上顯著(p<0.05)的測(cè)試的觀察效應(yīng)大小為︰

88.jpg

大部分測(cè)試的結(jié)果都落在0.54%-5.54%這一區(qū)間,而主體結(jié)果則在0.54%和20.54%之間。對(duì)于統(tǒng)計(jì)上顯著的測(cè)試,它們的觀察效應(yīng)大小的算術(shù)平均值為6.78%的提升,當(dāng)中50%的測(cè)試結(jié)果少于5.96%,而這些來自統(tǒng)計(jì)上顯著的結(jié)果的效應(yīng)大小自然地相較整體來得大。

85個(gè)測(cè)試的p值分布如下︰

99.jpg

可以看到在85個(gè)測(cè)試中,只有39個(gè)(45.88%)有統(tǒng)計(jì)上顯著的結(jié)果,當(dāng)中8個(gè)是負(fù)值結(jié)果,大部分測(cè)試(20個(gè))的p值落在0.05-0.1的范圍。

當(dāng)有這么一大部分的測(cè)試沒有達(dá)到常用的顯著度閾值時(shí),不禁令人懷疑當(dāng)中出現(xiàn)了什么問題。直接把它們視作無價(jià)值的測(cè)試而丟棄顯然不是個(gè)好做法。一般來說,我們會(huì)通過觀察檢定力和最小可檢測(cè)效應(yīng)進(jìn)行分析,以下是85個(gè)測(cè)試的最小可檢測(cè)效應(yīng)的分布︰

8.png

然后是在0.05閾值下不顯著的測(cè)試的分布︰

777.jpg

我們可以看到只有46個(gè)不顯著測(cè)試中的15個(gè)(32.6%)有著低于12%的最小可檢測(cè)效應(yīng)。對(duì)于這些測(cè)試我們可以把有著90%可能性的12%或更大的效應(yīng)大小排除掉。但對(duì)于余下的25個(gè)測(cè)試,因?yàn)樗鼈兊淖钚】蓹z測(cè)效應(yīng)非常大,以至于對(duì)它們的排除并不會(huì)帶來新的情報(bào)︰這些測(cè)試的干預(yù)程度使得如此大的效應(yīng)變得幾近不可能出現(xiàn)。

另一個(gè)更加直覺地評(píng)估沒有被排除的效應(yīng)大?。ū恢眯艆^(qū)間覆蓋的效應(yīng)大小)的方法是觀察置信區(qū)間︰

9.png

有一部分的測(cè)試有著圍繞零點(diǎn)的狹窄區(qū)間,它們都是檢定力良好的測(cè)試。當(dāng)中幾個(gè)更是正相等測(cè)試,即在這些測(cè)試中變量和對(duì)照之間很大機(jī)率沒有任何差異。GoodUI并沒有很好地利用這一點(diǎn),而是粗略地把它們定義為”不顯著”,而失去了能從這些數(shù)據(jù)中獲取信息的機(jī)會(huì)。

留意有著負(fù)值觀察結(jié)果的測(cè)試實(shí)際上也覆蓋了大程度的正值效應(yīng),反之亦然,這些都是檢定力低下的測(cè)試。一般來說,區(qū)間越寬,測(cè)試的檢定力就越低下。

現(xiàn)在讓我們檢視一下統(tǒng)計(jì)上顯著的測(cè)試的置信區(qū)間,從中我們能了解觀察效應(yīng)大小和真實(shí)效應(yīng)大小的接近程度︰

10.png

我們可以看到絕大部分測(cè)試幾乎沒有排除到0%附近的區(qū)域,很多區(qū)間只坐落在0%附近的幾個(gè)百分點(diǎn)。如果筆者關(guān)于數(shù)據(jù)窺探的懷疑是正確的,那么這些測(cè)試的結(jié)果則相當(dāng)有問題。某些區(qū)間頗為遠(yuǎn)離0%,說明它們的數(shù)據(jù)很大機(jī)會(huì)反映了實(shí)際情況中會(huì)出現(xiàn)很大程度的差異。

同樣地我們能看到比較狹窄的區(qū)間來自檢定力高的測(cè)試,而比較闊寬的區(qū)間則來自檢定力低下的測(cè)試。舉個(gè)例子,測(cè)試#36和#38都有著高于16%提升的下界,但測(cè)試#38的信賴區(qū)間較為闊寬,顯出它是檢定力低下的,而下界遠(yuǎn)離0%的原因來自較大的觀察效應(yīng)大?。ㄒ卜浅S锌赡苁钦鎸?shí)效應(yīng)大?。?。當(dāng)然,以上假設(shè)的前提是測(cè)試中沒有出現(xiàn)數(shù)據(jù)窺探和其他統(tǒng)計(jì)上的濫用問題。

討論和重點(diǎn)

在115個(gè)測(cè)試中只有31個(gè)有著統(tǒng)計(jì)上顯著的正值結(jié)果(在數(shù)據(jù)修剪后),這比起其他行業(yè)報(bào)告中如10%或5%的低數(shù)值來得要高。顯著性結(jié)果的缺失部分是由于大約70%的測(cè)試經(jīng)過分析都沒有很好的檢定力,另一方面則是因?yàn)闇y(cè)試中的干預(yù)不夠有效,又或者沒有造成明顯的負(fù)值效應(yīng)。而在考慮這些數(shù)字是否能代表行業(yè)情況時(shí),也要考慮報(bào)導(dǎo)/出版的偏差。

關(guān)于統(tǒng)計(jì)上顯著的正值測(cè)試,它們的平均百分比改變?yōu)?0.73%(中位數(shù)7.91%)。這一結(jié)果在測(cè)試時(shí)長(zhǎng)方面部分受挫于統(tǒng)計(jì)上顯著的負(fù)值測(cè)試,原因是顯著測(cè)試的平均值是6.78%(中位數(shù)5.96%),而全部測(cè)試小于4%(平均值3.77%,中位數(shù)3.92%)。筆者相信即使這一數(shù)據(jù)缺失了其代表性,它仍能幫助告知決策者有關(guān)轉(zhuǎn)換率最優(yōu)化程序的可能結(jié)果,筆者也相信它能在從業(yè)者決定是否把最小可檢定效應(yīng)放到檢定力和樣本大小計(jì)算中時(shí)起到幫助作用。筆者在做出這些決定時(shí)全憑每個(gè)獨(dú)立A/B測(cè)試的水平,同時(shí)考慮到全部成本和回報(bào),但外部基準(zhǔn)在評(píng)估與測(cè)試有關(guān)的風(fēng)險(xiǎn)和回報(bào)時(shí)絕對(duì)有幫助。

而在研究測(cè)試時(shí)也有機(jī)會(huì)忽略有關(guān)在任何顯著大小下的效應(yīng)缺失的有力數(shù)據(jù),原因在于相關(guān)測(cè)試被標(biāo)簽為”不顯著”。

因?yàn)樵谠治鲋械臉颖静⒉痪叽硇?,所以得出的結(jié)果在用途上會(huì)有一定限制。另一個(gè)值得考慮的問題是測(cè)試有著不同的主要輸出︰有的關(guān)注于改變輕微的點(diǎn)擊行為,有的關(guān)注于改善試驗(yàn)注冊(cè),購(gòu)買率,等等。

在報(bào)告中的測(cè)試沒有一個(gè)以收入作為主要KPI的,而當(dāng)中最少一個(gè)測(cè)試(#24)的主要輸出與以收入為基本的KPI有著直接分歧(測(cè)試的成功有可能損害到中期和長(zhǎng)期的收入)。還有一個(gè)問題是缺乏有關(guān)測(cè)試中用到的停止準(zhǔn)則的信息︰如果以上提及的假設(shè)是正確的,而且有70%或更多的測(cè)試沒有被正確地實(shí)行,那么一大部分的測(cè)試結(jié)果有可能是帶有偏差的,且偏向任一方向的顯著結(jié)果。

就A/B測(cè)試的收集和報(bào)告而言,筆者認(rèn)為重點(diǎn)相當(dāng)明顯︰確保適當(dāng)?shù)赜?jì)算統(tǒng)計(jì)量,而前提是需要知道測(cè)試在統(tǒng)計(jì)上是怎樣設(shè)計(jì)的。需要知道測(cè)試是固定樣本還是連續(xù)觀察的設(shè)計(jì),如果是連續(xù)觀察的設(shè)計(jì),那么分析的數(shù)目和時(shí)間又是多少。需要知道測(cè)試的變量數(shù),又在人流分配中有沒有任何值得懷疑的地方等等。這些都已經(jīng)在之前的文章或者其他地方中討論過。

原文標(biāo)題︰

Analysis of 115 A/B Tests: Average Lift is 4%, Most Lack Statistical Power

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉