ए / बी परीक्षण: अपना परीक्षण शुरू करने से पहले नमूना आकार की गणना कैसे करें

मान लीजिए कि आप अब एक सप्ताह के लिए ए / बी परीक्षण चला रहे हैं, और हर दिन आपके व्यवसाय हितधारकों द्वारा पूछा जाता है, “हम कितने समय से परीक्षण चलाने की योजना बना रहे हैं? क्या हमारा अभी तक कोई महत्व है? ”। यह कोई असामान्य स्थिति नहीं है। वास्तव में सभी उत्पाद प्रबंधक इस मुद्दे पर चलते हैं। सिवाय इसके कि कई बार हमें अंदाजा नहीं होता है कि हमें परीक्षण कब तक चलाना चाहिए, इसलिए हम परिणामों को एक उम्मीद में देखते हैं कि हम महत्व पर पहुंचते हैं। यदि आप एक परीक्षण चला रहे हैं, तो समस्या बढ़ जाती है, लेकिन आप उत्थान की उम्मीद नहीं करते हैं - यह या तो एस्थेटिक कारणों या उल्टा होने के कारण हो सकता है। आपको इसे कब तक चलाना चाहिए? मुश्किल यह नहीं है?

हमें आदर्श रूप से यह जानने के लिए कभी भी परीक्षण शुरू नहीं करना चाहिए कि हम कितने नमूने एकत्र करने जा रहे हैं। क्यों? अन्यथा, आप डेटा को देख रहे होंगे और आप 'डेटा पीकिंग' करना समाप्त कर देंगे, जो आपके द्वारा महत्व सुनिश्चित करने के साथ ही परीक्षण को रोक रहा है। यहाँ एक उदाहरण है - मान लीजिए कि आपके पास एक सिक्का है और आपकी परिकल्पना यह है कि यह उचित है। आप यह कैसे साबित करते हैं? सरल - इसे 100 बार टॉस करें। लेकिन क्या हो अगर आपने इसे 10 बार उछाला और 10 बार पूंछ देखी। इस समय परीक्षण को रोकना और अशक्त परिकल्पना को अस्वीकार करना सांख्यिकीय रूप से महत्वपूर्ण लगता है - कि सिक्का उचित है। क्या गलत हुआ? आपने परीक्षा को बहुत जल्द रोक दिया। आपके पास परीक्षण शुरू करने के लिए कितने समय तक शुरू करने का कोई विचार नहीं था। दूसरी समस्या जो आप चला सकते हैं यदि आपने नमूना आकार की गणना नहीं की है, तो आप अभिप्रेरित रूप से यह कहने में सक्षम नहीं होंगे कि आप कितने समय के लिए परीक्षण चलाने जा रहे हैं।

तो हम यह कैसे करते हैं?

उत्पाद प्रबंधन के पहले नियम का पालन करें - अस्पष्टता को गले लगाओ लेकिन अनिश्चितता से बचें।

यह है कि हम नमूना आकार की गणना करने के लिए कैसे संपर्क कर सकते हैं: मान लीजिए कि हम ए / बी परीक्षण चला रहे हैं, जहां: एक घटना के लिए हमारी वर्तमान रूपांतरण दर जैसे कि ईमेल के लिए साइन अप करने वाले उपयोगकर्ताओं का% 10% है और हम 10% उत्थान की उम्मीद करते हैं। रूपांतरण अगर उपचार जीतता है। फिर,

आधारभूत रूपांतरण: P1 = 20%

रूपांतरण में उत्थान: 10% (यह आपने अपने बदलाव के अपेक्षित प्रभाव के रूप में अनुमानित किया है)। विकास टीम के हिस्से के रूप में, हम आमतौर पर 20% उत्थान के लिए लक्ष्य रखते हैं, लेकिन 10% भी बड़ा हो सकता है, यह इस बात पर निर्भर करता है कि आपका उत्पाद कितना परिपक्व है। जितनी जल्दी आप महत्व तक पहुँचते हैं उतना ही अधिक उत्थान होता है।

उपचार समूह की अपेक्षित रूपांतरण: पी 2 = 20% * (1 + 10%) = 22%

महत्व का स्तर: यह एक गलत सकारात्मक का मौका है अर्थात 5% महत्व के स्तर पर यह मौका क्या है कि हम उस परिकल्पना को अस्वीकार कर देंगे जब यह वास्तविकता में था (जिसे आप कभी नहीं जानते होंगे) सच था। बेशक, हम इस त्रुटि को कम करना चाहते हैं इसलिए हम 5% चुनते हैं। यदि आपके पास कम ट्रैफ़िक है तो आप इसे 10% या 20% तक बढ़ाना चाह सकते हैं।

झूठी सकारात्मक: टाइप I त्रुटि - जब यह सत्य है तो अशक्त परिकल्पना को अस्वीकार करना

सांख्यिकीय शक्ति: यह संभावना है कि आप एक झूठी नकारात्मक प्राप्त करेंगे। ओह! पावर (= 1 - टाइप II त्रुटि) टाइप II त्रुटि से बचने की संभावना है या दूसरे शब्दों में पावर संभावना है कि परीक्षण अशक्त परिकल्पना से विचलन का पता लगाएगा, क्या ऐसा विचलन मौजूद होना चाहिए। आमतौर पर हम इसे 80% पर सेट करते हैं।

गलत नकारात्मक: टाइप II त्रुटि - जब यह गलत है तो अशक्त परिकल्पना को अस्वीकार करने में विफल

अब हमारे पास वह सब कुछ है जो हम वास्तव में आगे बढ़ सकते हैं और आवश्यक नमूना आकार की गणना कर सकते हैं। हम या तो एक ऑनलाइन कैलकुलेटर, जी पावर टूल, या आर का उपयोग कर सकते हैं। इस बात पर निर्भर करता है कि आप किस टूल का उपयोग कर रहे हैं, थोड़ा अलग नंबर देख सकते हैं लेकिन यह ठीक है।

आइए हम उनमें से प्रत्येक को एक-एक करके देखें:

क) ऑनलाइन कैलकुलेटर जैसे कि यह यहाँ एक है

b) G * पावर टूल का उपयोग करें: यहां से टूल डाउनलोड करें। टेस्ट परिवार 'जेड टेस्ट', सांख्यिकीय परीक्षण 'अनुपात: दो स्वतंत्र अनुपातों के बीच अंतर' पर जाएं और पी 1, पी 2, अल्फा (सांख्यिकीय महत्व), पावर = 0.8 जोड़ें।

अपेक्षित उत्पादन:

c) R: जिस फ़ंक्शन का हम उपयोग करने जा रहे हैं वह है power.prop.test (मैन पेज)।

power.prop.test (n = NULL, p1 = NULL, P2 = NULL, sig.level = 0.05, power = NULL, वैकल्पिक = c ("two.sided", "one.sided"), सख्त = FALSE)

किसी भी ऑनलाइन आर कंपाइलर के पास जाएं जैसे कि यह यहां है और एन सेट के साथ निम्नलिखित कमांड टाइप करें।

power.prop.test (n = NULL, p1 = 0.2, P2 = 0.22, शक्ति = 0.8, वैकल्पिक = 'two.sided', sig.level = 0.05)

यह वह आउटपुट है जो आपको R में मिलेगा

अनुपात शक्ति गणना के दो-नमूना तुलना 
             n = 6509.467 p1 = 0.2 P2 = 0.22 sig.level = 0.05 शक्ति = 0.8 विकल्प = दो।
नोट: n * प्रत्येक * समूह में संख्या है

इसका मतलब है कि हमें प्रत्येक समूह में लगभग 6510 नमूनों की आवश्यकता होगी। जिसका मतलब है कि हमें 13020 यातायात की आवश्यकता होगी।

अब मान लीजिए कि आप ऐतिहासिक रूप से जानते हैं कि आपकी वेबसाइट का ट्रैफ़िक 2000 विज़िटर का है, तो आप जानते हैं कि आपको अपनी परिकल्पना परीक्षण को 6.51 दिनों या 7 दिनों तक चलाना होगा।

बोनस बिंदु: सप्ताह के सभी दिनों को कवर करना हमेशा एक अच्छा विचार होता है क्योंकि अधिकांश व्यवसायों में उनके मांग पैटर्न में 'वीकलीकैलिटी' होती है।

अब अगली बार जब आप A / B परीक्षण चलाने वाले हों, तो आवश्यक नमूना आकार की पूर्व-गणना करें ताकि आप अपने व्यवसाय के हितधारकों के साथ सही अपेक्षाएँ निर्धारित कर सकें।

बस मामले में आपको नमूना आकार बहुत बड़ा मिला जो आपको नहीं लगता है कि आपको महत्व दिया जाएगा कि आपकी वेबसाइट पर ट्रैफ़िक दिया गया है, चिंता न करें, एक अन्य पोस्ट में मैं ए / बी चलाने के लिए कुछ शांत चालें साझा करूंगा। जब आपके पास पर्याप्त ट्रैफ़िक न हो तो परीक्षण करें। तब तक, खुश ए / बी परीक्षण।