Τιμή σημαντικότητας

Σε συχνότατες στατιστικές, η τιμή σημαντικότητας (p-value) είναι μια λειτουργία των παρατηρούμενων αποτελεσμάτων του δείγματος (ένα στατιστικό αποτέλεσμα της δοκιμής) σε σχέση με ένα στατιστικό μοντέλο, το οποίο μετρά το πόσο ακραία είναι η παρατήρηση. Στατιστικοί έλεγχοι υποθέσεων κάνοντας χρήση των τιμών σημαντικότητας συνήθως χρησιμοποιείται σε πολλούς τομείς των κοινωνικών επιστημών,^[1] όπως η οικονομία, η ψυχολογία,^[2] βιολογία, ποινική δικαιοσύνη και εγκληματολογία και η κοινωνιολογία.^[3] η χρήση τους έχει σημαντική διαμάχη ως αποτέλεσμα.

Επισκόπηση και διαμάχη

Η τιμή σημαντικότητας(p-value) ορίζεται ως η πιθανότητα της απόκτησης ενός αποτελέσματος ίσου ή "πιο ακραίου" από ό,τι ήταν στην πραγματικότητα παρατηρήσιμο, όταν η μηδενική υπόθεση είναι αληθής.[4]^[4]

Σε συχνοτικό συμπέρασμα, η τιμή σημαντικότητας είναι ευρέως χρησιμοποιούμενη στον στατιστικό έλεγχο υποθέσεων, ειδικά σε σημαντικές δοκιμές μηδενικής υπόθεσης. Σε αυτή τη μέθοδο, ως μέρος του πειραματικού σχεδιασμού, πριν από την εκτέλεση του πειράματος, πρώτα επιλέγει ένα μοντέλο ( null hypothesis) και μια οριακή τιμή για το σ, το οποίο ονομάζεται επίπεδο σημαντικότητας του τεστ, παραδοσιακά, 5% ή 1% ^[5] και συμβολίζεται ως α. Εάν η τιμή σημαντικότητας είναι μικρότερη ή ίση με το επιλεγμένο επίπεδο σημαντικότητας (α), η δοκιμή δείχνει ότι τα παρατηρούμενα δεδομένα δεν συνάδουν με τη μηδενική υπόθεση, οπότε η μηδενική υπόθεση πρέπει να απορριφθεί. Ωστόσο, αυτό δεν αποδεικνύει ότι η υπόθεση που εξετάζεται είναι η αλήθεια. Όταν η τιμή σημαντικότητας υπολογίζεται σωστά, αυτή η δοκιμή εγγυάται ότι το ποσοστό σφάλματος Τύπου I είναι το πολύ α. Για τυπική ανάλυση, χρησιμοποιώντας το πρότυπο α = 0.05 διακοπών, η μηδενική υπόθεση απορρίπτεται όταν p < .05 και δεν απορρίπτεται όταν p > .05. Οι τιμές σημαντικότητας δεν υποστηρίζουν το συλλογισμό σχετικά με τις πιθανότητες υποθέσεις, αλλά είναι μόνο ένα εργαλείο για να αποφασίσει εάν πρόκειται να απορρίψετε τη μηδενική υπόθεση.

Η American Statistical Association, σε μια δήλωση σχετικά με τη χρήση των τιμών σημαντικότητας,^[6] , επιβεβαίωσε τη χρησιμότητα της σωστής ερμηνείας των τιμών σημαντικότητας, αλλά προειδοποίησε ότι στις τιμές σημαντικότητας "συχνά γίνεται κατάχρηση και παρερμηνεία." Η χρήση των κανόνων φωτεινών γραμμών ως αποκοπές, όπως p ≤ 0.05, ήταν ιδιαίτερα κριτική:^[6]

Ενώ υπάρχει γενική συμφωνία ότι στις τιμές σημαντικότητας συχνά γίνεται κατάχρηση,^[7]^[8] δεν υπάρχει συναίνεση σχετικά με εναλλακτικές λύσεις.^[9]

Βασικές έννοιες

Οι τιμές σημαντικότητας χρησιμοποιούνται στο πλαίσιο της μηδενικής υπόθεσης της δοκιμής προκειμένου να ποσοτικοποιηθεί η ιδέα της στατιστικής σημαντικότητας των στοιχείων.[lower-alpha 1] Οι δοκιμές μηδενικής υπόθεσης είναι ενα εις άτοπο απαγωγή επιχείρημα προσαρμοσμένο στις στατιστικές. Στην ουσία,είναι ένας ισχυρισμός που φαίνεται να ισχύει, αποδεικνύοντας την απιθανότητα η συνέπεια που προκύπτει από την υπόθεση της ανταπαίτησης για να είναι αληθινό.

Ως τέτοια, η μόνη υπόθεση που πρέπει να προσδιοριστεί στη δοκιμή και η οποία ενσαρκώνει την ανταγωγή αναφέρεται ως η μηδενική υπόθεση.Ένα αποτέλεσμα είναι στατιστικά σημαντικό, αν μας επιτρέπει να απορρίψουμε την μηδενική υπόθεση. Αυτό είναι, σύμφωνα με την εις άτοπο απαγωγή λογική, το στατιστικά σημαντικό αποτέλεσμα που θα πρέπει να είναι ιδιαίτερα απίθανο, εάν η μηδενική υπόθεση υποτίθεται ότι είναι αληθινή. Η απόρριψη της μηδενικής υπόθεσης σημαίνει ότι η σωστή υπόθεση βρίσκεται στο λογικό συμπλήρωμα της μηδενικής υπόθεσης. Ωστόσο, αν δεν υπάρχει μια ενιαία εναλλακτική για τη μηδενική υπόθεση, η απόρριψη της δεν μας λέει ποιά από τις εναλλακτικές λύσεις μπορεί να είναι η σωστή.

Για παράδειγμα, αν η μηδενική υπόθεση υποτίθεται ότι είναι μια τυπική κανονική κατανομή N(0,1), η απόρριψη της μηδενικής υπόθεσης μπορεί να σημαίνει είτε (i) η μέση δεν είναι μηδέν, ή (ii) η διακύμανση δεν είναι ενότητα, ή (iii) η κατανομή δεν είναι κανονική, ανάλογα με τον τύπο της δοκιμής. Ωστόσο, αν καταφέρουμε να απορρίψουμε την μηδενική μέση υπόθεση, ακόμα κι αν γνωρίζουμε ότι η κατανομή είναι κανονική και η διακύμανση είναι η ενότητα, η μηδενικής υπόθεσης δοκιμή δεν μας λέει ποιά μη μηδενική τιμή θα πρέπει να εγκρίνει το νέο μέσο.

Στη στατιστική, μια στατιστική υπόθεση αναφέρεται σε μια κατανομή πιθανότητας που υποτίθεται ότι διέπουν τα παρατηρούμενα δεδομένα.^[α] Αν $X$ είναι μια τυχαία μεταβλητή που αντιπροσωπεύει τα παρατηρούμενα δεδομένα και $H$ είναι η στατιστική υπόθεση που εξετάζεται, τότε η έννοια της στατιστικής σημαντικότητας μπορεί να είναι αφελώς ποσοτικά από την δεσμευμένη πιθανότητα $\Pr(X\mid {}H)$ , η οποία δίνει την πιθανότητα παρατήρησης, αν η υπόθεση είναι υποτιθέμενη για να είναι σωστή. Ωστόσο, αν $X$ είναι μια συνεχής τυχαία μεταβλητή και ένα παράδειγμα παρατηρείται, $\Pr(X=x\mid {}H)=0$ .Έτσι, αυτός ο αφελής ορισμός είναι ανεπαρκής και πρέπει να αλλάξει έτσι ώστε να φιλοξενήσει τις συνεχείς τυχαίες μεταβλητές.

Παρ ' όλα αυτά, σας βοηθά να διευκρινιστεί ότι οι τιμές σημαντικότητας δεν θα πρέπει να συγχέονται με την πιθανότητα για την υπόθεση (όπως γίνεται σε ελέγχους υποθέσεων Bayesian) όπως Pr(H|X), η πιθανότητα της υπόθεσης με τα δοθείσα στοιχεία, ή Pr(H) ,η πιθανότητα η υπόθεση να είναι η αλήθεια, ή Pr(X), η πιθανότητα παρατήρησης των δεδομένων.

Ορισμός και ερμηνεία

Η τιμή σημαντικότητας ορίζεται ως η πιθανότητα, κάτω από την παραδοχή της υπόθεσης H, λήψης ένός αποτελέσματος ίσου ή και περισσότερο ακραίου από ό,τι ήταν στην πραγματικότητα παρατηρήσιμο. Ανάλογα με το πώς φαινεται, το "πιο ακραίο από ό,τι ήταν στην πραγματικότητα παρατηρήσιμο" μπορεί να σημαίνει {X>=x} (δεξιάς φοράς περίπτωση) ή {X<=x} (αριστερής φοράς περίπτωση) ή το "μικρότερο" της {X<=x} και {X>=x} (περίπτωση διπλής ουράς). Έτσι, η τιμή σημαντικότητας δίνεται από

Pr(X>=x|H) για την περίπτωση δεξιάς φοράς,
Pr(X<=x|H) για την περίπτωση αριστερής φοράς,
2min{Pr(X<=x|H),Pr(X>=x|H)} για την περίπτωση διπλής φοράς.

Όσο μικρότερη είναι η τιμή σημαντικότητας, τόσο μεγαλύτερη είναι η σημασία της, γιατί λέει ο ερευνητής ότι η υπό εξέταση υπόθεση δεν μπορεί να εξηγήσει επαρκώς την παρατήρηση. Η υπόθεση H απορρίπτεται εάν οποιαδήποτε από αυτές τις πιθανότητες είναι μικρότερη ή ίση με ένα μικρό, σταθερό αλλά αυθαίρετα προ-ορίζόμενο κατώτατο όριο αξίας α, η οποία αναφέρεται ως επίπεδο σημαντικότητας. Σε αντίθεση με την τιμή σημαντικότητας, το επίπεδο της α δεν προέρχεται από οποιαδήποτε παρατηρησιακά δεδομένα και δεν εξαρτάται από την υποκείμενη υπόθεση .Η τιμή του α καθορίζεται με την συναίνεση της ερευνητικής κοινότητας που ο ερευνητής εργάζεται.

Δεδομένου ότι η αξία των χ που ορίζει η αριστερής ή δεξιάς φοράς εκδήλωση είναι μια τυχαία μεταβλητή, αυτό κάνει τη τιμή σημαντικότητας συνάρτηση της χ μια τυχαία μεταβλητή ορίζεται μόνη της ομοιόμορφα πάνω στο [0,1] διάστημα, υποθέτοντας ότι χ είναι συνεχής. Έτσι, η τιμή σημαντικότητας δεν είναι σταθερή. Αυτό συνεπάγεται ότι η τιμή σημαντικότητας δεν μπορεί να δώσει μια ερμηνεία στη συχνότητα καταμέτρησης τη ,δεδομένου ότι η πιθανότητα πρέπει να καθοριστεί για την συχνότητα καταμέτρησης ερμηνείας για να κρατήσει. Με άλλα λόγια, αν η ίδια η δοκιμή επαναλαμβάνεται ανεξάρτητη σε σχέση με την ίδια συνολική μηδενική υπόθεση, θα οδηγήσει σε διαφορετικές τιμές σημαντικότητας σε κάθε επανάληψη. Παρ ' όλα αυτά, αυτές οι διαφορετικές τιμές σημαντικότητας μπορούν να συνδυαστούν, χρησιμοποιώντας συνδυασμένη πιθανότητα δοκιμής Φίσερ. Θα πρέπει επίσης να σημειωθεί ότι μια δημιουργία αυτής της τυχαίας τιμής σημαντικότητας μπορεί ακόμα να δοθεί από μια συχνότητα καταμέτρησης ερμηνείας όσον αφορά τον αριθμό των παρατηρήσεων που ελήφθησαν κατά τη διάρκεια μιας συγκεκριμένης δοκιμής, σύμφωνα με τον ορισμό, όπως το ποσοστό των πιο ακραίων παρατηρήσεων από αυτές που παρατηρήθηκαν με βάση την παραδοχή ότι η μηδενική υπόθεση είναι αληθής.

Το σταθερό προ-ορίζόμενο επίπεδο α μπορεί να ερμηνευθεί ως το ποσοστό των ψευδώς απορρίψεων της μηδενικής υπόθεσης (ή σφάλμα τύπου ι), από

Pr(Reject H|H) = Pr(p<=.α|Η) = α

Αυτό σημαίνει επίσης ότι αν φτιάξουμε μια δημιουργία της τιμής σημαντικότητας και να επιτρέψουμε τα α να ποικίλουν με την πάροδο του [0,1], μπορούμε να πάρουμε ένα ισοδύναμο ερμηνείας της τιμής σημαντικότητας σε σχέση με το α επίπεδο, όπως η χαμηλότερη τιμή α αυτό μπορεί να γίνει υπόθεση για την οποία η μηδενική μπορεί να απορριφθεί για ένα δεδομένο σύνολο παρατηρήσεων. Προφανώς, θεωρώντας ότι το α μικρότερο από την τιμή σημαντικότητας θα καταλήξει να μην απορρίπτει τη μηδενική υπόθεση.

Υπολογισμός

Συνήθως, αντί των πραγματικών παρατηρήσεων, X {\ displaystyle X} είναι αντ 'αυτού ένα στατιστικό τεστ. Ένα στατιστικό αποτέλεσμα της δοκιμής είναι μια βαθμωτή συνάρτηση όλων των παρατηρήσεων, όπως ο μέσος ή ο συντελεστής συσχέτισης, ο οποίος συνοψίζει τα χαρακτηριστικά των δεδομένων από έναν μόνο αριθμό, που σχετίζονται με μια συγκεκριμένη έρευνα. Ως εκ τούτου, το στατιστικό αποτέλεσμα της δοκιμής ακολουθεί μια κατανομή που καθορίζεται από τη λειτουργία που χρησιμοποιείται για να ορίσει ότι τη στατιστική δοκιμή και την κατανομή των παρατηρησιακών δεδομένων εισόδου.

Για την σημαντική υπόθεση στην οποία τα δεδομένα υποτίθεται ότι ακολουθούν την κανονική κατανομή, ανάλογα με τη φύση του στατιστικού αποτελέσματος και της βασικής υπόθεσης της στατιστικής δοκιμής, έχουν αναπτυχθεί διαφορετικές δοκιμές μηδενικής υπόθεσης. Μερικές τέτοιες δοκιμές είναι τα z-test για την κανονική κατανομή, t-test για την κατανομή t των σπουδαστών, f-test για την κατανομή f. Όταν τα δεδομένα δεν ακολουθούν κανονική κατανομή, μπορεί να είναι ακόμη δυνατόν να προσεγγιστεί η κατανομή αυτών των στατιστικών δοκιμών από μια κανονική κατανομή με την επίκληση στο θεώρημα κεντρικού ορίου για μεγάλα δείγματα, όπως στην περίπτωση του τεστ Χ στο τετράγωνο του Pearson.

Έτσι ο υπολογισμός μιας τιμής σημαντικότητας απαιτεί μηδενική υπόθεση, ένα στατιστικό αποτέλεσμα της δοκιμής (μαζί εάν αποφασίσει ο ερευνητής αποδίδει ένα one-tailed test ή two-tailed test), και τα δεδομένα. Παρόλο που ο υπολογισμός του δοκιμαστικού στατιστικού αποτελέσματος μπορεί να είναι εύκολος , για τον υπολογισμό της δειγματοληψίας διανομής κάτω από την μηδενική υπόθεση και, στη συνέχεια, τον υπολογισμό της αθροιστικής συνάρτηση κατανομής (CDF) είναι συχνά ένας δύσκολος υπολογισμός. Σήμερα, ο υπολογισμός αυτός γίνεται με τη χρήση στατιστικού λογισμικού, συχνά μέσω των αριθμητικών μεθόδων (και όχι με ακριβείς τύπους), αλλά στις αρχές και τα μέσα του 20ου αιώνα, αυτό γινόταν μέσω πινάκων τιμών, και με παρεμβολή ή παρέκταση τιμών σημαντικότητας από αυτές τις διακριτές τιμές. Αντί να χρησιμοποιεί έναν πίνακα με σημαντικές αξίες, ο Φίσερ, αντί να αναστρέψει το CDF, δημοσίευσε μια λίστα τιμών από το στατιστικό αποτέλεσμα της δοκιμής για τη συγκεκριμένη σταθερή τιμή σημαντικότητας.Αυτό αντιστοιχεί σε υπολογισμό της λειτουργία ποσοστημόριου (Αντίστροφος CDF).

Παραδείγματα

Εδώ μερικά απλά παραδείγματα που ακολουθούν, απεικονίζουν κάθε πιθανή παγίδα.

Μια ρίψη ενός ζευγαριού ζαριών

Ας υποθέσουμε ότι ένας ερευνητής ρίχνει ένα ζευγάρι ζάρια μια φορά και αναλαμβάνει μια μηδενική υπόθεση ότι τα ζάρια είναι αμερόληπτα, δεν είναι ζυγισμένα προς οποιοδήποτε συγκεκριμένο αριθμό / ρίψη / αποτέλεσμα. Το στατιστικό αποτέλεσμα της δοκιμής είναι «το άθροισμα των αριθμών ρίψεων» και είναι μονόπλευρο. Ο ερευνητής ρίχνει τα ζάρια και παρατηρεί ότι και τα δύο ζάρια δείχνουν 6, αποδίδοντας ένα στατιστικό τεστ του 12. Η p-αξία αυτού του αποτελέσματος είναι 1/36 (επειδή με την παραδοχή της μηδενικής υπόθεσης, το στατιστικό αποτέλεσμα της δοκιμής είναι ομοιόμορφα κατανεμημένο) ή περίπου 0,028 (το υψηλότερο στατιστικό τεστ από 6 × 6 = 36 πιθανά αποτελέσματα). Αν ο ερευνητής λάβει ένα επίπεδο σημαντικότητας 0,05, το αποτέλεσμα αυτό θα πρέπει να θεωρείται σημαντικό και η υπόθεση ότι τα ζάρια είναι δίκαια θα απορριφθεί.

Σε αυτή την περίπτωση, μια μονή ρίψη παρέχει μια πολύ αδύναμη βάση (δηλαδή, ανεπαρκή δεδομένα) για να σχεδιαστεί ένα έγκυρο συμπέρασμα σχετικά με τα ζάρια. Αυτό καταδεικνύει τον κίνδυνο με τυφλή εφαρμογή του p-value χωρίς να λαμβάνουν υπόψη το σχεδιασμό του πειράματος.

Πέντε κορώνες στην σειρά

Ας υποθέσουμε ότι ένας ερευνητής ρίχνει ένα κέρμα πέντε φορές στη σειρά και λαμβάνει μια μηδενική υπόθεση ότι το κέρμα είναι αμερόληπτο. Το στατιστικό αποτέλεσμα της δοκιμής του «συνολικού αριθμού των κεφαλών" μπορεί να είναι μονόπλευρο ή δίπλευρο: ένα μονόπλευρο τεστ αντιστοιχεί στο να δείξει εάν το κέρμα είναι προκατειλημμένο προς το μια πλευρά, αλλά μια δίπλευρη δοκιμή αντιστοιχεί στο να δείξει αν το νόμισμα είναι προκατειλημμένο όπως και να έχει. Ο ερευνητής στρέφει το κέρμα πέντε φορές και παρατηρεί κορώνα κάθε φορά (ΚΚΚΚΚ), αποδίδοντας ένα στατιστικό τεστ του 5. Σε μια μονόπλευρη δοκιμή, αυτή είναι η πιο ακραία τιμή από όλες τις πιθανές εκβάσεις, και παράγει μια τιμή p ( 1/2) 5 = 1/32 ≈ 0.03. Αν ο ερευνητής λάβει ένα επίπεδο σημαντικότητας 0,05, το αποτέλεσμα αυτό θα πρέπει να θεωρείται σημαντικό και η υπόθεση ότι το κέρμα είναι αμερόληπτο, θα πρέπει να απορριφθεί. Σε μια δίπλευρη δοκιμή, ένα στατιστικό τεστ μηδέν κεφαλών (ΓΓΓΓΓ) είναι εξίσου ακραίο και έτσι τα δεδομένα του ΚΚΚΚΚ θα δώσει μία ρ-τιμή 2 × (1/2) 5 = 1/16 ≈ 0,06, που δεν είναι σημαντική στο επίπεδο 0,05

Αυτό αποδεικνύει ότι καθορίζοντας μια κατεύθυνση (σε συμμετρικό στατιστικό τεστ) μειώνει στο μισό το p-value (αυξάνει τη σημασία) και μπορεί να σημαίνει τη διαφορά μεταξύ των στοιχείων που θεωρούνται σημαντικά ή όχι.

Eξάρτηση μεγέθους του δείγματος

Ας υποθέσουμε ότι ένας ερευνητής ρίχνει ένα κέρμα κάποιο αυθαίρετο αριθμό φορών (n) και αναλαμβάνει μια μηδενική υπόθεση ότι το κέρμα είναι αμερόληπτο. Το στατιστικό αποτέλεσμα της δοκιμής είναι ο συνολικός αριθμός των κεφαλών και είναι μια δίπλευρη δοκιμή. Ας υποθέσουμε ότι ο ερευνητής παρατηρεί κορώνα σε κάθε ρίψη, αποδίδοντας ένα στατιστικό τεστ του n και p-τιμή 2 / 2n. Αν το νόμισμα είχε γυρίσει μόλις 5 φορές, η p-τιμή θα ήταν 2/32 = 0,0625, η οποία δεν είναι σημαντική στο επίπεδο 0,05. Αλλά αν το κέρμα είχε γυρίσει 10 φορές, η p-τιμή θα είναι 2/1024 ≈ 0,002, η οποία είναι σημαντική στο επίπεδο 0,05.

Και στις δύο περιπτώσεις, τα στοιχεία δείχνουν ότι η μηδενική υπόθεση είναι ψευδής (δηλαδή, το νόμισμα δεν είναι αμερόληπτο με κάποιο τρόπο), αλλά αλλάζοντας το μέγεθος του δείγματος αλλάζει το p-value. Στην πρώτη περίπτωση, το μέγεθος του δείγματος δεν είναι αρκετά μεγάλο για να επιτρέψει τη μηδενική υπόθεση να απορριφθεί σε επίπεδο 0,05 (στην πραγματικότητα, η ρ-τιμή δεν μπορεί ποτέ να είναι κάτω από 0,05 για το παράδειγμα του κέρματος).

Αυτό αποδεικνύει ότι κατά την ερμηνεία των p-τιμών, πρέπει επίσης να γνωρίζουμε το μέγεθος του δείγματος, το οποίο περιπλέκει την ανάλυση.

Εναλλασσόμενη ρίψη νομίσματος

Ας υποθέσουμε ότι ένας ερευνητής ‘στρίβει’ ένα νόμισμα δέκα φορές και υποθέτει ότι το κέρμα είναι αμερόληπτο. Το στατιστικό αποτέλεσμα της δοκιμής είναι ο συνολικός αριθμός των όψεων του νομίσματος και είναι δύπλευρο. Ας υποθέσουμε ότι ο ερευνητής παρατηρεί εναλλασσόμενα ‘κορωνα’ και ‘γράμματα’ με κάθε γύρισμα (ΚΓΚΓΚΓΚΓΚΓ), αυτό δίνει ένα στατιστικό τεστ 5 και p-τιμή 1 (εντελώς συνηθισμένο), καθώς αυτός είναι ο αναμενόμενος αριθμός των ‘κεφαλών’.

Ας υποθέσουμε ότι αντί η στατιστική δοκιμή για αυτό το πείραμα ήταν ο «αριθμός των εναλλαγών» (δηλαδή, ο αριθμός των φορών όταν Κ ακολουθούμενη Γ ή Γ ακολουθούμενη Κ), η οποία και πάλι είναι δύπλευρη. Αυτό θα δώσει ένα στατιστικό τεστ του 9, το οποίο είναι ακραίο και έχει μια τιμή p 1/2 9 = 1/512 ≈ 0,0039 {\ displaystyle 1/2 ^ {9} = 1/512 \ περίπου 0,0039}. Αυτό θα πρέπει να θεωρείται εξαιρετικά σημαντικό, πολύ πέρα από το επίπεδο του 0,05. Αυτά τα στοιχεία δείχνουν ότι, όσον αφορά ένα στατιστικό τεστ, το σύνολο δεδομένων είναι εξαιρετικά απίθανο να έχει συμβεί κατά τύχη, αλλά αυτό δεν σημαίνει ότι το νόμισμα είναι προκατειλημμένο προς την κορώνα ή τα γράμματα.

Με το πρώτο στατιστικό τεστ, τα δεδομένα έδωσαν μία υψηλή τιμή ρ, υποδηλώνοντας ότι ο αριθμός των κεφαλών που παρατηρήθηκαν δεν είναι απίθανο. Με το δεύτερο στατιστικό τεστ, τα δεδομένα έδωσαν μια χαμηλή τιμή p, γεγονός που υποδηλώνει ότι το μοτίβο κτυπημάτων που παρατηρείται είναι πολύ, πολύ απίθανο. Δεν υπάρχει «εναλλακτική υπόθεση» (έτσι ώστε μόνο η απόρριψη της μηδενικής υπόθεσης να είναι δυνατή) και τα εν λόγω δεδομένα θα μπορούσαν να έχουν πολλές αιτίες. Τα δεδομένα μπορεί αντ 'αυτού να σφυρηλατηθούν, ή το νόμισμα μπορεί να γυρίσει από ένα μάγο που σκόπιμα εναλλάσσονται αποτελέσματα.

Αυτό το παράδειγμα δείχνει ότι η p-τιμή εξαρτάται πλήρως από το στατιστικό αποτέλεσμα της δοκιμής που χρησιμοποιείται και δείχνει ότι οι p-τιμές μπορούν μόνο να βοηθήσουν τους ερευνητές να απορρίψουν μια μηδενική υπόθεση και να μην εξετάσει άλλες υποθέσεις.

Ρίψη κέρματος

Κύριο άρθρο: Έλεγχος αν ένα νόμισμα είναι αμερόληπτο Ως παράδειγμα ενός στατιστικού τεστ, ένα πείραμα εκτελείται για να καθοριστεί εάν το ρίξιμο ενός νομίσματος είναι αμερόληπτο (ίση ευκαιρία εμφάνισης και των δύο όψεων) ή άδικα προκατειλημμένο (ένα από τα αποτελέσματα είναι πιο πιθανό από ό, τι το άλλο).

Ας υποθέσουμε ότι τα πειραματικά αποτελέσματα δείχνουν το κέρμα εμφανίζει κορώνα 14 φορές από τις 20. Η μηδενική υπόθεση είναι ότι το νόμισμα είναι δίκαιο, και το στατιστικό αποτέλεσμα της δοκιμής είναι ο αριθμός των κεφαλών. Εάν θεωρείται ένα σωστό μέσο δοκιμής, η τιμή p αυτού του αποτελέσματος είναι η πιθανότητα μιας δίκαιης προσγείωσης του κέρματος στην ‘κορώνα’ τουλάχιστον 14 φορές από τα 20 κτυπήματα. Η πιθανότητα μπορεί να υπολογιστεί από το διωνυμικό συντελεστή

{\begin{aligned}&\operatorname {Prob} (14{\text{ heads}})+\operatorname {Prob} (15{\text{ heads}})+\cdots +\operatorname {Prob} (20{\text{ heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60,\!460}{1,\!048,\!576}}\approx 0.058\end{aligned}}

Αυτή η πιθανότητα είναι η τιμή p, λαμβάνοντας υπόψη μόνο ακραία αποτελέσματα που ευνοούν την ‘κορώνα’. Αυτό ονομάζεται μονόπλευρη δοκιμή. Ωστόσο, η απόκλιση μπορεί να είναι σε οποιαδήποτε κατεύθυνση, ευνοώντας είτε κορώνα είτε γράμματα. Η δίπλευρη τιμή p, η οποία εξετάζει τις αποκλίσεις που ευνοούν είτε κορώνα ή γράμματα, μπορεί αντ 'αυτού να υπολογιστεί. Καθώς η διωνυμική κατανομή είναι συμμετρική για ένα αμερόληπτο νόμισμα, η τιμή p διπλής όψης είναι απλά δύο φορές το παραπάνω που υπολογίζει την τιμή p μονής όψης, η p τιμή δύο όψεων είναι 0.115.

Στο παραπάνω παράδειγμα:

   Μηδενική υπόθεση (Κ0): Το κέρμα είναι αμερόληπτο, με πιθανότητα (κορώνα) = 0,5
   Στατιστικό τεστ: Αριθμός κεφαλών
   Επίπεδο σημαντικότητας: 0,05
   O Παρατήρηση: 14 κορώνες από 20 κτυπήματα και
   Δίπλευρη p-αξία της παρατήρησης O δίνει  H0 = 2 * min (Prob (αρ. Των κεφαλών ≥ 14 κεφαλές), Prob (αρ. Των αρχηγών ≤ 14 κεφαλές)) = 2 * min (0,058, 0,978) = 2 * 0,058 = 0,115.

Σημειώστε ότι το Prob(όχι από το κεφάλι ≤ 14.) = 1 - Prob(Κανένα από τα κεφάλια ≥ 14) + Prob (όχι από το κεφάλι = 14.) = 1 - 0,058 + 0,036 = 0,978 Ωστόσο,η συμμετρία της διωνυμικής κατανομής κάνει ‘εναν περιττό υπολογισμό για να βρει το μικρότερο από τις δύο πιθανότητες. Εδώ, η υπολογισθείσα τιμή ρ υπερβαίνει το 0.05, οπότε η παρατήρηση είναι σύμφωνη με την μηδενική υπόθεση, καθώς πέφτει μέσα στην κλίμακα από ό, τι θα συνέβαινε το 95% του χρόνου ήταν το νόμισμα είναι στην πραγματικότητα αμερόληπτο. Ως εκ τούτου, η μηδενική υπόθεση σε επίπεδο 5% δεν απορρίπτεται. Παρά το γεγονός ότι το νόμισμα δεν έπεσε ομοιόμορφα, η απόκλιση από το αναμενόμενο αποτέλεσμα είναι αρκετά μικρή για να είναι συνεπής με την ευκαιρία.

Ωστόσο, εάν ληφθεί μια ακόμα κορώνα, η προκύπτουσα τιμή p (δύπλευρο) θα ήταν 0,0414 (4,14%). Η μηδενική υπόθεση απορρίπτεται όταν χρησιμοποιείται 5% περικοπή.

Διανομή

Όταν η μηδενική υπόθεση είναι αληθής, η κατανομή πιθανότητας της p-value είναι ομοιόμορφη στο διάστημα [0,1]. Αντιθέτως, εάν η εναλλακτική υπόθεση είναι αληθής, η διανομή εξαρτάται από το μέγεθος του δείγματος και την πραγματική τιμή της παραμέτρου που μελετάται. [1] [11]

Η κατανομή του p-τιμές για μια ομάδα μελετών ονομάζεται καμπύλη p [12] Η καμπύλη επηρεάζεται από τέσσερις παράγοντες: Η πιθανότητα ότι μια μελέτη εξετάζει μια πραγματική υπόθεση και όχι μια ψευδή υπόθεση, η ισχύς των μελετών πραγματικών υποθέσεων, τα ποσοστά σφάλματος τύπου 1, και η μεροληψία δημοσίευσης. [13] Μια p καμπύλη μπορεί να χρησιμοποιηθεί για να αξιολογήσει την αξιοπιστία της επιστημονικής βιβλιογραφίας, όπως την ανίχνευση προκατάληψης δημοσίευσης ρ-hacking. [12] [14]

Ιστορία

Οι υπολογισμοί του p-value χρονολογούνται από το 1770, όπου είχαν υπολογιστεί από τον Πιερ-Σιμόν ντε Λαπλάς: :[1]

Η τιμή p εισήχθη για πρώτη φορά επίσημα από τον Καρλ Πίρσον, με τη χρήση της «κατανομής χ²» χαρακτηρίζοντας την με το κεφαλαίο Π. Οι p-τιμές για την κατανομή χι-τετράγωνο (για διάφορες τιμές του χ^2 και βαθμούς ελευθερίας), τώρα χαρακτηρίζονται σαν P, υπολογίστηκε στο (Elderton 1902), τα οποία συλλέγονται στο (Pearson 1914, σελ. XXXI-XXXIII, 26-28, Πίνακας XII).

Η χρήση του p-value στις στατιστικές διαδόθηκε από τον Ρόναλντ Φίσερ, και διαδραματίζει κεντρικό ρόλο στην προσέγγισή του στο θέμα.Στο σημαντικό βιβλίο του, Στατιστικές Μέθοδοι Έρευνας Εργαζομένων (1925), ο Fisher προτείνει το επίπεδο ρ = 0,05, ή 1 προς 20 πιθανότητα υπέρβασης κατά τύχη, ως όριο για στατιστική σημασία, και ισχύει αυτό σε μια κανονική κατανομή (ως two-tailed test), αποδίδοντας έτσι τον κανόνα «δύο τυπικές αποκλίσεις» (επί μια κανονική κατανομή) για στατιστική σημασία (βλέπε 68-95-99.7 κανόνα).[2][α][3]

Στη συνέχεια υπολογίζει έναν πίνακα τιμών, παρόμοια με τον Elderton αλλά, κυρίως, αντιστρέφει τους ρόλους του χ^2 και του ρ. Δηλαδή, αντί για τον υπολογισμό ρ για διαφορετικές τιμές του χ^2 (και βαθμούς ελευθερίας n), που υπολογίζει τις τιμές των χ^2 που αποφέρουν καθορίζονται p-τιμές, ειδικά 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30 , 0.20, 0.10, 0.05, 0.02, και 0.01, που επέτρεψαν υπολογισμένες τιμές του χ^2 να συγκριθούν με αποκοπές και ενθάρρυνε τη χρήση του p-τιμές (ιδιαίτερα 0.05, 0.02 και 0.01) ως cutoffs, αντί της πληροφορικής και εκθέσεων οι ίδιοι ρ-τιμές. Το ίδιο είδος στη συνέχεια καταρτίζεται στο (Fisher & Yates 1938), το οποίο εδραίωσε την προσέγγιση..[3]

Ως ένα παράδειγμα της εφαρμογής του p-τιμές για το σχεδιασμό και την ερμηνεία των πειραμάτων, στο ακόλουθο βιβλίο του «ο Σχεδιασμός Πειραμάτων» (1935),ο Fisher παρουσίασε το πείραμα «κυρία γεύση τσάι», [22], το οποίο είναι το αρχετυπικό παράδειγμα του p- αξία..

Για την αξιολόγηση της αξίωσης μιας κυρίας ότι (Muriel Bristol) θα μπορούσε να διακρίνει από τη γεύση πώς το τσάι είναι έτοιμο (πρώτη προσθήκη του γάλακτος στο κύπελλο, στη συνέχεια, το τσάι, ή την πρώτη τσάι, στη συνέχεια, το γάλα), παρουσίασε διαδοχικά με 8 φλιτζάνια: 4 παρασκευασμένα ο ένας, 4 ο άλλος, και ζήτησε να καθοριστεί η προετοιμασία του κάθε φλιτζάνιου (γνωρίζοντας ότι υπήρχαν 4 του καθενός). Σε αυτή την περίπτωση, η μηδενική υπόθεση ήταν ότι δεν είχε καμία ιδιαίτερη ικανότητα, η δοκιμή ήταν το ακριβές τεστ του Fisher, και η τιμή p ήταν έτσι ο Fisher ήταν πρόθυμος να απορρίψει τη μηδενική υπόθεση (εξετάσουν το αποτέλεσμα πως είναι εξαιρετικά απίθανο να οφείλεται στην τύχη), αν όλα είχαν ταξινομηθεί σωστά. (Στο πραγματικό πείραμα, Μπρίστολ κατατάσσονται σωστά και τα 8 ποτήρια).

Ο Fisher επανέλαβε την p = όριο 0,05 και εξήγησε το σκεπτικό του, δηλώνοντας: [4]

Είναι σύνηθες και βολικό για πειραματιστές να λμβάνουν 5 τοις εκατό ως πρότυπο επίπεδο σημαντικότητας, με την έννοια ότι είναι διατεθειμένος να αγνοήσει όλα τα αποτελέσματα, τα οποία αδυνατούν να καταλήξουν σε αυτό το πρότυπο, και, με τον τρόπο αυτό, να εξαλείψει από την περαιτέρω συζήτηση, το μεγαλύτερο μέρος των διακυμάνσεων οι οποίες για τυχαίες αιτίες έχουν εισαχθεί σε πειραματικά αποτελέσματα τους. ισχύει επίσης και αυτό το όριο για το σχεδιασμό των πειραμάτων, σημειώνοντας ότι είχε μόνο 6 φλιτζάνια «είχαν παρουσιαστεί» (3 από το καθένα),μια τέλεια κατάταξη θα απέφερε μόνο μια τιμή p .που δεν θα είχε εκπληρώσει αυτό το επίπεδο σημαντικότητας. Ο Fisher υπογράμμισε επίσης τη frequentist ερμηνεία του p, καθώς το μακροχρόνιο ποσοστό των τιμών τουλάχιστον τόσο ακραία, όπως τα στοιχεία, αν υποτεθεί οτι η μηδενική υπόθεση είναι αληθής.

Σε μεταγενέστερες εκδόσεις, ο Fisher αρνήται ρητά τη χρήση του p-value για τη στατιστική συμπερασματολογία στην επιστήμη με τη μέθοδο Neyman-Pearson, το οποίο ο ίδιος αποκαλεί «διαδικασίες αποδοχής». Ο Fisher τονίζει ότι, ενώ το σταθερό επίπεδο, όπως 5%, 2% και 1% είναι βολικό, η ακριβής τιμή p μπορεί να χρησιμοποιηθεί, και η δύναμη των αποδεικτικών στοιχείων μπορεί και θα πρέπει να αναθεωρηθεί με περαιτέρω πειραματισμό. Αντίθετα, οι διαδικασίες λήψης απαιτούν μια σαφή απόφαση, αποδίδοντας μια αμετάκλητη δράση, και η διαδικασία με βάση το κόστος του λάθους, η οποία, υποστηρίζει, είναι ανεφάρμοστη στην επιστημονική έρευνα.

Παρεξηγήσεις

Παρά την πανταχού παρουσία του p-value δοκιμές, αυτό το συγκεκριμένο τεστ για τη στατιστική σημασία έχει επικριθεί για τις εγγενείς αδυναμίες και τις δυνατότητες για παρερμηνείες.

Τα δεδομένα που προκύπτουν από τη σύγκριση του p-value σε επίπεδο σημαντικότητας θα αποφέρoυν ένα από τα δύο αποτελέσματα: είτε η μηδενική υπόθεση απορρίπτεται, ή η μηδενική υπόθεση δεν μπορεί να απορριφθεί σε αυτό το επίπεδο σημαντικότητας (το οποίο, ωστόσο, δεν σημαίνει ότι η μηδενική υπόθεση είναι αληθής). Σε Φίσερ διατύπωση, υπάρχει η διάζευξη: χαμηλό p-value σημαίνει είτε ότι η μηδενική υπόθεση είναι αληθής και ενα εξαιρετικά απίθανο γεγονός έχει συμβεί ή ότι η μηδενική υπόθεση είναι ψευδής. Ωστόσο, οι άνθρωποι ερμηνεύουν το p-value με πολλούς λάθος τρόπους και προσπαθούν να βγάλουν άλλα συμπεράσματα από τις p-τιμές, τα οποία δεν ακολουθούν.

Το p-value δεν του επιτρέπει την αιτιολογία σχετικά με τις πιθανότητες υπόθεσης, που απαιτεί πολλαπλές υποθέσεις ή μια σειρά από υποθέσεις, με προηγούμενη κατανομή των πιθανοτήτων μεταξύ τους, όπως και στη στατιστική κατά Bayes. Εκεί, ο ένας χρησιμοποιεί μια πιθανότητα λειτουργία για όλες τις πιθανές τιμές της προηγούμενης αντί του p-value για μια ενιαία μηδενική υπόθεση.

Το p-value αναφέρεται μόνο σε μια μεμονωμένη υπόθεση, που ονομάζεται μηδενική υπόθεση και δεν κάνει αναφορά σε άλλες, ή μπορούν να αναχθούν σε άλλες υποθέσεις, όπως η εναλλακτική υπόθεση κατά Neyman–Pearson στατιστικό έλεγχο υποθέσεων. Σε αυτή την προσέγγιση, αντί να έχει μια απόφαση λειτουργία ανάμεσα σε δύο εναλλακτικές λύσεις, που συχνά βασίζεται σε ένα στατιστικό αποτέλεσμα της δοκιμής,υπολογίζει το ποσοστό των τύπου ι και τύπου ΙΙ λάθη ως α και β. Ωστόσο, η p-value είναι ένα στατιστικό αποτέλεσμα της δοκιμής που δεν μπορεί να συγκριθεί άμεσα με τα ποσοστά σφάλματος α και β. Αντ ' αυτού, τροφοδοτείται σε μια απόφαση λειτουργία.

Κριτικές

Οι επικριτές του p-τιμές επισημάνουν ότι το κριτήριο που χρησιμοποιείται για να αποφασίστει "στατιστική σημαντικότητα" βασίζεται σε μια αυθαίρετη επιλογή του επίπεδου (συχνά σε 0.05), και ότι αυτό το κριτήριο οδηγεί σε ένα ανησυχητικό αριθμό των ψευδώς θετικά τεστ. Αν το ορίζει κανείς ως ένα ψευδώς θετικό ποσοστό ως κλάσμα όλων των "στατιστικά σημαντικό" τεστ στο οποίο η μηδενική υπόθεση είναι αληθινή, διάφορα αντιρρήσεις δείχνουν ότι τουλάχιστον το 30 τοις εκατό για p τιμές που είναι κοντά στο 0.05. Για να φτάσουμε σε αυτό το νούμερο, πρέπει να κάνουμε κάτι σχετικά με την εκ των προτέρων πιθανότητα ότι η πραγματική επίδραση υπάρχει. Ωστόσο, το συμπέρασμα είναι ισχυρό, με την έννοια ότι, ανεξάρτητα από το τι πριν από τη διανομή είναι αξιωματικό, η μηδενική υπόθεση θα απορρίπτεται, κακώς, πολύ περισσότερο από το 5 τοις εκατό του χρόνου.[1][2][3]

Η Διαίρεση των αποτελεσμάτων σε σημαντικές και μη σημαντικές επιπτώσεις μπορεί να είναι ιδιαίτερα παραπλανητική.[4][4][5] Για παράδειγμα, η ανάλυση των σχεδόν πανομοιότυπων σύνολων δεδομένων μπορεί να οδηγήσει σε p-τιμές που διαφέρουν κατά πολύ σε σημασία.[5] Στην ιατρική έρευνα, p-τιμές ήταν μια σημαντική βελτίωση σε σχέση με προηγούμενες προσεγγίσεις, αλλά παρεξηγήσεις p-τιμές έχουν γίνει πιο σημαντικες, για λόγους όπως η αυξημένη στατιστική πολυπλοκότητα των δημοσιευμένων ερευνών.[4] έχει προταθεί ότι σε τομείς όπως η ψυχολογία, όπου μελέτες έχουν συνήθως χαμηλή στατιστικής ισχύος, χρησιμοποιοντας σημασία δοκιμή μπορεί να οδηγήσει σε αύξηση των ποσοστών σφάλματος.[5][6]

Η χρήση σημασία δοκιμές ως βάση για τη λήψη αποφάσεων έχει επίσης επικριθεί λόγω των ευρέως διαδεδομένων παρανοήσεων σχετικά με τη διαδικασία.[4][7][8] Για παράδειγμα, p-τιμές δεν εξετάζει την πιθανότητα η μηδενική υπόθεση να είναι αληθής ή ψευδής, και η επιλογή της σημασίας όριο δεν πρέπει να είναι αυθαίρετη αλλά να ενημερωθεί από τις συνέπειες των ψευδώς θετικό.[5] είναι δυνατό να χρησιμοποιούν Bayes παράγοντες για τη βαθμονόμηση, η οποία επιτρέπει τη χρήση των p-values, ενώ η μείωση του αντίκτυπου της p-value παρερμηνευεται, αν και αυτές οι προσεγγίσεις μπορουν να συμπεριληφθούν σε αυτό και άλλες προκαταλήψεις.[9]

Το p-value είναι ασυμβίβαστο με την πιθανότητα αρχή και εξαρτάται από το πείραμα σχέδιο, το στατιστικό αποτέλεσμα της δοκιμής. Αυτό είναι ο ορισμός του "πιο ακραία" στοιχεία εξαρτάται από τη μεθοδολογία δειγματοληψίας που υιοθετήθηκε από τον ερευνητή * [10] για παράδειγμα, η κατάσταση στην οποία ο ερευνητής αντιστρέφει το κέρμα 100 φορές, αποδίδοντας 50 κεφάλια, έχει μια σειρά από ακραία στοιχεία που είναι διαφορετικη από την κατάσταση στην οποία ο ερευνητής συνεχίζει να αναστρέφει το κέρμα μέχρι 50 κεφάλια επιτυγχάνονται απόδοση 100 κτυπήματα.[11]

Η ασυμβατότητα του p-value με την πιθανότητα αρχή δείχνει έλλειψη εννοιολογικής ακεραιότητας σε αυτή τη μεθοδολογία από τις προθέσεις του αναλυτή για την ανάλυση των δεδομένων κατά μήκος διαφορετικών συνταγών (πειραματικά σχέδια, η επιλογή της στατιστικής) .Αυτη που δίνει διαφορετικά αποτελέσματα για τα ίδια δεδομένα που αφορούν το ίδιο βασικό ερώτημα σχετικά με το νόμισμα, είναι η δικαιοσύνη. Αυτή η ανησυχία για το ζήτημα της συνεκτικής συλλογιστικής σχετικά με το πιθανό συμπέρασμα των οδηγήσεων Ρίτσαρντ Κοξ εχει ως αποτελεσμα να αναπτύξουν μια αξιωματική βάση για την πιθανότητα ππου εξαρτάται από την απαραίτητη συνοχή απαίτησης που οδηγεί τελικά σε Κανόνα Bayes.[12]

Ο Fisher πρότεινε ως p ένα άτυπο μέτρο αποδείξεων εναντίον της μηδενικής υπόθεσης. Κάλεσε τους ερευνητές να συνδυάζουν p στο μυαλό τους με άλλα είδη αποδεικτικών στοιχείων ενάντια σε αυτή την υπόθεση όπως την a priori ,το βάσιμο της υπόθεσης και τα σχετικά πλεονεκτήματα της και αποτελέσματα από προηγούμενες μελέτες.[13]

Σχετικές ποσότητες

Μια στενά συνδεδεμένη έννοια είναι η E-value,[1] η οποία είναι η αναμενόμενη πολλές φορές σε πολλαπλές δοκιμές που περιμένει κανείς για να αποκτήσεi ένα στατιστικό αποτέλεσμα της δοκιμής είναι τουλάχιστον τόσο ακραίο όσο αυτό που είχε παρατηρηθεί και εάν υποτεθεί ότι η μηδενική υπόθεση είναι αληθής. Η E-value είναι το προϊόν του αριθμού των δοκιμών και το p-value.

Notes

↑ It should be noted that a statistical hypothesis is conceptually different from a scientific hypothesis.

References

↑ Bhattacharya, Bhaskar; Habtzghi, DeSale (2002). «Median of the p value under the alternative hypothesis». The American Statistician (American Statistical Association) 56 (3): 202–6. doi:10.1198/000313002146. http://www.tandfonline.com/doi/abs/10.1198/000313002146. Ανακτήθηκε στις 19 February 2016.
↑ Wetzels, R.; Matzke, D.; Lee, M. D.; Rouder, J. N.; Iverson, G. J.; Wagenmakers, E. -J. (2011). «Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests». Perspectives on Psychological Science 6 (3): 291–298. doi:10.1177/1745691611406923.
↑ Babbie, E. (2007).
↑ Hubbard, R. (2004).
↑ Nuzzo, R. (2014). «Scientific method: Statistical errors». Nature 506 (7487): 150–152. doi:10.1038/506150a.
↑ ^6,0 ^6,1 Wasserstein, Ronald L.; Lazar, Nicole A. (2016). «The ASA's statement on p-values: context, process, and purpose». The American Statistician. doi:10.1080/00031305.2016.1154108.
↑ «Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact». Scientific American. April 16, 2015. http://www.scientificamerican.com/article/scientists-perturbed-by-loss-of-stat-tool-to-sift-research-fudge-from-fact/.
↑ «Toward evidence-based medical statistics. 1: The P value fallacy.». Annals of Internal Medicine 130 (12): 995–1004. 1999. PMID 10383371.
↑ Aschwanden, Christie (7 Μαρτίου 2016). «Statisticians Found One Thing They Can Agree On: It's Time To Stop Misusing P-Values». FiveThirtyEight.

[10] It should be noted that a statistical hypothesis is conceptually different from a scientific hypothesis.

[Bhattacharya2002-1] Bhattacharya, Bhaskar; Habtzghi, DeSale (2002). «Median of the p value under the alternative hypothesis». The American Statistician (American Statistical Association) 56 (3): 202–6. doi:10.1198/000313002146. http://www.tandfonline.com/doi/abs/10.1198/000313002146. Ανακτήθηκε στις 19 February 2016.

[2] Wetzels, R.; Matzke, D.; Lee, M. D.; Rouder, J. N.; Iverson, G. J.; Wagenmakers, E. -J. (2011). «Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests». Perspectives on Psychological Science 6 (3): 291–298. doi:10.1177/1745691611406923.

[3] Babbie, E. (2007).

[4] Hubbard, R. (2004).

[nature506-5] Nuzzo, R. (2014). «Scientific method: Statistical errors». Nature 506 (7487): 150–152. doi:10.1038/506150a.

[asa2016-6] 6,0 ^6,1 Wasserstein, Ronald L.; Lazar, Nicole A. (2016). «The ASA's statement on p-values: context, process, and purpose». The American Statistician. doi:10.1080/00031305.2016.1154108.

[7] «Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact». Scientific American. April 16, 2015. http://www.scientificamerican.com/article/scientists-perturbed-by-loss-of-stat-tool-to-sift-research-fudge-from-fact/.

[Goodman1999-8] «Toward evidence-based medical statistics. 1: The P value fallacy.». Annals of Internal Medicine 130 (12): 995–1004. 1999. PMID 10383371.

[9] Aschwanden, Christie (7 Μαρτίου 2016). «Statisticians Found One Thing They Can Agree On: It's Time To Stop Misusing P-Values». FiveThirtyEight.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[α]