Oświadczenie Amerykańskiego Towarzystwa statystycznego o stosowaniu wartości p – i co z tego wynika

Mar 2, 2017 23 min czytania statystyka, biostatystyka

Dziewiątego czerwca 2016 r. Amerykańskie Towarzystwo Statystyczne (ASA, Americal statistical Society), na łamach The American Statistician (TAS), wydało oświadczenie dotyczące stosowania wartości $p$ w badaniach naukowych i w literaturze naukowej. Pomimo że od wydarzenia tego nie upłynął nawet rok, artykuł został nazwany “Zaleceniami Amerykańskiego Towarzystwa Statystycznego” i doczekał się długiej dyskusji na łamach TAS, innych pism oraz na blogach internetowych.

Wydanie takiego oświadczenia (zaleceń) jest bezprecedensowe w historii ASA, co bliżej zostanie opisane poniżej @editorial. Podstawową przyczyną wydania go jest rosnący problem niskiej jakości badań oraz publikacji naukowych, które doprowadziły do tak zwanego kryzysu powtarzalności i odtwarzalności, również opisanego poniżej.

Diagnoza kryzysu nie jest prostym narzekaniem na obecne czasy oraz amatorów, którzy zajmują się tym, czym nie powinni, czyli statystyką. Nie jest też sugreuje też, że statystyka powinna pozostać w rękach kapłanów, czyli profesjonalnych statystyków. Według między innymi Rogera Penga, statystyka i programisty z John Hopkins Bloomberg School of Public Health, przyczyną obecnego stanu rzeczy jest ogromna dostępność danych oraz technik do ich przetwarzania, za którą nie idzie większa dostępność specjalistów lub wiedzy posiadanej przez nie-specjalistów, pozwalającej na zrozumienie problemu zarówno od strony naukowej jak i obliczeniowej @peng. Według Penga, jednym z problemów jest również fakt, że analiza danych to niezła zabawa! Każdy, kto nauczył się jakiegoś pakietu statystycznego (SPSS, Statistica, Medcalc itd.) czy języka programowania odpowiedniego do analiz statystycznych (R, Python, Julia) z całą pewnością ma za sobą długie godziny dłubania przy danych i produkowania nowych, kolorowych wykresów @peng.

Jednak analiza statystyczna to coś więcej niż przesuwanie bitów w komputerze. Wymaga ona zarówno znajomości technik analitycznych, ich zastosowań i ograniczeń, jak i głębokiej znajomości przedmiotu badań. Sam statystyk / analityk nie jest w stanie wyprodukować jakiejkolwiek istotnej analizy bez udziału eksperta dziedzinowego (medyka, biologa, ekonomisty, geologa, socjologa - lista jest znacznie, znacznie dłuższa). Ekspert dziedzinowy też zwykle nie jest w stanie przeprowadzić tej analizy samodzielnie lub też z pomocą studenta pobliskiej politechniki, który “trochę programuje”.

Z drugiej strony, ilość generowanych danych, często znakomitej jakości (choć, trzeba uczciwie przyznać, że często też bardzo kiepskiej), z których wiele wynika dla dziedziny naukowej, sprawia, że “ożenienie” naukowca z wysokiej klasy analitykiem jest wręcz niemożliwe. Trzeba więc podszkolić studenta politechniki, nauczyć się samemu lub pociągnąć zapałki i nieszczęśniczkę, która wyciągnie najktrótszą, wysłać na kurs i od tej pory znosić jej na biurko pendrivey z danymi.

Dla tych właśnie ludzi ASA przygotowała oświadczenie. Skorzystać z niego powinni również edytorzy pism naukowych, recenzenci artykułów, a nawet osoby wpływające na decyzje polityczne i biznesowe. W dalszej kolejności ta wiedza powinna przesiąknąć do wszystkich osób, które w swojej pracy analizują dane lub używają wyników tych analiz.

Zacznijmy jednak od źródła problemu.

Kryzys powtarzalności i odtwarzalności

Powtarzalność to możliwość uzyskania zgodnych z uzyskanymi w danym badaniu wyników przez innych badaczy w innym kontekście (w innym miejscu, innym czasie, przy użyciu danych pochodzących z innego źródła, przy użyciu innego sprzętu itd.), pod warunkiem, że badane są te same zjawiska w tej samej lub bardzo podobnej populacji. Odtwarzalność to możliwość uzyskania tych samych wynkiów przy pomocy tych samych danych.

Definicje użyte w tym artykule są, jak widać, dość wąskie - metrolog, inżynier czy fizyk użyliby zapewnie bardziej dokładnej, a jednocześnie szerszej definicji. Dla nas jednak, podobnie jak dla innych osób zajmujących się problemem powtarzalności i odtwarzalności w kontekście analizy statystycznej, są one wystarczające.

Kryzys powtarzalności i odtwarzalności polega na tym, że wiele (większość? @iannous) wyników uzyskiwanych przez badaczy i raportowanych w pismach naukowych jest nie do odtworzenia zarówno przez innych, niezależnych badaczy, jak i przez samych naukowców, którzy jako pierwsi uzyskali raportowany wynik.

Kryzys ten jest najlepiej widoczny w psychologii i medycynie, gdzie oprócz wielu oszustw i zmyślonych wyników badań natkniemy się na wiele publikacji, które pomimo zachowania pozorów wysokej jakości, pstulują odkrycia nie do odtworzenia przez niezależnych badaczy (@NYU [@natureblog; @Shanks] i referencje tam zawarte). W 2016 pismo Nature przeprowadzono sondaż dotyczący jakości badań naukowych w których respondentami byli sami naukowcy. Wyniki są, mówiąc potocznie, powalające. Ogólnie, 70% respondentów spotkało się z sytuacją, w której nie byli oni w stanie replikować wyników badań uzyskanych przez innych naukowców, a 50% nie było w stanie zreplikować swoich własnych badań. Wyniki te różnią się ze względu na dziedzinę naukową i w przypadku medycyny proporcje te są odpowiednio 70% i 60% @baker.

John P. A. Ioannidis, profesor w Uniwersytecie Stanford, zajmuje się tym problemem od wielu lat. W jego ocenie (popartej bardzo szczegółowymi analizami) większość efektów raportowanych w medycznych pismach naukowych jest albo przeszacowana @ioannidisOverestimated, albo bezużyteczna @ioannidisNotuseful albo wręcz fałszywa @ioannidisFalse.

ASA na ratunek

Amerykańskie Towarzystwo Statystyczne powstało w listopadzie 1839 roku w Bostonie i jest drugim najstarszym stowarzyszeniem zawodowym w USA (najstaszym jest Massachusetts Medical Society). W swojej blisko dwustuletniej historii oświadczenie dotyczące zasad stosowania metody statystycznej ASA wydało …tylko raz, w 2016 r. Wcześniej, w 2010 roku ASA wypowiedziało się na temat kontroli powyborczych a w 2014 na temat stosowalności modeli VAM (value added model) w badaniach edukacyjnych, jednak te stanowiska były odpowiedzią na konkretne wydarzenia lub decyzje polityczne. Oświadczenie dotyczące sposobu stosowania i rozumienia metod statystycznych wydane w 2016 jest przełomowe w historii tego stowarzyszenia.

Motywacją do jego wydania był opisany powyżej kryzys. Ostatnie dziesięciolecie obfitowało w wiele artykułów w bardzo prestiżowych pismach oraz na stronach internetowych i blogach znakomitych statystyków, w których opisywano ten problem i ,,bito na alarm”. W związku z tym, w 2014 roku z inicjatywy Rady ASA poproszono prof. Wassersteina, który był odpowiedzialny za stanowisko w sprawie VAM, o koordynację prac nad oświadczeniem w sprawie stosowania i interpretacji metod statystycznych. Członkowie, których Wasserstein poprosił o uczestnictwo w pracach różnili się znacznie w poglądach. Tak tak! statystyka nie jest do końca dziedziną ścisłą, w której wszystko można matematycznie udowodnić – jest w niej miejsce na dyskusję. Poglądy te objemowały podejścia, których autorzy uważali, że obecnie stosowaną metodologię należy całkowicie porzucić, po tych, którzy uważają, że nic złego się nie dzieje i że należy po prostu ,,uszczelnić” stosowanie statystyki.

Oświadczenie, które ostatecznie ujrzało światło dzienne jest w związku z tym bardzo konserwatywne @ASA. Jego zakres został ograniczony tylko i wyłącznie do stosowalności i interpretacji wartości $p$. Identyfikuje ono wiele zagrożeń związanych z (nad)używaniem tego obiektu ($p$), jednak nie proponuje drastycznych zmian w metodologii naukwej, a w szczególności nie postuluje zmiany paradygmatu czy stosowania nowej metodologii. Motywacja do takiego podejścia podana przez autorów jest bardzo przekonująca: w ogromnym skrócie i uproszczeniu chodzi o to, że każda inna metodologia ma potencjał do podobnych błędów i nadużyć.

Jak zwykle w takich sytuacjach, chyba żaden z członków grupy pracującej nad oświadczeniem nie jest usatysfakcjonowany. Jedni uważają, że powinno ono być znacznie bardziej zdecydowane, inni, że idzie za daleko. Z tego powodu ASA zaproponowała członkom grupy oraz innym statystykom dyskusję online, która również odbyła się na łamach TAS. W tej chwili dyskusja ta obejmuje 15 oświadczeń, w tym 2 artykuły i jest kopalnią wiedzy o statystyce i metodologii naukowej.

Żeby zrozumieć zalecenia ASA należy najpierw wrócić do pojęcia wartości $p$.

Czym jest wartość $p$?

W metodologii statystycznej punktem wyjścia jest zawsze model statystyczny. Modelem tym jest zwykle założenie dotyczące pupulacji, z której pochodzi nasza próba (populacja to ogólnie abstrakcyjny lub realny zbiór wszystkich obiektów, którymi zajmujemy się w naszym badaniu, a próba to konkretne wartości wylosowane z tej populacji). Modelem (lub raczej jego znaczącą częścią) wzrostu kobiet w Polsce może być na przykład stwierdzenie ,,wzrost Polek ma rozkład normalny”, czyli dzwonowy. W innym kraju, który nie jest tak jednorodny etnicznie jak Polska rozkład ten mógłby być bimodalny (mający dwa maksima) lub jeszcze inny.

Drugim elementem jest hipoteza zerowa, oznaczana zwykle jako $H_0$. Hipoteza zerowa to nasze założenie, które przyjmuję przed analizą danych. Zwykle jest to założenie, które będziemy próbowali odrzucić i które, w związku z tym, w naukach medycznych, powinno być konserwatywne. Nie chodzi tu o konserwatyzm polityczny, ale o podejście, w którym za porządany stan rzeczy uznajemy to co jest teraz i zmienić go jesteśmy skłonni tylko po uzyskaniu niezbitych dowodów, że ,,nowe jest lepsze”. Czyli hipoteza zerowa zwykle będzie czymś w rodzaju ,,nowy lek nie jest lepszy niż stary”, ,,grupa eksperymentalna nie różni się od grupy kontrolnej”, ,,nowa polityka nie poprawiła zdrowia Polaków w zakresie wyleczalności nowotworu prostaty”.

Po ustaleniu modelu i hipotezy zerowej przyglądamy się wylosowanej próbie. Metody rachunku prawdopodobieństwa pozwalają nam na podstawie modelu wyliczyć prawdopodobieństwo, że uzyskamy z losowej próby konkretny lub jeszcze bardziej ekstremalny wynik przy założeniu prawdziwości hipotezy zerowej.

Przyjmimy na przykład że średni wzrost Polek (wszystkich żyjących, nie tylko tych, które są reprezentowane w naszej próbie) wynosi $164{,}2$ cm – będzie to nasza hipoteza zerowa ($H_0$). Wybierzmy teraz spośród wszystkich kobiet w Polsce (populacja) tylko 36 (próba) i wyliczmy średnią wzrostu tylko dla tej próby. Powiedzmy, że otrzymaliśmy wynik $162{,}1$ cm (średnia z próby) oraz odchylenie standardowe $15{,}8$ cm. Posługując się odpowiednimi metodami matematycznymi możemy wyliczyć, że prawdopodobieństwo otrzymania takiego lub bardziej ekstremalnego wyniku wynosi $0{,}125$. ,,Bardziej ekstremalny” w naszym przypadku oznacza poniżej $162{,}1$ cm lub powyżej $167{,}2$. Czyli jeżeli nasze założenia są prawdziwe, to możemy oczekiwać, że średnia z co ósmej 36-osobowa próby kobiet będzie gdzieś w obszarze, który określiliśmy jako wartości bardziej ekstremalne. Uzyskane prawdopodobieństwo $0{,}125$ jest właśnie wartością $p$.

Załóżmy teraz, że z naszej próby uzyskaliśmy wartość $183{,}9$ cm przy odchyleniu standartowym $11{,}3$ cm. Wtedy wartość prawdopodobieństwa otrzymania takiej, lub bardziej ekstremalnej wartości (czyli poniżej $158{,}5$ lub powyżej $169{,}9$), przy założeniu prawdziwości hipotezy zerowej i modelu, wynosi trochę powyżej $0{,}001$. Czyli możemy się spodziewać, że co tysięczna próba da nam średnią w obszarze, który określiliśmy jako wartości ,,bardziej ekstremalne” pod warunkiem, że nasze założenia są prawdziwe. Uzyskana liczba $0{,}001$ jest również wartością $p$, uzyskaną z tej samej próby, tylko przy innych założeniach (innej hipotezie zerowej).

Powiedzmy sobie czym jest wartość $p$ raz jeszcze, podsumowując wszystko co napisaliśmy powyżej. Wartość $p$, to prawdopodobieństwo, że, zakładając prawdziwość hipotezy zerowej oraz modelu statystycznego, uzyskana w badaniu wartość statystyki (np. średnia) będzie taka sama jak wartość uzyskana z badanej próby lub bardziej ekstremalna.

Podkreślmy też, że ta intrepretacja zakłada potencjalne wielokrotne powtarzanie eksperymentu (wielokrotne losowanie 36-osobowej próby i obliczanie średniej).

W przypadku pierwszej hipotezy zerowej wartość $p$ wyniosła $0{,}125$, czyli możemy spodziewać się, że co ósma próba da nam taki wynik. Nie jest to nic nadzwyczaj rzadkiego, więc, posługując się przede wszystkim zdrowym rozsądkiem, stwierdzimy, że wzrost kobiet w analizowanej przez nas próbie nie daje podstaw, żeby sądzić, iż coś jest z naszymi założeniami nie tak (w szczególności, że hipoteza zerowa jest nieprawdziwa i należy ją odrzucić).

W przypadku drugiej hipotezy otworzymy oczy ze zdziwienia: jak to? tylko jedna na tysiąc losowych prób da taką lub bardziej ekstremalną wartość? coś musi być nie tak! Stoimy więc przed wyborem: albo zaakceptujemy, że mamy do czynienia z wyjątkowym zbiegiem okoliczności, albo stwierdzimy, że coś jest nie tak z naszymi założeniami i je po prostu odrzucimy. Bardziej zdroworozsądkowym postępowaniem jest to drugie.

Co mogło być nie tak z założeniami w drugim przypadku?

Hipoteza zerowa może być nieprawdziwa - może po prostu Polki są średnio wyższe niż $162{,}2$ cm?
Może mamy nie takie dane, to znaczy próba pochodziła ze Szwecji a nie z Polski?
Może dobór próby nie był losowy? Może po prostu zmierzyliśmy wzrost 36 zawodniczek podczas turnieju koszykówki?
Być może rozkład nie jest normalny, tylko skośny, przesunięty w kierunku wyższych wartości w związku z czym średnia jest niższa niż najczęstsza wartość? W takim przypadku samo $p$ ma nieprawidłową wartość.
A może stało się coś jeszcze innego?

Zwykle w takim przypadku jak ten powiemy, że odrzucamy hipotezę zerową. Zwróćmy jednak uwagę, że $H_0$ nie jest jedyną przyczyną, która może spowodować małą wartość $p$. Z drugiej strony, gdy mamy naruszone warunki modelu przyjętego w analizie, również duża wartość $p$ nie może być nierpawidłowa.

Powyższe rozważania na temat wielkości wartości $p$ oraz podejmowania decyzji na tej podstawie nazywamy procedurą testowania hipotezy. Wspólczesna statystyka opiera się na tym właśnie mechanizmie. Ogólnie przyjęło się, że jeżeli $p<0{,}05$ to hipotezę zerową odrzucamy, a jeżeli nie to jej nie odrzucamy. Taki automatyczny punkt odcięcia stosowany w zautomatyzowanej procedurze testowania hipotez jest, zdaniem ASA, jedną z przyczyn wspólczesnych problemów z badaniami ilościowymi. Jedną z konsekwencji przyjęcia tego (lub innych) punktu odcięcia jest pojęcie ,,istotności statystycznej”, czyli pewnego kryterium decyzyjnego opartego na wartości $p$.

Punkt ten zakończmy następującą obserwacją: to wszystko jest strasznie zawiłe i nienintuicyjne!

Zalecenia ASA

Przejdźmy teraz do omówienia konkretnych zaleceń Amerykańskiego Towarzystwa Statystycznego. Jak się przekonamy, nie wprowadzają one rewolucji, nie wzywają do zerwania z istniejącymi metodologiami i przyjęcia innych oraz nie potępiają w czambuł wszystkich stosujących obecne metody. ASA wyjaśnia jakie są prawidłowe interpretacje wartości $p$, a jakie nieprawidłowe, nawołuje do prawidłowego konstruowania badań naukowych oraz radzi, jak zmniejszyć negatywny wpływ wad stosowania wartości $p$ na prezentowane wyniki badań oraz proponuje, aby w przypadku wątpliwości szukać pomocy u specjalistów (rada ta nie jest obca lekarzom :)).

(1) Wartość $p$ może wskazywać jak bardzo dane są niezgodne z przyjętym modelem statystycznym

W punkcie poprzednim napisaliśmy, że do analizy danych podchodzimy z pewnym bagażem. Tym bagażem są pewne założenia dotyczące zarówno populacji (rozkład) jak i próby (czy próba jest losowa w kontekście badanego problemu) oraz hipoteza zerowa. Im mniejsza jest wartość $p$, tym więcej mamy dowodów przeciwko zgodności danych z założeniami. Jak widzieliśmy wcześniej, ta niezgodność może mieć różne źródła: może to być błędna hipoteza zerowa, mogą to być błędne założenia dotyczące populacj, a może po prostu próba nie była dobrana losowo (koszykarki) dla danego pytania. Co ciekawe, gdybyśmy zadali inne pytanie, to próba mogłaby się stać losowa - przykładem takiego pytania jest ,,czy średni wzrost koszykarek w Polsce jest zgodny ze średnim wzrostem Polek”. Dlaczego statystycy z ASA napisali że ,,może wskazywać”, a nie ,,wskazuje”? Dlatego że na przykład dane mogą być niezgodne z modelem, ale wartość $p$ tego nie wychwyci. Może też zajść sytuacja odwrotna: wszystkie założenia będą prawidłowe, $H_0$ będzie odpowiadało prawdziwemu parametrowi populacji, a wartość $p$ i tak będzie mała. Sytuacja ta nie tylko może, ale i wręcz musi od czasu do czasu się wydarzyć.

(2) Wartości $p$ nie mierzą prawdopodobieństwa prawdziwości hipotezy zerowej ani prawdopodobieństwa, że dane zostały wygenerowane jedynie w wyniku działania przypadku

Wiemy to już od ponad 100 lat, jednak potrzeba nadania wartości $p$ jakiegoś konkretnego, intuicyjnego znaczenia jest na tyle silna, że stwierdzenia o prawdopodobieństwie prawdziwości hipotezy zerowej lub generowania danych przez przypadek są bardzo powszechne i rzadko wychwytywane przez recenzentów, edytorów i korektorów artykułów naukowych. Jak pisze ASA, wartość $p$ jest stwierdzeniem dotyczącym danych w odniesieniu do pewnego wyjaśnienia, a nie stwierdzeniem dotyczącym samego wyjaśnienia. Moim zdaniem jest to znakomite podsumowanie problemu zawartego w tym punkcie.

(3) Wnioski naukowe nie powinny być wyciągane a decyzje polityczne i biznesowe podejmowane jedynie na podstawie tego czy wartość $p$ przekracza pewnien z góry ustalony próg, czy nie

Ten punk rozpocznę od osobistego wspomnienia. Nie tak dawno, na jednej z konferencji napominano jedną z osób prezentującą, żeby nie podawała prezycyjnej wartości $p$, bo ,,albo coś jest, albo nie jest większe od $0{,}05$”. Niestety pozycja naukowa osoby napominającej była tak duża, że nie udało mi się przebić z głosem sprzeciwu. To, że wartość $p$ przekroczy pewien próg nie sprawia automatycznie, że dana hipoteza jest prawdziwa. Zwykle ostatecznym celem badania naukowego jest podjęcie pewnej decyzji - czy wprowadzić lek do obiegu?, czy dana terapia jest skuteczna? czy trzeba wybudować więcej szpitali?. Jest to prawdą nawet w przypadku badań podstawowych - tam decyzją którą podejmujemy jest przyjęcie czegoś jako obowiązującej wiedzy, której będziemy używali w rozumowaniach oraz tworzeniu modeli, na przykład modeli fizjologicznych. Żeby podjąć jakąś decyzję nie możemy polegać jedynie a pewnym arbitralnym punkcie odcięcia, a musimy rozważyć pełen kontekst danego badania czy danej analizy. Dokument ASA wymienia następujące elementy:

konstrukcja badania,
jakość pomiarów (ogólnie jakość danych),
zewnętrzne dowody dotyczące przedmiotu badania, tzn. wiedza nie pochodząca z danego badania, ale dostępna badaczowi,
prawdziwość założeń które są podstawą analizy.

Automatyczne odcięcie na poziome $0{,}05$, czy na jakimkolwiek innym poziomie jest dowodem na niezrozumienie procesu naukowego, a w szczególności podstaw analizy statystycznej.

Ostatnia uwaga na ten temat. Nie znaczy to wcale, że nie mamy używać punktów odcięcia. Chodzi o to, że są one jednym z wielu elementów podejmowania decyzji i samo ustalenie ,,istotności statystycznej” absolutnie nie może być podstawą jakiejkolwiek decyzji.

(4) Prawidłowe wnioskowanie wymaga pełnego raportowania i pełnej przejrzystości

Ten punkt jest moim zdaniem jednym z najtrudniejszych do spełnienia zarówno przez autorów artykułów naukowych jak ich recenzentów oraz edytorów pism naukowych. Jeszcze trudniej będzie przekonać firmy działające w otoczeniu medycyny, takich jak na przykład firmy farmaceutyczne.

Prawie wszystkie osoby czytające ten artykuł, z jego autorem na czele, mają lub będą miały na sumieniu grzech przeciwko temu zaleceniu.

Pojęcia takie jak ,,wykopki w danych” (data dredging), ,,chodzenie z wędką” na ryby (data fishing), pogoń za $p$ ($p$-chasing) czy hakowanie wartości $p$ ($p$-hacking) są znane chyba wszystkim. Oznaczają one po prostu poszukiwanie w danch efektu, któremu w jakiejś analizie można przypisać $p<0{,}05$. Tak długo dręczymy dane, aż się do czegoś, czegokolwiek, przyznają. Takie podejście wynika z podchodzenia do danych bez żadnej hipotezy, mając na celu jedynie znalezienie ,,czegokolwiek”.

W tym przypadku wszyscy chyba się zgodzimy, że takie podejście jest nieakceptowalne i że sami nigdy byśmy tego nie zrobili. Dlaczego więc mówię, że wszyscy jesteśmy/będziemy winni?

Ano dlatego, że nawet w przypadku, gdy podchodzimy do analizy statystycznej z konkretnym pytaniem, standardowym podejściem jest wykonanie lu analiz i przedstawienie tylko niektórych z nich, konkretnie tych, w których $p<0{,}05$. Jest to bardzo powszechne i mało kto uważa takie podejście za błędne. Wyobraźmy sobie abstrakt w którym piszemy, że przeprowadziliśmy regresję jednoczynnikową, z której nic nie wynikało (w sensie $p$, które jest mniejsze niż pewien próg), wieloczynnikową, z której nic nie wynikało, potem podzieliliśmy dwie ze zmiennych niezależnych na kwantyle, przekodowaliśmy zmienną zależną na binarną względem pewnego punktu odcięcia (np. nadciśnienie vs. jego brak), przeprowadziliśmy wieloczynnikową regresję logistyczną przy użyciu tych zmiennych no i w końcu nam wyszło, że istnieje istotny statystycznie efekt. Artykułu z takim abstraktem nie opublikowalibyśmy w żadnym liczącym się piśmie.

Uwaga! EFEKT MOŻE ISTNIEJE! I może nawet analiza tego typu jest wartościowa i absolutnie prawidłowa. Niemniej jednak nie możemy ocenić jakości tego wyniku, jeżeli nie będziemy znali wszystkich analiz wykonanych w danym badaniu. Jeżeli w artykule podajemy tylko te wartości $p$, które spełniają pewne kryteria i opisujemy tylko te analizy, które do tych wartości doprowadziły, to jesteśmy winni.

Ile razy czytaliśmy artykuł, w którym autorzy prezentowali zupełnie ,,odjechaną” analizę i myśleliśmy sobie ,,ciekawe dlaczego zrobiliście taką analizę – pewnie nic wam nie wychodziło”. Przy okazji, samo myślenie ,,nic nie wychodziło” jest obciążone błędem. Wynik z wartością $p\geq 0{,}05$ równie ważny i wartościowy jak wynik z $p<0{,}05$.

Wydaje mi się, że ten punkt będzie najtrudniejszy do spełnienia, można nawet argumentować, że jest niemożliwy do spełnienia. Wynika to z natury ludzkiej i z faktu, że naukowcy też muszą konkurować i zarabiać na życie. Zastosowanie tej zasady musiałby być poprzedzone całkowitą zmianą struktury badań naukowych, sposobu ich finansowania i kontrolowania. I wcale nie jest jasne, czy musiałoby to doprowadzić do zwiększenia wymagań. Być może jest zupełnie odwrotnie, ale jest to temat na zupełnie inny artykuł, napisany przez być może zupełnie innego autora.

(5) Wartość $p$, lub też sama ,,istotność statystyczna”, nie mierzy wielkości efektu ani jego ważności

Ta rekomendacja jest z całą pewnością łatwiejsza do wprowadzenia w życie – wystarczy po prostu nie pisać pewnych rzeczy i nie wyciągać pewnych wniosków.

Jedną z przyczyn, dla których wartość $p$ może być mała jest po prostu wielkość próby. Im większa próba, tym niższe wartości $p$ otrzymujemy. Gdybyśmy rozważyli hipotetyczne badanie, które opisaliśmy powyżej, a które dotyczyło wzrostu kobiet, i zamiast 36 pań wylosowalibyśmy 1000, to różnica średniej uzyskanej w próbie byłaby istotna statystycznie. Czy byłaby istotna praktycznie? Może tak, a może nie, zależy to od celu badania. Gdybyśmy próbę zwiększyli do $10000$ to już różnica $2$ mm (np. $164{,}2$ vs $164{,}4$) byłaby istotna statystycznie (w tym konkretnym przypadku obliczenia numeryczne mówią, że moglibyśmy przyjąć $p=0$). Z całą pewnością dwumilimetrowa różnica wzrostu nie ma żadnego znaczenia klinicznego czy społecznego, mimo bardzo wysokiej istotności statystycznej.

Na konferencji matematycznej w której uczestniczyłem w zeszłym roku jeden z młodych, bardzo dobrych polskich statystyków, referując swoje wyniki powiedział, że uzyskane krzywe Kaplana-Meyera różnią się od siebie. Na pytanie z sali ,,skąd to wiadomo”, statystyk ten odopwiedział ,,widzę to oczami” co oczywiście wywołało niewielką burzę na sali. Jednak z całą pewnością prezentujący miał rację (czego niestety precyzyjnie nie wyjaśnił) - problem dotyczył genetyki i dużych danych (big data). Przy takich wolumentach danych nawet różnice, których NIE widać oczami stają się istotne statystycznie, a co dopiero takie, w których to widać gołym okiem! Nie było sensu przeprowadzac testu statystycznego i liczyć wartości $p$, bo i tak z góry wiadomo co wyjdzie.

Podsumowując: to, że coś jest istotne statystycznie nie oznacza, że jest ważne albo istotne klinicznie, społecznie czy biznesowo.

Oprócz tej sytuacji zdarza się często, że wartość $p$ używana jest do stworzenia swoistego ,,rankingu” efektów. Im niższe $p$, tym większy raportowany efekt. I tak na przykład badacze z satysfakcją stwierdzają, że wartość $p$ w ich badaniach jest niższa niż w badaniach kolegów, przez co ich efekt jest większy/lepiej widoczny. Zdarza się tak na przykład przy porównywaniu metod predykcyjnych - jeżeli moja metoda ma $p =0{,}006$, a twoja $p=0{,}04$, to moja metoda lepiej przewiduje, powiedzmy zgon.

Z drugiej strony inni badacze mogą być zdruzgotani opisując grupy użyte w badaniu (np. badaną i kontrolną). Bardzo często podczas tego opisu porównuje się je pod względem wieku, składu (płci), masy ciała itd. Zdarza się, że pomimo najlepszych intencji i losowego dobierania grup, przy każdej zmiennej dostajemy $p<0{,}05$ i w związku z tym musimy stwierdzić, że grupy były różne. Czyli co? Całe badanie do wyrzucenia?

Błędem popełnianym w obu sytuacjiach jest używanie wartości $p$ do zadania, do którego nie zostały one stworzone. Jeżeli chcemy porównać metody predykcyjne, to powinniśmy użyć metod do tego skonstruowanych, czyli na przykład narysować krzywą ROC, policzyć jej pole, znaleźć lub zapostulować punkty odcięcia, obliczyć czułość, swoistość, dodatnią i negatywną wartość predykcyjną itd. Metoda, która w jakieś grupie w jakiejś analizie statystycznej ma mniejsze $p$ niż inna metoda może mieć znacznie gorsze wyniki predykcyjne!

W drugim przypadku tak naprawdę nie powinno nas interesować czy $p<0{,}05$, tylko czy różnice między grupami są istotne w kontekście zadanego pytania. Jak już mówiliśmy, sama wielkość grupy może sprawić, że wartość $p$ spadnie poniżej pewnego poziomu, choć różnica w, powiedzmy, średnich nie ma żadnego znaczenia dla naszego badania. Zamiast pokazywać wartości $p$ dla kolejnych testów statystycznych powinniśmy, zgodnie z nowymi trendami statystycznymi, pokazać wielkość nazwaną, nomen omen, ,,wiekością efektu” (effect size). Dzięki temu możemy stwierdzić, czy różnica pomiędzy grupami jest ważna, czy nie. Jeżeli wszystkie strony, autor, recenzent i edytor, będą mieli tę samą wiedzę dotyczącą tej wielkości (tj. effect size), to z całą pewnością nie dojdzie do nieporozumień i znaczenie oraz powaga zmierzonych różnic nie będą wymagały dłuższych negocjacji.

Zagadnienie wielkości ,,effect size” jest na tyle szerokie, że nie zmieści się w niniejszym artykule, ale na tyle wązkie, że można szybko zapoznać się z zasadami jego stosowania (choć niekoniecznie obliczania w każdym możliwym przypadku) @effectsize.

(6) Wartość $p$ sama w sobie nie daje wystarczających podstaw do oceny dowodów dotyczących hipotezy zerowej

W tym punkcie powracamy do puntku pierwszego, w którym ASA stwierdza, że mała wartość $p$ dostarcza dowodów przeciwko hipotezie zerowej oraz ogółowi innych założeń dotyczących całego badania. Bieżący punkt precyzuje problem: może i $p$ dostarcza dowodów przeciwko, ale te dowody nie są wystarczające! Jest to jeden z elementów oceny wyników badania, który w żadnym sensie nie jest rozstrzygający. Można by się zastanowić dlaczego ASA uznało za niezbędne wyszczególnienie tego elementu. Być może jest to związane z faktem, że błędy popełnione przez instytucje i firmy, które posługiwały się *wyłącznie* argumentami opartymi na wartości $p$ miały w przeszłości koszmarne rezultaty. W dyskusji nad oświadczeniem Greenland i inni @greenland podaje znakomity przykład. W 2011 roku firma Matrixx Initiatives przegrała proces w tego typu sprawie. Firma nie ujawniła, że środek na przeziębienie *Zicam* może powodować utratę węchu i tym samym naruszyła jeden z przepisów regulujący badania nad nowymi lekami. Jedynym powodem, dla którego Matrixx Initiatives tego nie zrobiła, był fakt, że związek pomiędzy utratą węchu a przyjmowaniem *Zicamu* nie osiągnął istotności statystycznej. W pierwszej instancji pozew przeciwko producentowi leku oddalono, jednak Sąd Apelacyjny zmienił wyrok, stwierdzając że istotność statystyczna nie jest ani wymagana, ani konieczna do oceny naukowej lub praktycznej wartości zbioru obserwacji.

ASA w swoim oświadczeniu pisze, że wartość $p$ bliska $0{,}05$ stanowi słabą przesłankę przeciwko hipotezie zerowej, a wartość powyżej $0{,}05$ nie stanowi argumentów za hipotezą alternatywną. Tego punktu naukowcy Matrixx Initiatives nie zrozumieli.

Podsumowanie

Analizując całość oświadczenia ASA możemy dojść do wniosku, że nie ma w nim nic takiego. Faktycznie, ASA nie proponuje rewolucji w analizie wyników badań naukowych, nie proponuje odejścia od stosowania standardowych procedur statystycznych ani nie potępia stosowania wartości $p$ lub wnioskowania statystycznego.

Jest to dość odmienne od podejścia prezentowanego przez wielu statystyków wypowiadających się na ten temat publicznie. W prasie fachowej słychać wiele głosów mówiących, że należy całkowicie zerwać ze stosowaniem podejścia Neymana-Pearsona i zastąpić je na przykład podejściem Bayesowskim, czy podejściem opartym na ilorazie wiarygodności (likelihood ratio). Część z zaciętych przeciwników nich brała nawet udział w pracach nad oświadczeniem i umieściła swoje ,,stanowiska odrębne” (choć trzeba przyznać, że bardzo mocno złagodzone) w dyskusji nad oświadczeniem na łamach TAS.

Można by zastanowić się nad przyczynami aż tak wielkiego konserwatyzmu ASA jako organizacji w kontraście do nawołującego do rewolucji podejścia niektórych jego członków. Część powodów można odgadnąć czytając dyskusję. Mam wrażenie, że większość ,,rewolucjonistów” promujących inne metody została przekonana, że te metody spotkają się z dokładnie takimi samymi nadużyciami jak wartość $p$ i całe Neymanowskie wnioskowanie statystyczne. Tak samo jak w przypadku obecnie przyjętej metodologii, jakiekolwiek inne podejście zostanie wykrzywione i wynaturzone.

Drugim powodem takiej ostrożności ASA jest fakt, że obecna metodologia jest mniej lub bardziej zrozumiała zarówno dla dziedzinowców (medyków, ekonomistów, urzędników) jak i dla analityków. Gdybyśmy mieli diametralnie zmienić podejście, musielibyśmy mnieć pewność, że istnieje wystarczająco wiele osób rozumiejących to nowe podejście. W chwili obecnej nie ma nawet wystarczającej liczby analityków potrawiących stosować dotychczasową metodologię.

Trzecim powodem jest, moim zdaniem, fakt, że nasze obecne podejście wcale nie jest takie złe! We wspomnianych wcześniej krytycznych artykułach i blogach wyciąga się tradycyjnemu podejściu to co złe. Jednak trudno powiedzieć, że obecnie badania medyczne są w kryzysie. Wręcz przeciwnie! Dzięki przyjęciu podejścia medycyny opartej na faktach (evidence based medicine) nauki biomedyczne rozszerzają naszą wiedzę w ogromnym tempie. Dzięki powtarzaniu badań historycznych i projektowaniu nowych, oraz zarzuceniu wiary w autorytety personalne i podręczniki, rewidujemy stare poglądy i dowiadujemy się mnóstwa nowych rzeczy. A jaka metodologia jest fundamentem tych badań? Oczywiście obecna!

Jeff Leek, profesor z wspominanej wcześniej John Hopkins Bloomberg School of Public Health, w swoim znakomitym poście na blogu simplystatistics.org wszystkim krytykantom wartości $p$ w kilku punktach @leek. Pozwolę je sobie przetłumaczyć:

Problemem nie jest wartość $p$, ale fundamentalny brak umiejętności analitycznych.
Generalnie redukowanie stopni swobody dla nie-eskpertów ma sens, ale jakikolwiek dobór statystyk, który został dokonany przez osobę bez odpowiedniej edukacji zawsze będzie obarczony błędami.
Długoterminowym rozwiązaniem jest wymaganie, aby osoby używające danych, w szczególności edytorzy pism naukowych, recenzenci, naukowcy zajmujący się biologią molekularną, medycyną, fizyką, ekonomią i astronomią miały dostęp do odpowiedniego treningu.

Był jeszcze jeden punkt, ale stanowił on raczej reklamę uczelni :).

Proszę zwrócić uwagę, że Jeff Leek nie mówi, że analizą danych mogą zajmować się jedynie osoby z treningiem matematycznym. Uważa on, że edukację statystyczną i analityczną można i należy dostosować do potrzeb każdej z wymienonych grup.

W historii wielokrotnie wiedza i edukacja dostarczały rozwiązań problemów i były tarczą przeciw zagrożeniom. Miejmy nadzieję, że będzie tak i teraz. Zamiast godzić się na jedną z dwóch opisanych powyżej możliwości, czyli albo zlikwidowanie siedemdziesięcioletniej metodologii, albo życie w stanie permanentnego kryzysu powtarzalności, dokształćmy się trochę!

Mam nadzieję że ten artykuł (oraz oparty na nim wykład wygłoszony w Zakopanem) będzie jednym z elementów tej edukacji.

ASA Statement on Statistical Significance and P-Values, The American Statistician, 2016, V 70, 131-133

Editorial, Ronald L.Wasserstein and Nicole A. Lazar, The American Statistician, 2016, V 70, 129-131

Peng, R. (2015), “The Reproducibility Crisis in Science: A Statistical Counterattack,” Significance, 12, 30–32.

Gary Marcus (May 1, 2013). “The Crisis in Social Psychology That Isn’t”. The New Yorker. http://blogs.nature.com/news/2012/12/is-the-scientific-literature-self-correcting.html

Shanks, D. R. et al. PLoS ONE 8, e56515 (2013).

Baker, Monya (26 May 2016). “1,500 scientists lift the lid on reproducibility”. Nature. 533 (7604): 452–454. doi:10.1038/533452a.

John P. A. Ioannidis, Why Most Discovered True Associations Are Inflated, Epidemiology • Volume 19, Number 5, September 2008

John P. A. Ioannidis, Why Most Clinical Research Is Not Useful, PLOS

John P. A. Ioannidis, Why Most Published Research Findings Are False, PLOS, August 2005 | Volume 2 | Issue 8 | e124 http://simplystatistics.org/2014/02/14/on-the-scalability-of-statistical-procedures-why-the-p-value-bashers-just-dont-get-it/

wartość p ASA statystyka biostatystyka

Jarosław Piskorski

Physicist and Medical Biologist

Research interest - heart rate variability, statistics, machine learning, time series analysis