Rozdział 8 Dane kategoryczne
Tym rozdziałem praktycznie rozpoczynamy drugą część podręcznika. Dotychczas zajmowaliśmy się danymi ciągłymi - wszystkie zmienne w naszych analizach były traktowane jako liczby rzeczywiste, czyli takie, które można podać z dowolną dokładnością, choć w praktyce często miały ograniczenia związane na przykład z procedurą pomiarową (wzrost mierzony z dokładnością do milimetra, wiek z dokładnością do dnia itd.)
W naukach biomedycznych dane kategoryczne są przynajmniej tak samo często spotykane jak dane ciągłe.
8.1 Dane kategoryczne
Dane kategoryczne spotykane są praktycznie na każdym kroku. Ilekroć mówimy o płci, chorobach, województwach, rasach, organach ludzkiego ciała, skalach zaawansowania schorzenia, przynależności do grupy ryzyka, czy kandydatach na urząd prezydenta posługujemy się zmiennymi kategorycznymi.
Zmienne te możemy zliczać, układać w tabele, podsumowywać pewnymi statystykami, takimi jak na przykład proporcje oraz modelować. Możemy badać zależności pomiędzy takimi zmiennymi, oraz pomiędzy zmiennymi kategorycznymi, a zmiennymi ciągłymi i odwrotnie, oraz używać jako zmiennych niezależnych mieszaniny zmiennych kategorycznych i ciągłych. Przykładowo, możemy próbować wyliczyć ryzyko zgonu (zgon - zmienna kategoryczna: Tak/Nie) na podstawie informacji o wieku (zmienna ciągła), przebytym zawale (kategoryczna: Tak/Nie), oraz stopniu zaawansowania choroby oraz ciężkości objawów niewydolności serca w skali NYHA (kategoryczna: I, II, III, IV).
8.2 Rodzaje zmiennych kategorycznych
Najprostszą klasyfikacją zmiennych kategorycznych jest podział na zmienne nominalne i ordynalne (lub zmienne kategoryczne w skali porządkowej - zdecydowanie wolę pierwszą nazwę ponieważ jest krótsza i można bezpośrednio odnieść ją do nomenklatury angielskiej).
Zmienne nominalne (w skali nominalnej) to po prostu nazwy: Azjata, Biały, Czarny; kobieta, mężczyzna; nowotwór złośliwy/niezłośliwy (ale patrz niżej!); oczy czarne, niebieskie, … itd.
Zmiennych nominalnych nie możemy porównywać, a przynajmniej zakładamy, że nie możemy ich porównywać. Czy Polska to więcej niż Czechy? Zależy co porównujemy (populacja, procent osób palących, DNB), ale w ogólności, jeżeli nazwy tych dwóch krajów służą tylko celom kategoryzacji pewnych zjawisk, to porównania takiego nie możemy poczynić. Czy oczy niebieskie to więcej, czy mniej niż zielone? A oczy czarne?
Zmienne ordynalne mają pewien porządek. Na przykład osoba z zaawansowaniem choroby IV w skali NYHA jest bardziej chora niż osoba z zaawansowaniem I. Jeżeli respondenci pewnego kwestionariusza odpowiadali na pytanie “czy zgadzasz się ze stwierdzeniem << po zabiegu poprawiła się jakość mojego życia >>” i ma do wyboru kategorie “tak, raczej tak, jakość się nie zmieniła, raczej nie, nie, jakość się pogorszyła”, to możemy porównać dwie osoby i powiedzieć, której z nich, subiektywnie, zabieg pomógł bardziej.
8.3 Zmienne dychotomiczne
Zmienne dychotomiczne mają tylko dwie kategorie, na przykład zgon (Tak/Nie), płeć (kobieta/mężczyzna) czy wynik testu na żółtaczkę (pozytywny/negatywny - zakładając brak wyniku niekonkluzywnego). W przypadku tego typu danych jest znacznie trudniej jednoznacznie określić, czy zmienna jest nominalna, czy ordynalna. Jednym z powodów jest fakt, że nawet jeżeli przyjmiemy, że zmienna jest nominalna, to możemy ją analizować metodami charakterystycznymi dla zmiennych ordynalnych. Ba! Często nawet dostajemy lepsze, bardziej informatywne wyniki!
Na przykład, w wielu zastosowaniach płeć koduje się jako: kobieta-0, mężczyzna-1. Czyli w kolumnie (np. Excela czy programu statystycznego) w kolumnie “płeć” kobietom wpisujemy wartość 0 a mężczyznom 1. Czy jest to zmienna nominalna, czy ordynalna? Częst pada też pytanie: czy jest to przykład seksizmu, czy nie?
Tak naprawdę w tym przypadku nie musimy podejmować tej decyzji, bo na nic ona by nie wpłynęła (np. na wybór techniki analitycznej) - starczy powiedzieć, że jest to zmienna dychotomiczna. A jeżeli chodzi o przypisanie kobiecie wartości 0 a mężczyźnie 1, jest to związane z faktem, że w bardzo wielu chorobach, które dotykają zarówno kobiet jak i mężczyzn, bycie mężczyzną jest czynnikiem ryzyka. Na przykład choroba wieńcowa częściej dotyka mężczyzn. Kodowanie to wynika z wygody. Jak zobaczymy w rozdziale o regresji logistycznej, wynik poinformuje nas o tym jak zwiększa się ryzyko u mężczyzn względem kobiet. Z przyczyn językowych, mówiąc o czynnikach ryzyka, wolimy mówić o czynnikach które to ryzyko zwiększają, a nie zmniejszają. Tak więc bycie mężczyzną jest bardzo często czynnikiem ryzyka, stąd tradycyjne przypisanie mężczyznom wartości 1.
8.4 Analizy
Na koniec tego rozdziału krótko podsumujmy jakiego typu analizy najczęściej wykonujemy dla tego typu zmiennych. Analizy te będą przedmiotem kolejnych kilku rozdziałów.
8.4.1 Obliczenia proporcji, ryzyka, ryzyka względnego, ilorazu szans
Te obliczenia wykonujemy dla zmiennych dychotomicznych. W naukach biomedycznych wielkości te są niesłychanie ważne i niestety często są mylone. Postaramy się dokładnie wyjaśnić na czym polegają różnice pomiędzy nimi.