Wprowadzenie

Statystyka i biostatystyka są dziedzinami wiedzy, które dotyczą ogromnej rzeszy ludzi - zarówno naukowców/badaczy, jak i użytkowników literatury naukowej, takich jak lekarze, pracownicy administracji publicznej, biznesmeni i przedsiębiorcy, nauczyciele oraz wszystkie osoby, które chcą zrozumieć wyniki badań podawane w mediach, przez sięgnięcie do prac oryginalnych.

Nabycie odpowiedniej wiedzy statystycznej jest jednak trudne. Większość dostępnych materiałów i kursów skierowana jest do osób, które albo już posiadają podstawy matematyczne, albo są skłonne, i co ważniejsze, mają na to czas, aby je opanować. Czas jest tutaj kluczowy. Większość osób zainteresowanych statystyką ma odpowiednie predyspozycje intelektualne do opanowania tej wiedzy, jednak nie ma na to czasu. Wspomniane predyspozycje intelektualne zwykle dają podstawy do uzyskania na tyle atrakcyjnej pracy, że przeznaczanie czasu na wgryzanie się w szczegóły matematyki i statystyki jest po prostu potężnym wydatkiem finansowym.

Mimo wszystko czasem spotykamy osoby, które nie mając podstaw matematycznych, bardzo sprawnie poruszają się po statystyce. W zastosowaniu statystyki w swojej dziedzinie (np. statystyka w badaniach naukowych czy w badaniach opinii publicznej) osoby te bywają lepsze niż profesjonalni statystycy. Ich wiedza nie została nabyta w wyniku wielu lat spędzonych na poznawaniu tajników matematyki. Uzyskali ją w wyniku wielu lat zadawania odpowiednich pytań i omijaniu raf matematycznych. Osoby te nauczyły się jak czytać wyniki analiz statystycznych i dowiedziały jakie metody są odpowiednie do konkretnych problemów, a potem stosowały tę wiedzę przez wiele lat. W końcu ich biegłość osiągnęła taki poziom, że nie potrzebują porady profesjonalnych statystyków. Ba! Same udzielają tych rad i wykonują obliczenia, mimo że nigdy nie poznały fundamentów matematycznych.

Jest to możliwe, ponieważ statystycy sami doprowadzili metodologię statystyczną do tego stanu. Podczas czytania artykułu zawierającego wyniki zastosowania na przykład tzw. wielowymiarowego modelu Coxa do analizy przeżycia, nikt, łącznie ze statystykami, nie zastanawia się ani nad matematyczną konstrukcją tego modelu. Sprawdzamy do jakich danych został zastosowany, jakie otrzymano wyniki i jak te wyniki zostały zinterpretowane. Wszystkie procedury statystyczne mogą być rozumiane i stosowane całkowicie niezależnie od ich konstrukcji matematycznej. Mimo oporu wielu osób, będę się przy tym zdaniu upierał.

Jak wspomnialem, przytłaczająca większość książek i kursów wyprowadza użytkownika na głębokie wody matematyki. Brak materiałów, które idą drogą wybraną przez tych niewielu opisanych powyżej, którzy starają się zrozumieć statystykę od stony praktycznej.

Celem (Mini) Podręcznika Biostatystyki jest przeprowadzenie Użytkownika przez statystykę wymijając rafy matematyki, która nigdy do niczego nie będzie mu potrzebna. Przez lata odpowiadam na pytania praktyków i wiem, że droga ta prowadzi do celu, czyli opanowania statystyki na poziomie pozwalającym na swobodne posługiwanie się nią w celu zrozumienia badań, zaprezentowania swoich własnych wyników, a ostatecznie do samodzielnego przeprowadzenia analiz.

Zdaję sobie sprawę, że moje podejście może być kontrowersyjne, ale jestem głęboko przekonany, że jest ono skuteczne, nawet jeżeli podczas nauki Czytelnik idzie bardzo na skróty.

Jak używać (Mini) Podręcznika

Materiał zawarty w (Mini) Podręczniku składa się z wielu odrębnych rozdziałów, które w założeniu są od siebie niezależne. Tak więc aby zrozumieć ostatni temat wcale nie trzeba przeczytać poprzedzających go części. Zrozumienie każdego z rozdziałów wymaga jedna opanowania podstaw, które zawarte są w rozdziale pierwszym pt. Podstawy. Czyli chcąc zrozumieć zagadnienie np. regresji logistycznej czytamy Podstawy a następnie rozdział „Regresja logistyczna”. Często tekst w różnych rozdziałach będzie się pokrywał (np. opis samego zagadnienia „regresji” będzie bardzo podobny w rozdziale „Regresja liniowa” i „Regresja logistyczna”). Zdarzy się również, że Czytelnik będzie musiał przeczytać dwa rozdziały – dotyczy to jednak wyłącznie przypadków, gdy jakaś technika jest rozszerzona, np. na więcej zmiennych. Na przykład, aby zrozumieć zagadnienie regresji logistycznej dla przypadku wieloczynnikowego należy wcześniej zapoznać się z przypadkiem jednoczynnikowym. 

Oprogramowanie

Statystyka jest nierozłącznie związana z komputerami. Moim zdaniem, gdyby nie powszechnie dostępne oprogramowanie statystyczne, większość najważniejszych osiągnięć współczesnej nauki w dziedzinach takich jak medycyna czy ekonomia nie byłaby możliwa, gdyż obróbka statystyczna stanowiłaby bardzo wąskie gardło. Większość czasu spędzanoby na oczekiwaniu na obróbkę statystyczną, a bez wyników pośrednich naukowcy nie byliby w stanie kontynuować swoich badań. 

Współcześnie istnieje tak naprawdę kilka znakomitych, pełnych systemów statystycznych i wiele programów do wykonywania obliczeń specjalistycznych. Te systemy statystyczne to Medcalc, SPSS, Statistica, SAS czy Stata (kolejność według mojej własnej preferencji). 

Istnieje jeszcze jeden pakiet, który dzięki swojej wszechstronności i elastyczności zmienia w obecnych czasach podejście do analizy danych. Jest to słynny język R - podstawowe narzędzie dziesiątków tysięcy satystyków na całym świecie. Jedną z najczęściej wymienianych cech tego systemu jest jego całkowita darmowość. 

Język R jest jednak bardzo trudny! Trudno się go nauczyć nawet profesjonalnym programistom, gdyż oprócz umiejętności programowania wymaga opisanej i zdyskwalifikowanej wcześniej znajomości matematycznych podstaw statystyki. 

Fantastyczni twórcy języka R ostatnio rozwiązali ten problem, tworząc nakładkę graficzną na R, o nazwie RCommander. Dzięki niej można wykonywać wszystkie obliczenia, które udostępniają wyżej wymienione systemy komercyjne, nie płacąc ani grosza. 

(Mini) Podręcznik Statystyki stosuje jeszcze inne rozwiązanie. Każdy rozdział zawiera w sobie program pozwalający na wykonywanie obliczeń opisanych w danym rozdziale przy pomocy przeglądarki internetowej. Ponieważ podręcznik zawiera większość metod niezbędnych w podstawowych obliczeniach statystycznych, prawie wszystkie potrzebne obliczenia można wykonać na stronach fmons.pl.

Poniżej znajduje się przykład takiego programu, przy pomocy którego można narysować tzw. wykres typu spiderplot - inne, bardziej przydatne programy, znajdują się w kolejnych rozdziałach podręcznika. <–Aby z nich skorzystać należy się zarejestrować. Konto na FMONS.pl oraz dostęp do materiałów oraz oprogramowania są całkowicie darmowe. –>

Program statystyczny: spiderplot

Poniższy program rysuje tzw. spiderplot. Najpierw wybieramy kolory: tło i pajęczyna. Później podajemy długość „szprychy”, która będzie wielkością referencyjną - do niej porównywać będziemy wszystkie dane. W kolejnym oknie wpisujemy dane oddzielone od siebie spacjami (można używać zarówno kropki jak i przecinka dziesiętnego: można wpisać zarówno 1,1 jak i 1.1). Wykres będzie wyglądał najlepiej, jeżeli dane będą mniejsze niż długość „szprychy”. Na koniec podajemy nazwy zmiennych.