Zestaw Plus


Zestaw przeznaczony jest zarówno dla osób wykonujących pogłębioną analizę danych w różnych obszarach biznesu, jak również naukowców opracowujących wyniki swoich badań. W skład programu wchodzi zestaw narzędzi do czyszczenia i przygotowania danych. Zestaw zawiera także zaawansowane moduły analityczne przydatne w codziennej pracy analityków. W skład zestawu wchodzą również narzędzia umożliwiające podsumowanie skal wykorzystywanych podczas badań ankietowych, obliczanie wskaźników przydatnych w badaniach naukowych oraz wielu branżach biznesu. Ponadto użytkownicy Zestawu Plus mają do dyspozycji szereg dostosowanych wykresów oraz narzędzia formatujące wyniki wykonanych analiz.

Pobierz wersję próbną

 

Poprawność danych

Dzięki tej opcji użytkownik ma możliwość łatwiejszego zdefiniowania reguł poprawności danych. W oknie definiowania reguł można wybrać nazwę zmiennej, wskazać żądane wartości lub odpowiadające im etykiety i połączyć je odpowiednim operatorem. Oprócz prostych reguł logicznych użytkownik ma możliwość wykorzystania zaawansowanej biblioteki funkcji zawartej w Statistica. Generowanie reguł ułatwia specjalnie przygotowany kreator. W arkuszu utworzone zostają zmienne wskazujące przypadki poprawne z punktu widzenia określonej reguły. Dodatkowo można utworzyć zmienną sprawdzającą poprawność względem wszystkich podanych reguł. Przygotowane reguły możemy zapisać do pliku konfiguracyjnego i wykorzystywać w innych modułach programu.

Braki danych

Moduł umożliwia przekodowanie braków danych według wskazanego schematu

  • Bogaty zestaw sposobów imputacji braków danych
    • Średnią, medianą, modalną
    • Średnią bądź medianą w grupach
    • Najbliższymi sąsiadami
    • Podaną wartością
  • Łatwe określanie tej samej akcji dla wielu zmiennych
  • Testowanie losowości braków danych
  • Zapis określonych schematów kodowania do pliku konfiguracji

 

Zmienne sztuczne

umożliwia zamianę cech jakościowych na odpowiadające im zmienne sztuczne. W programie zaimplementowano cztery schematy kodowania:

  • Kodowanie zero-jedynkowe na n zmiennych (n to liczba poziomów kodowanej cechy),
  • Kodowanie zero-jedynkowe na n-1 zmiennych,
  • Kodowanie z sigma ograniczeniami (quasi-eksperymentalne),
  • Kodowanie ortogonalne.

W przypadku wyboru trzech ostatnich schematów mamy możliwość ręcznego wyboru poziomu odniesienia.

Szybkie rekodowanie

Moduł umożliwia przekodowanie wybranych wartości (dowolna wartość, braki danych, pełne dane, wartość z podanego zakresu) zmiennych do wskazanych nowych wartości. Użytkownik może przekodować jednocześnie wiele zmiennych, a nowe kody mogą zostać wprowadzone do tych samych lub nowych zmiennych.

Przekształcenie zmiennych

Moduł ten umożliwia normalizację danych do skali testów psychologicznych (stenowej, tenowej, staninowej). Dodatkowo moduł umożliwia przekształcenie zmiennych za pomocą szeregu przekształceń np. operacji soft-max czy normalizacji.

Zliczanie wartości

Moduł umożliwia utworzenie dodatkowej zmiennej, która zawiera informację, ile razy w danym przypadku w określonej liście zmiennych wystąpiła wskazana przez użytkownika wartość (dowolna wartość, braki danych, pełne dane, wartość z podanego zakresu).

Wielokrotne odpowiedzi

Moduł umożliwia przekształcenie zmiennych zakodowanych w formie wielokrotnych odpowiedzi na wielokrotne dychotomie. Uzupełniająca funkcjonalność umożliwia posortowanie wartości w zmiennych wielokrotnych odpowiedzi zgodnie z kolejnością podaną przez użytkownika.

Liczebność próby

Pierwszym modułem wchodzącym w skład grupy Przygotowanie próby jest Kalkulator liczebności próby. Umożliwia on obliczenie minimalnej liczebności próby pozwalającej z zadanym błędem oszacować liczebność próby dla frakcji lub dla zadanej liczebności próby obliczyć błąd oszacowania. Dodatkowymi parametrami uwzględnianymi w analizie są Poziom ufności, Liczebność populacji oraz Wskaźnik struktury.

Ważenie wieńcowe

Moduł realizuje ważenie wieńcowe przypadków (RIM weighting). Moduł obsługuje ważenie względem maksymalnie sześciu wymiarów. Aby wygenerować zestaw wag dla przypadków wystarczy podanie rozkładów brzegowych dla poszczególnych wymiarów.

Propensity score matching

Moduł przydatny dla osób prowadzących badania obserwacyjne bez możliwości wykonania zaplanowanego eksperymentu. Umożliwia korektę obciążenia mierzonego efektu spowodowanego nielosowym doborem do grupy interwencji i kontroli.

Moduł realizuje procedurę dopasowywania (matching) za pomocą szeregu algorytmów:

  • Metoda najbliższego sąsiada,
  • Metoda z limitem,
  • Metoda z promieniem,
  • Metoda Kernel.

 

Podział na podpróby

Moduł Podział na podpróby pozwala na przygotowanie prób uczącej, testowej oraz (opcjonalnie) walidacyjnej na potrzeby budowy modeli predykcyjnych (klasyfikacyjnych lub regresyjnych).

Moduł oferuje trzy główne opcje podziału zbioru na podpróby:

  • Prosty podział umożliwia podzielenie zbioru danych w sposób losowy na próby: uczącą, testową oraz walidacyjną (opcjonalnie) zgodnie z proporcjami określonymi w grupie Proporcje klas.
  • Zbalansuj uczący pozwala na przygotowanie próby uczącej zawierającej równe proporcje klas zmiennej zależnej. Opcja ta jest przydatna w sytuacji, gdy problem, jaki chcemy analizować, jest zadaniem klasyfikacyjnym, z dwoma klasami zmiennej zależnej. W zależności od wyboru opcji w grupie Zbalansuj uczący, program dokona nadpróbkowania (oversampling) rzadszej klasy lub zmniejszy liczebność częstszej klasy (downsampling).
  • Analiza skupień pozwala dokonać podziału na podpróby na podstawie losowania przypadków ze skupień utworzonych w wyniku analizy k-średnich dla wybranych predyktorów. Metoda jest przydatna zwłaszcza w sytuacji mniejszych zbiorów danych, pozwala uniknąć nieproporcjonalnego rozłożenia danej klasy przypadków w podpróbach.

W wyniku analizy badacz otrzymuje nowy zbiór danych, który oprócz pierwotnego zestawu zmiennych zawiera dodatkowo kolumnę informującą, do jakiej próby (uczenie, test, walidacja) trafił konkretny przypadek.

SMOTE

Niezrównoważenie zbioru danych, czyli duża różnica pomiędzy licznościami poszczególnych klas, może doprowadzić do niesatysfakcjonujących wyników klasyfikacji. Model klasyfikacyjny uczony na takich danych może nie być w stanie poprawnie nauczyć się rozpoznawać obserwacje należące do klasy mniej licznej, co znacząco wpływa na jego przydatność i możliwość wdrożenia. Jednym z rozwiązań tego problemu jest zastosowanie metod przepróbkowania danych. Do takich metod zaliczana jest metoda SMOTE. Pozwala ona na uzyskanie idealnie zrównoważonych zbiorów danych poprzez tworzenie nowych, syntetycznych obserwacji na podstawie sąsiedztwa dostępnych obserwacji rzeczywistych.

ADASYN

Problem niezrównoważenia zbioru danych może być rozwiązany przy użyciu wielu metod. Zaliczają się do nich m.in.: losowe przepróbkowanie zbioru danych lub metoda SMOTE. Metody te nie sprawdzą się jednak w przypadku, gdy część obserwacji należących do klasy mniej licznej jest bardzo podobna do obserwacji z klasy bardziej licznej. W tej sytuacji lepsze rezultaty pozwala osiągnąć metoda ADASYN, która w sposób adaptacyjny dobiera liczbę obserwacji syntetycznych generowanych na podstawie danej obserwacji rzeczywistej. Dzięki temu obserwacje trudniejsze do poprawnej klasyfikacji, tzn. takie, w których sąsiedztwie znajduje się dużo obserwacji należących do innej klasy, posłużą do utworzenia większej liczby nowych obserwacji.

Dyferencjał semantyczny

Moduł umożliwia wygenerowanie wykresu dyferencjału semantycznego (dla średnich bądź median) oraz wskazanie ewentualnych zmiennych grupujących.

Skala rangowa

Moduł pozwala użytkownikowi na wykonanie rankingu wartości wchodzących w skład skali rangowej oraz liczby wskazań danej wartości na każdej pozycji. Analiza obsługuje dwa sposoby kodowania (zmienne oznaczają oceniane cechy, a wartości przypisane rangi lub zmienne reprezentują kolejne rangi, a wartości oznaczają oceniane cechy).

Skala pozycyjna

Moduł umożliwia utworzenie zestawienia rozkładów procentowych wartości zmiennych reprezentujących cechy opisane za pomocą tej skali. Dodatkowo dostępna jest opcja wyróżniania poziomów najczęściej i najrzadziej reprezentowanych.

Skala Stapela

Pozwala on na wygenerowanie odpowiedniego wykresu podsumowującego tę skalę na podstawie średnich bądź median; dodatkowo użytkownik może wskazać zmienną grupującą oraz określić szereg parametrów wykresu.

Model Thurstone’a

Moduł umożliwia zbudowanie metrycznej skali preferencji na podstawie danych o preferencjach uzyskanych z wykorzystaniem skali porównań parami bądź skali rangowej (jest ona przekształcana do skali porównań parami).

Dodatkowo uzyskane wyniki można zobrazować za pomocą mapy percepcji utworzonej metodą skalowania wielowymiarowego.

Rzetelność skali

Moduł analizuje wymiarowość analizowanego zbioru, determinując, która z pozycji powinna wejść w skład skali. Następnie oblicza różnego rodzaju miary rzetelności skali oraz ocenia siłę dyskryminacyjną całej skali oraz poszczególnych pozycji.

Współczynniki zgodności sędziów

Moduł pozwalają na obliczenie Kappy Cohena oraz Pi Scotta umożliwiających ocenę zgodności pomiędzy dwoma sędziami przy założeniu, że ich oceny są wyrażane na skali nominalnej. Kappa Fleissa rozszerza możliwość obliczania wskaźnika dla więcej niż dwóch sędziów. Alfa Krippendorfa pozwala dodatkowo na uwzględnienie innych skal niż nominalna (przy dowolnej liczbie sędziów).

Krzywe ROC

Krzywe ROC (Receiver Operating Characteristic) są narzędziem służącym do oceny poprawności klasyfikatora (pojedynczej zmiennej lub całego modelu), zapewniają one łączny opis jego czułości i specyficzności. Ten sposób wspomagania systemu decyzyjnego jest szeroko stosowany w różnych obszarach analizy danych, m.in. W diagnostyce medycznej.

Moduł Krzywe ROC umożliwia:

  • kreślenie krzywych ROC dla prób zależnych i niezależnych,
  • obliczanie pola powierzchni pod krzywą,
  • porównywanie istotności różnicy pól pomiędzy dwiema krzywymi
  • ustalanie optymalnego punktu odcięcia dla podanych kosztów błędnej klasyfikacji i prawdopodobieństw a priori występowania badanego zjawiska,
  • ustalanie optymalnego punktu odcięcia na podstawie indeksu Youdena,
  • obliczanie miar FP,TP FN, FP, Sensitivity, Specificity, ACC, PPV, NPV, False positive ratio, False negative ratio, LR dla wszystkich możliwych punktów odcięcia,
  • kreślenie wykresów dla wymienionych powyżej miar,
  • porównanie krzywych za pomocą miar IDI oraz NRI.

 

Metaanaliza i metaregresja

Moduł jest narzędziem umożliwiającym syntezę wyników wielu niezależnych badań szczególnie w sytuacji, gdy nie mamy dostępu do danych surowych a dysponujemy jedynie zbiorczymi wynikami tych badań. Podejście takie pozwala rozszerzyć wnioski z pojedynczych badań na szerszą populację oraz zwiększyć wiarygodność otrzymanych wyników. Za pomocą dodatkowych narzędzi takich jak analiza niejednorodności, analiza w grupach czy metaregresja badacz może również ocenić zmienność uzyskanych wyników i wskazać jej źródła. Obliczenia są wykonywane dla szeregu miar efektu, a wyniki można przedstawić w postaci szczegółowych raportów oraz wykresów.

Moduł Metaanaliza i metaregresja umożliwia m.in.:

  • wprowadzenie wyników badań i gotowych (już wyliczonych) miar efektu;
  • wprowadzanie wyników przedstawionych w różnych formatach;
  • uwzględnienie w analizie badań z wynikami przedstawionymi w postaci różnych miar efektu (np. ilorazu szans oraz d Cohena);
  • obliczanie miar efektu dla pojedynczych badań;
  • obliczanie łącznych miar efektu dla modelu z efektem stałym i zmiennym (fixed effect model, random effects model);
  • wykonanie metaanalizy (meta-analysis) i utworzenie wykresu leśnego (forest plot);
  • przeprowadzenie analizy skumulowanej (cumulative meta-analysis);
  • wykonanie analizy niejednorodności (heterogeneity analysis) – miary Q, T2, I2;
  • utworzenie wykresów: L’Abbego i Galbraitha;
  • przeprowadzenie metaanalizy w grupach (subgroup analyses) dla modelu z efektem stałym oraz efektem zmiennym, z oddzielnym T2 i wspólnym T2;
  • wykonanie metaregresji (meta-regression) i przedstawienie jej wyników w postaci raportów i wykresu bąblowego;
  • przeprowadzenie analizy wrażliwości (sensitivity analysis) – analiza po dołączeniu grupy badań lub wyłączeniu wybranej kombinacji badań;
  • ocena błędu publikacji (publication bias);

 

Kreator Regresji Liniowej

Moduł umożliwia zbudowanie i ocenę modelu regresji liniowej. Korzystając z Kreatora, badacz krok po kroku wykonuje kolejne etapy związane z budową modelu regresji, poczynając od sposobu kodowania zmiennych oraz wyboru istotnych cech do analizy, poprzez sprawdzanie założeń i identyfikację interakcji, aż po ocenę dobroci dopasowania modelu, analizę reszt oraz zbadanie jego zdolności predykcyjnych. Funkcjonalność Kreatora obejmuje między innymi:

  • Wygodne określenie poziomów odniesienia predyktorów jakościowych
  • Definiowane transformacji predyktorów ilościowych
  • Uwzględnienie opóźnień, sezonowości oraz trendu w przypadku danych czasowych
  • Wykonanie jednoczynnikowej analizy dla wszystkich wybranych predyktorów
    • Oceny parametrów regresji
    • Ocena liniowości wpływu poszczególnych predyktorów ilościowych

  • Analiza współliniowości predyktorów
    • Analiza korelacji
    • Wyznaczanie skupisk skorelowanych zmiennych
    • Automatyczne wyznaczanie reprezentantów zidentyfikowanych skupisk zmiennych
  • Analiza interakcji
    • Automatyczna identyfikacja istotnych interakcji
    • Tworzenie rankingu interakcji
    • Wygodny wybór interesujących interakcji
  • Metody doboru zmiennych do modelu
    • Krokowa postępująca i wsteczna
    • Wprowadzanie postępujące
    • Eliminacja wsteczna
    • Lasso
    • ElasticNet
  • Zaawansowane schematy walidacji modelu
    • Próba ucząca i testowa
    • Wielokrotna ocena krzyżowa
  • Bogaty zestaw miar jakości modelu
  • Testowanie założeń regresji
    • Szereg raportów i testów oceniających:
      • Normalność reszt
      • Heteroskedastyczność reszt (test White’a)
      • Postać funkcyjną (test RESET)
      • Autokorelacje reszt
      • Liniowość
  • Analiza reszt oraz wartości wpływowych
  • Wykresy regresji cząstkowej oraz reszt cząstkowych
  • Test stabilności Chowa
  • Zapis modelu oraz transformacji w postaci kodu Visual Basica
  • Generowanie prognozy dla nowych danych

 

Kreator Regresji Logistycznej

Moduł umożliwia zbudowanie i ocenę modelu regresji logistycznej. Korzystając z Kreatora badacz, krok po kroku wykonuje kolejne etapy związane z budową modelu regresji, poczynając od sposobu kodowania zmiennych oraz wyboru istotnych cech do analizy, poprzez sprawdzanie założeń i identyfikację interakcji, aż po ocenę dobroci dopasowania modelu, analizę reszt czy zbadanie jego zdolności predykcyjnych. Funkcjonalność Kreatora obejmuje między innymi:

  • Wygodne określenie modelowanej klasy zmiennej zależnej oraz poziomów odniesienia predyktorów jakościowych
  • Wykonanie jednoczynnikowej analizy dla wszystkich wybranych predyktorów
    • Oceny parametrów regresji
    • Obliczanie ilorazów szans wraz z przedziałami ufności
    • Wykres leśny (forest plot) dla zmiennych jakościowych
  • Ranking istotności predyktorów na podstawie testu LR
  • Badanie linowości wpływu predyktorów ilościowych na logarytm szansy modelowanego zjawiska
  • Analiza współliniowości predyktorów
    • Analiza korelacji
    • Wyznaczanie skupisk skorelowanych zmiennych
    • Automatyczne wyznaczanie reprezentantów zidentyfikowanych skupisk zmiennych
  • Analiza interakcji
    • Automatyczna identyfikacja istotnych interakcji
    • Tworzenie rankingu interakcji
    • Wygodny wybór interesujących interakcji
  • Metody doboru zmiennych do modelu
    • Krokowa postępująca i wsteczna
    • Wprowadzanie postępujące
    • Eliminacja wsteczna
    • Lasso
    • ElasticNet
  • Zaawansowane schematy walidacji modelu
    • Próba ucząca i testowa
    • Wielokrotna ocena krzyżowa
  • Bogaty zestaw miar jakości modelu:
    • Testy LR
    • Odchylenie
    • Miary pseudo R2
    • AIC, BIC
    • Test Hosmera-Lemeshowa
    • Wykres leśny (forest plot) ilorazów szans
  • Analiza reszt oraz wartości wpływowych
  • Statystyki wspóliniowości
  • Analiza krzywych ROC
  • Wykresy przyrostu i zysku

 

Conjoint

Moduł pozwala na wykonanie analizy dla zmiennych zależnych mierzonych na skali co najmniej przedziałowej. Program oblicza cząstkowe użyteczności poszczególnych poziomów cech (przedstawiane także w formie wykresów), a także użyteczności całkowite dla każdej kombinacji cech produktu i każdego respondenta oraz ranking profili. Dodatkowo obliczane są relatywne oraz sumaryczne ważności analizowanych zmiennych.

Analiza aglomeracji

Oprócz standardowych miar odległości, takich jak odległość Euklidesa czy Czebyszewa, najnowsza wersja modułu zawiera osiem miar dedykowanych danym zero-jedynkowym. Są to unormowane oceny odmienności, uwzględniające specyfikę danych binarnych. Jeżeli grupujemy wyłącznie takie cechy, interpretacja wyników może być łatwiejsza niż w przypadku tradycyjnej oceny odległości.

PROFIT

Moduł wykorzystuje metodę skalowania wielowymiarowego do budowy klasycznej mapy percepcji. W drugim kroku do analizy wykorzystywane są informacje o preferencjach analizowanych marek i na ich podstawie na mapę percepcji nakładane są dodatkowe osie opisujące wymiary i ułatwiające interpretację zbudowanej mapy.

Uogólniona PCA

Moduł jest narzędziem umożliwiającym wykonie analizy zarówno dla zmiennych ilościowych jak i jakościowych. Moduł umożliwia automatyczne określenie optymalnej liczby składowych za pomocą sprawdzianu krzyżowego a także dynamiczne dodawanieusuwanie kolejnych składowych. Dostępny jest kompletny zestaw wyników przeprowadzonych analiz w tym wykres osypiska oraz biplot.

Porządkowanie liniowe

Porządkowanie liniowe – zadaniem metod porządkowania liniowego zbioru obiektów jest uszeregowanie, czyli ustalenie kolejności obiektów lub ich zbiorów według określonego kryterium. Moduł umożliwia określenie syntetycznej miary agregującej cechy obiektu, a następnie uporządkowanie na jej podstawie obiektów od „najlepszego” do „najgorszego”. Moduł oferuje szereg schematów i metryk obliczania syntetycznej miary porządkującej obiekty oraz sposobów prezentacji uzyskanych wyników.

Bootstrap

Bootstrap (z jęz. ang. sznurówka) jest zbiorczą nazwą metod pozwalających na bardzo dobre wyznaczenie (za pomocą przedziałów ufności) niepewności oszacowania rozmaitych wielkości statystycznych. Nieoceniona jest jego wartość dydaktyczna, gdyż przedziały ufności w tej metodzie powstają empirycznie, inaczej niż w podejściu klasycznym, nad którym ma on też przewagę poprzez wszechstronność – nie potrzeba tu założeń ani wiedzy dotyczącej rozkładu próby i statystyki testowej.


Praca z bootstrapem w programie Statistica jest naprawdę prosta. Wystarczy wskazać jedną lub dwie zmienne oznaczające próby i podać statystykę, dla której chcemy obliczyć przedziały ufności.

Po zatwierdzeniu dostajemy skoroszyt z zestawem wyników: arkuszem z wynikami liczbowymi oraz dwoma wykresami – estymatora jądrowego gęstości oraz rozkładu bootstrapowego z zaznaczonymi przedziałami ufności.


Nim zatwierdzimy obliczenia, możemy skorzystać z wielu opcji, które pojawią się po zaznaczeniu pola Pokaż więcej opcji. Można tu wskazać liczbę prób bootstrapowych (liczba losowanych podprób) i poziom ufności przedziału, wybrać rodzaj bootstrapu: nieparametryczny, półparametryczny, parametryczny oraz rodzinę rozkładów, jeśli wybierzemy bootstrap parametryczny. Dodatkowo możemy obliczyć przedziały ufności metodą bootstrap-t.

Układy naprzemienne badań klinicznych

Znacząca część badań klinicznych jest przeprowadzana w celu porównania dwóch leków często oznaczanych jak poniżej:

R – znany lek referencyjny,
T – nowy lek testowy.

Skuteczność lub – ogólniej – wartość leku wyrażana jest za pomocą pewnego wskaźnika liczbowego, jak np. najwyższe stężenie substancji leczniczej we krwi po podaniu leku. Nie zawsze chcemy dowieść, że skuteczność nowego leku jest wyższa, gdyż czasami dążymy do potwierdzenia tego, że obydwa leki działają podobnie, innymi słowy, że są równoważne.
Pierwszym przychodzącym na myśl i zarazem najprostszym sposobem przeprowadzenia badania klinicznego jest podzielenie badanych, zazwyczaj losowo, na dwie grupy i podanie badanym z pierwszej grupy leku R, a tym z drugiej grupy leku T. Okazuje się, że można to zrobić inaczej, tym bardziej, że może pojawić się problem objęcia badaniem wystarczającej liczby osób. Wówczas pomocne może być wykorzystanie pewnego układu naprzemiennego w badaniu klinicznym, kiedy to badani przyjmują obydwa leki, lecz (rzecz jasna) nie naraz, tylko w różnych kolejnościach w zależności od ich grupy.
Układy naprzemienne pozwalają na zmniejszenie liczby badanych koniecznej do uzyskania istotności statystycznej dotyczącej zależności między lekami, którą chcemy wykazać, o ile ma ona miejsce. Nie dzieje się tak zupełnie za darmo, ponieważ badanie w takim układzie trwa dłużej. Każdy badany przyjmuje lek i po pewnym czasie przyjmuje inny lek lub ponownie ten sam, a takich tur może być kilka.
Moduł Układy naprzemienne umożliwia pełną analizę i zaplanowanie badania dla dowolnego spośród ośmiu rodzajów układów naprzemiennych, na co składa się:

  • Test równoważności
  • Analiza wariancji
  • Analiza liczebności prób
  • Analiza mocy
  • Przydział badanych do grup

Wspomniane osiem rodzajów układów widnieje w liście rozwijalnej poniżej.

Układy są wyznaczone zestawem sekwencji, których symbole mają następujące znaczenie: przykładowo, w najprostszym układzie, tj. (RT, TR) są dwie grupy, w pierwszej z nich najpierw podawany jest lek R, a w drugiej turze lek T, natomiast w drugiej grupie dzieje się to w odwróconej kolejności. W układzie (RRTT, RTTR, TRRT, TTRR) są cztery grupy i cztery tury; w grupie (sekwencji) TRRT badani otrzymują lek R w drugiej i trzeciej turze oraz lek T w pierwszej i czwartej turze.
Wynikiem analizy danych zebranych po ukończonym badaniu są dwa arkusze i wykres: tabela analizy wariancji, wyniki testu równoważności w zadanych przez nas granicach (jak np. [80%, 125%]) i wykres przedstawiający obliczony przedział ufności. Przykładowy zestaw wyników widnieje poniżej.

Jeżeli badanie jest w trakcie planowania, to możemy przeprowadzić analizę liczebności oraz analizę mocy, obie pod kątem wykazania równoważności leków we wskazanych przez nas granicach. Wystarczy do tego podać podstawowe wielkości, jak spodziewany iloraz miar skuteczności leków czy rozrzut wyników w postaci np. odsetka zmienności śródosobniczej. Poza tym moduł Układy naprzemienne umożliwia utworzenie gotowego do wprowadzania danych (tj. wartości zmiennej zależnej) arkusza z losowym przydziałem do różnych sekwencji, po podaniu ich żądanych liczności.


Regresja panelowa

Regresja panelowa jest metodą budowy modeli liniowych dla danych przekrojowo-czasowych, przydatną w ekonometrii, naukach społecznych lub epidemiologii. W takich danych, w odróżnieniu od regresji liniowej wielorakiej, znajdują się również dwa szczególne predyktory: czas i jednostka. Uwzględnienie możliwości oraz sposobu ich wpływu na zmienną zależną stanowi sedno regresji panelowej.

Krzywe odpowiedzi (PRC)

Krzywe odpowiedzi (Principal Response Curves) to narzędzie do analizy wpływu różnych zabiegów, w tym zabiegu kontrolnego, którym poddaje się pewną zbiorowość, np. gatunków, na wartości ilościowej zmiennej zależnej (często wyraża liczebność osobników danego gatunku), mierzone wielokrotnie w czasie. Główny wynik to zobrazowany na wykresie krzywych odpowiedzi przebieg w czasie wpływu poszczególnych zabiegów względem zabiegu kontrolnego na zmienną zależną, zaś kolejnym wynikiem są wartości wag gatunków wchodzących w skład badanej zbiorowości.

Kwadratowa analiza dyskryminacyjna (QDA)

Kwadratowa analiza dyskryminacyjna służy do budowy modelu klasyfikacyjnego opisanego funkcjami kwadratowymi wielu predyktorów ilościowych. W arkuszu wejściowym do tej analizy mogą być dwie grupy przypadków: ze wskazaną klasą oraz bez wskazanej klasy. Model zostaje zbudowany na podstawie pierwszej grupy przypadków i w ich świetle oceniona zostaje dokładność modelu, zaś przewidywana według niego klasa będzie podana także dla przypadków z drugiej grupy.

Przedział ufności kwantyla

Narzędzie służące do obliczenia obustronnego/lewostronnego/prawostronnego przedziału ufności kwantyla wskazanego rzędu, czyli np. mediany. Jako że granicami przedziałów w zastosowanym tu podejściu nieparametrycznym zawsze są pewne spośród wartości wejściowych, w wynikach zostają też podane ich rangi przy uszeregowaniu rosnącym.

Miary nierówności

Miary nierówności służą do pomiaru zróżnicowania dochodów między dochodami uczestników danej gospodarki. Umożliwiają obiektywne porównanie pomiędzy różnymi populacjami, ale aby to osiągnąć, muszą mieć pewne właściwości, jak na przykład: przeniesienie jednego dolara z portfela osoby bogatszej do biedniejszej powinno prowadzić do obniżenia poziomu nierówności.

Pojedyncze miary są bardziej wrażliwe na niektóre czynniki, więc wybór jednej z nich wiąże się z kompromisami. Różnią się pod względem informacji, które przekazują, ale żadnej z nich nie można uznać za lepszą, ponieważ wszystkie są użyteczne w pewnych kontekstach. Dobrze wyważona analiza nierówności powinna uwzględniać kilka z tych miar.

W module są wykorzystywane miary: Ginniego, Atkinsona, Hoovera, Coultera, T Theila oraz L Theila. Im wskaźniki są bliższe 0, tym bardziej równa jest populacja. Obserwacje o ujemnych wartościach nie biorą udziału podczas obliczania tych miar.

Test mediany Mooda

Test nieparametryczny sprawdzający równość median w dwóch lub więcej próbkach. Dane w każdej próbce dzielone są na dwie grupy. W pierwszej występują wartości większe, a w drugiej mniejsze lub równe medianie wszystkich obserwacji. Następnie stosuje się test chi-kwadrat Pearsona w celu określenia, czy obserwowane liczności w każdej próbce różnią się od oczekiwanych liczności wyprowadzonych z rozkładu połączenia obu grup.

Test Mosesa skrajnych reakcji

Nieparametryczny test porównujący dwie grupy: kontrolną i badaną pod względem obserwacji odstających. Przyjęcie hipotezy alternatywnej oznacza, że w badanej grupie bardziej prawdopodobne jest przyjęcie wartości odstających. Jako statystykę test ten przyjmuje rozstęp między największą a najmniejszą wartością z grupy kontrolnej w złączonej populacji grupy kontrolnej i badanej. Wraz z wynikami testu otrzymujemy wykres ramka-wąsy. Graficznie reprezentuje on niektóre z cech rozkładu, które również mogą być pomocne przy ocenie ekstremalnych wartości w grupach.

Test trendu Manna-Kendalla

Służy do analizy danych zebranych w czasie pod kątem rosnących lub malejących trendów (monotoniczności). Jest testem nieparametrycznym, przez co dane nie muszą pochodzić z żadnego konkretnego rozkładu. Efektywność testu spada w przypadku danych przejawiających sezonowość. Test można przeprowadzić już dla zaledwie kilku obserwacji, jednak wraz ze wzrostem ich liczby zwiększa się prawdopodobieństwo znalezienia prawdziwego trendu. Sprawdza on znaki różnic między daną obserwacją a każdą występującą po niej.

Miary DFBETAS do oceny wpływu punktów odstających

Występowanie w zbiorze danych obserwacji znacząco odbiegających od pozostałych pod względem wartości charakteryzujących ich parametrów może mieć duży wpływ na uzyskiwane wyniki analiz i doprowadzić do wyciągnięcia błędnych wniosków. W wielu przypadkach może to skutkować dużymi stratami finansowymi lub wręcz spowodować zagrożenie dla życia lub zdrowia człowieka. Identyfikacja obserwacji odstających jest więc istotnym elementem wstępnej analizy danych i ich przygotowania do dalszych, bardziej zaawansowanych analiz.

Jedną z metod identyfikacji obserwacji odstających jest analiza wartości DFBETAS. Metoda ta pozwala na szybką i wiarygodną identyfikację obserwacji mających największy wpływ na wartości współczynników liniowych modeli regresyjnych budowanych na analizowanym zbiorze danych. Wyniki przedstawione w postaci graficznej zapewniają prostotę interpretacji i mogą stanowić cenny element raportów oraz publikacji naukowych.

 

ANOVA – układy niestandardowe

 

W skład grupy analiz ANOVA – układy niestandardowe wchodzą moduły pozwalające badaczowi na wygodne i intuicyjne zdefiniowanie mniej standardowych układów ekspery­mentów. Dzięki nowym modułom badacz może zdefiniować układy typu:

  • split plot, split block, bloki randomizowane,
  • naprzemienny prosty
  • naprzemienny podwójny.

 

Split-plot, split-block i bloki randomizowane

Dzięki temu modułowi możemy przeprowadzić analizę bloków randomizowanych, split-plot oraz split-block. Te rodzaje analizy wariancji przydatne są zwłaszcza w doświadczeniach rolniczych, gdzie badaną zmienną zależną jest wielkość plonu, a ocenianymi czynnikami są odmiany, blok doświadczenia itp.

Aby przeprowadzić analizę, badacz musi w pierwszej kolejności określić interesujący go układ oraz liczbę czynników (od jednego do trzech). Po zatwierdzeniu typu analizy okno wyboru zmiennych dostosuje swój wygląd do jej wymagań.

Test nieparametryczny dla układu naprzemiennego prostego

Test ten stwierdza bez żadnych założeń o rozkładzie, czy istnieją różnice między skutecznością dwóch leków na podstawie wyników podawania ich w układzie naprzemiennym prostym. Układ taki oznacza, że pewne dwa leki, dla ustalenia uwagi oznaczmy je 'R’ – referencja oraz 'T’ – test, zostały podane w kolejności RT jednej grupie pacjentów oraz w kolejności TR drugiej grupie. Niepewność oszacowania jest obliczana za pomocą tak zwanego estymatora Hodgesa-Lehmanna.

 

Test parametryczny dla układu naprzemiennego podwójnego

Test ten jest używany do analizy wyników badania w układzie naprzemiennym podwójnym, gdy wyniki liczbowe spełniają założenia analizy wariancji. Jest to rodzaj badania porównującego skuteczność dwóch leków A i B, w którym każdy pacjent przyjmuje obydwa rodzaje leków w dwóch różnych dawkach: niższej (1) i wyższej (2). Mamy zatem cztery grupy odpowiadające sposobom przyjmowania leków: A1 i B2, A2 i B1, B1 i A2 oraz B2 i A1.
W wyniku analizy badacz uzyskuje raport analogiczny do wyniku klasycznej analizy wariancji oraz wykres analogiczny do zamieszczonego poniżej.

 


 

Porównanie i ocena metod

Grupa Porównanie i ocena metod zawiera szereg narzędzi umożliwiających sprawdzenie, czy dwie metody pomiaru dają równoważne wyniki. Narzędzia te pozwalają również na ocenę jakości wybranego sposobu pomiaru, poprzez wyznaczenie pewnych charakterystyk świadczących o jego jakości. Grupa zawiera następujące moduły:

  • Wykres Blanda-Altmana
  • Regresja Passinga-Babloka i Deminga
  • Wykres górkowy
  • Wykres Youdena
  • Granice wykrywalności

Wykres Blanda-Altmana

Wykres Blanda-Altmana wykorzystywany najczęściej w chemometrii i biostatystyce przedstawia stopień zgodności pomiędzy dwiema różnymi próbami, bądź wskaźnikami. Merytorycznie jest on identyczny z wykresem średnia-różnica Tukeya.

Jednym z głównych zastosowań wykresu Blanda-Altmana jest porównanie dwóch wskaźników klinicznych, z których każdy obciążony jest pewnym błędem pomiaru. Może być on także wykorzystany do porównania nowej techniki pomiaru, bądź wskaźnika z obowiązującym złotym standardem.
Na wykresie przedstawia się przedziały zgodności liczone jako średnia różnica pomiędzy badanymi wskaźnikami ± 1,96* odchylenie standardowe różnicy.

Regresja Passinga-Babloka i Deminga

Obydwie metody regresji mają na celu porównanie dwóch metod pomiarowych i różnią się istotnie od zwykłej regresji liniowej. Wynika to z faktu, że błędy losowe dotyczą obu badanych zmiennych, natomiast w podstawowych metodach przyjmujemy, że znamy dokładną wartość zmiennej odniesienia. Inna jest również interpretacja danych. Już na początku wiemy, że każda para obserwacji to pomiar tej samej wartości na różne sposoby, i chcemy sprawdzić, czy metody są równoważne, nie szukamy natomiast związków przyczynowo-skutkowych między nimi.

Regresja Passinga-Babloka służy wyłącznie do sprawdzania równoważności dwóch metod pomiarowych, nie zaś do oceny zależności liniowej między metodami. Regresja Deminga pozwala na ocenę zależności liniowej dwóch sposobów pomiaru, a nie tylko na określenie równoważności. Jest ona odpowiednikiem regresji liniowej dla przypadku, gdy błędy pomiarów związane są z każdą ze zmiennych.

Wykres górkowy

Wykres górkowy (mountain plot) służy do porównywania metod pomiaru i jest użytecznym uzupełnieniem innych narzędzi, jak np. wykres Blanda-Altmana. Wykres tworzony jest poprzez wyznaczenie percentyli dla uszeregowanych rosnąco różnic między wynikami nowej metody i metody odniesienia. Nazwa wykresu pochodzi stąd, że percentylom rzędu powyżej 50 przyporządkowujemy i zaznaczamy na wykresie (100 rząd percentyla), co daje swoisty dla tego rodzaju wykresu wierzchołek. W module, oprócz metody odniesienia, możemy wskazać jedną lub dwie nowe metody. Poniżej przedstawiono przykładowy wykres uzyskany w module.

Wykres Youdena

Za pomocą wykresu Youdena możemy ocenić rozbieżności w dwukrotnych pomiarach laboratoryjnych tych samych próbek. Z tego użytecznego wykresu rozrzutu wyczytamy wielkość błędu systematycznego wynikającego ze sposobu pomiaru w danym laboratorium w odniesieniu do wielkości błędu czysto losowego.

Na wykresie Youdena widnieją zawsze dwie proste: pionowa i pozioma przechodzące przez środek skupiska punktów, a dokładniej krzyżują się one w punkcie zwanym medianą manhattańską. Na wykresie mamy dodatkowo możliwość zaznaczenia okręgów b% i prostokątów c SD i wówczas wyrysowana zostanie także odpowiednia prosta ukośna. Okno analizy przedstawiono poniżej:

Granice wykrywalności

Zagadnienie wyznaczania granicy wykrywalności jest ważnym problemem w wielu badaniach laboratoryjnych. Na przykład przy ocenie testów na obecność narkotyków czy chorób zakaźnych trzeba określić, przy jakim poziomie stężenia rozpatrywanej substancji test da pozytywny wynik z odpowiednio niskim prawdopodobieństwem błędu. Zalecana metoda badania takich właściwości zakłada wielokrotne przeprowadzenie testu przy różnych poziomach stężenia, a następnie dopasowanie do danych tzw. krzywej probitowej, na podstawie której jest wyliczana graniczna wartość. Nowy moduł umożliwia automatyczne przeprowadzenie obliczeń dla zadanego poziomu wykrywalności, zwracając punktowe i przedziałowe oceny granicznego stężenia oraz wykresy ilustrujące zmierzone wyniki.

Miary efektu dla tabel 2×2

jest dedykowanym modułem przeznaczonym do obliczania na podstawie tabeli 2×2 szeregu wskaźników powiązania lub efektu. Na przykład umożliwia on obliczenie efektu związanego z binarną zmienną zależną, spowodowanego manipulacją binarną zmienną niezależną. Moduł umożliwia zarówno obliczenie wskaźników na podstawie danych surowych, jak również ręczne wprowadzenie lub korektę wartości w tabeli.

Miary te mają szczególne znaczenie w diagnostycznej analizie związków przyczynowych na podstawie rozkładów w tabeli obrazującej relacje typu test-efekt.

Analiza koncentracji

Moduł ten pozwala obliczyć miary koncentracji dla pojedynczych cech. Koncentracja jest tutaj rozumiana jako nierównomierny podział ogólnej sumy wartości analizowanej zmiennej pomiędzy poszczególne przypadki należące do analizowanego zbioru. Bardzo często tego typu analizy wykonuje się przy badaniu dochodów, koncentracji produkcji, gęstości zaludnienia itp. Koncentracja może być mierzona za pomocą wskaźników Giniego bądź Herfindahla oraz przedstawiona za pomocą krzywej koncentracji Lorenza.

Standaryzowane miary efektu

Moduł umożliwia obliczenie miar pozwalających na zbadanie siły związku pomiędzy dwiema zmiennymi w analizowanej zbiorowości. W module zaimplementowano trzy miary efektu – d Cohena, g Hedgesa, Δ Glassa oraz miarę korelacji V Cramera.

Test post hoc ANOVA Friedmana

Moduł umożliwia wykonanie testów post hoc dla nieparametrycznej analizy wariancji dla prób zależnych. Test może być oparty na średnich bądź sumach rang.

CATANOVA

Moduł umożliwia wykonanie analizy zmiennych jakościowych analogicznej do analizy wariancji. Moduł oblicza między innymi wskaźniki Tau Goodmana-Kruskala oraz C.

Karta CUSUM ważona ryzykiem

Moduł pozwala na monitorowanie jakości procesów medycznych w trybie on-line. Narzędzie to przeznaczone jest do wewnętrznego monitorowania jakości. Umożliwia śledzenie przebiegu badanego procesu w czasie zbliżonym do rzeczywistego. Pozwala na szybkie wychwycenie niepokojących objawów (wysoka czułość) i adekwatną reakcję na zaistniałą sytuację.

KMO i test Bartletta

Moduł umożliwia obliczenie indeksu KMO (Kaiser-Meyer-Olkin) oraz wykonanie test sferyczności Bartletta. Obydwie miary ułatwiają ocenę stosowalności analizy czynnikowej.

Konfiguracyjna analiza częstości (CFA)

CFA (Configural Frequency Analysis) jest narzędziem służącym do wyszukiwania wzorców i schematów w tabelach wielodzielczych. Pozwala odpowiedzieć na pytanie, czy wśród zgromadzonych danych występują pewne schematy pojawiające się częściej (typ) bądź rzadziej (anty-typ) niż byśmy się tego spodziewali. Wykorzystywana jest na przykład w naukach społecznych (określanie typów, wzorców zachowań klientów/pacjentów), czy badaniach skuteczności nowych programów nauczania (badania na dwóch grupach, w jednej wykorzystywano nowe metody, w drugiej stare; badanie porównuje postępy w obu grupach).

Moduł CFA umożliwia:

  • budowę tabel liczności dla danych surowych (zawierających pojedyncze obserwacje),
  • obliczenie częstości brzegowych,
  • obliczenie wartości oczekiwanych,
  • przeprowadzenie wybranego testu sprawdzającego występowanie typów/anty-typów w tabeli liczności.

Dodatkowo moduł umożliwia badaczowi określenie zakresu wyników, jakie powinny trafić do raportu.

Badanie ciągów pomiarów

Moduł ten służy do analizy zgromadzonych wartości pomiarów, które były wykonywane w pewnych odstępach czasowych u pacjentów należących do różnych grup. Mierzyć możemy na przykład stężenie ustalonej substancji we krwi w różnych momentach czasu, który upłynął od podania leku pacjentowi, a następnie badać, czy występuje statystycznie istotna różnica między różnymi grupami pacjentów pod względem pewnej wielkości obliczanej z wyników pomiarów. Może to być stężenie maksymalne, odsetek czasu poniżej pewnej wybranej wartości, pole pod krzywą stężenie-czas lub szereg innych parametrów.

Przedziały odniesienia

Przedmiotem obliczeń są przedziały odniesienia dla wybranej zmiennej wraz z przedziałami ufności końców tych przedziałów. Zostaje też utworzony odpowiedni wykres. Na przykład 95% przedział odniesienia to taki przedział, do którego przeciętnie trafia 95% wszystkich obserwacji. Nie wiadomo, gdzie dokładnie znajdują się jego końce, więc ich wartości są szacowane wraz z podaniem dla nich przedziałów ufności, by móc poznać wielkość niepewności tego szacowania. W module możemy w zależności od potrzeb wybrać różne sposoby obliczeń.

Przedział ufności dla ilorazów

Moduł umożliwia wyznaczenie przedziału ufności dla ilorazu dwóch średnich z wykorzystaniem metody Fiellera (1954). Analiza wymaga podania średnich, odchyleń standardowych oraz liczebności obu porównywanych podgrup – można wprowadzić je bezpośrednio lub wyliczyć z danych. Przedział ufności dla ilorazów może być wykorzystywany np. do analiz równoważności działania leków.

Profile ryzyka

Jest to graficzna metoda stosowana przede wszystkim w badaniach medycznych do przedstawiania charakteru zależności między czynnikami ilościowymi a wystąpieniem modelowanej choroby czy powikłania. Procedura polega na przedstawieniu, jak zmienia się iloraz szans (OR) wraz z wartością czynnika, przy czym OR obliczany jest na podstawie częstotliwości wystąpienia modelowanego stanu dla wartości czynnika,
mieszczących się w oknie o ustalonej szerokości.
Tak wyznaczony profil ryzyka można wzbogacić o wygładzenie metodą LOWESS, pasy ufności oraz wartość odniesienia (zwykle przyjmuje się OR=1). Profil ryzyka może sam w sobie stanowić cenny i efektowny wkład do publikacji lub pomóc w budowie modelu prognostycznego (np. poprzez ocenę liniowości wpływu czynnika na ryzyko).

Metodę tę można stosować nie tylko w medycynie, ale także w dowolnych innych zagadnieniach, gdzie badany jest związek między wystąpieniem pewnego stanu a czynnikami ilościowymi.

Wielowymiarowe testy normalności

Gdy mamy do czynienia z wielowymiarowymi danymi, opisanymi grupą zmiennych, często występuje potrzeba stwierdzenia czy pochodzą one z pewnego wielowymiarowego rozkładu normalnego. Możemy to zrobić właśnie tutaj – w skład wchodzą cztery testy statystyczne (Mardii skośności, Mardii smukłości, Henzego-Zirklera i Doornika-Hansena) oraz, pomocniczo, wykres kwantylowy odległości Mahalanobisa.

Wielowymiarowy rozkład normalny to własność silniejsza niż rozkład normalny dla każdej zmiennej z osobna, więc aby go zbadać nie wystarczy wielokrotnie przeprowadzić test normalności (jednowymiarowej), jak np. test Shapiro-Wilka, dla każdej współrzędnej.

Na normalność wskazuje w testach wartość p większa niż poziom istotności oraz na wykresie układanie się punktów wzdłuż prostej. Dodatkowo, jeśli dane są dwu- lub trójwymiarowe, to dopasowany dwu- lub trójwymiarowy rozkład normalny zostaje zobrazowany za pomocą wykresu rozrzutu.

Prosta regresja ortogonalna

Prosta regresja ortogonalna, której model możemy tu zbudować, polega na wyznaczeniu zależności liniowej dwóch zmiennych ilościowych, symetrycznej ze względu na odwrócenie ról tych zmiennych – o najmniejszej sumie kwadratów odległości punktów od prostej wyrażającej tę zależność.

Badanie rozkładu empirycznego

Moduł ten umożliwia wstępne zbadanie rozkładu wskazanej przez nas zmiennej ilościowej. To szczególnie liczy się gdy nic nie wiadomo o tym rozkładzie. Standardowo można do tego użyć histogramu, jednakże przedstawione narzędzie jest czulsze – oprócz słupków histogramu widnieje tu wykres gęstości rozkładu, szacowanej za pomocą estymatora jądrowego gęstości, oraz wykres dystrybuanty.

ICC

ICC oznacza współczynnik korelacji wewnątrzklasowej i jest miarą zgodności wielokrotnych ocen lub pomiarów wielu obiektów w ramach modelu analizy wariancji. W wynikach mamy wartości ICC dla wszystkich 6 możliwych modeli. Wysokie wartości ICC świadczą o zgodności/obiektywności ocen lub o dobrej dokładności pomiarów, jako że oznaczają wysoki poziom korelacji ocen/pomiarów dla przeciętnego pojedynczego obiektu. ICC jest stosowany także w obszarze powtarzalności i odtwarzalności pomiarów.

C Harrella

Miara dobroci dopasowania modeli, które generują oceny ryzyka. Jest używana do oceny modeli ryzyka w analizie przeżycia, gdzie dane mogą być cenzurowane. Intuicja stojąca za indeksem C Harrella jest następująca: nasz model ryzyka przypisuje każdemu pacjentowi ocenę ryzyka i jeśli nasz model ryzyka jest dobry, pacjenci, którzy mieli krótszy czas do wystąpienia choroby, powinni mieć wyższe wyniki ryzyka. Sprowadzając tę intuicję do dwóch pacjentów: pacjent z wyższym wskaźnikiem ryzyka powinien mieć krótszy czas do wystąpienia choroby.

Iloraz szans (OR) metodą Garta i Fagerlanda-Newcombe’a

Obie te metody obejmują obliczenie estymatora punktowego ilorazu szans oraz jego przedziału ufności, gdy mamy dane liczności ujęte w tabeli 2×2. Metody te są szczególnie warte zastosowania w przypadku, gdy niektóre z tych liczności są niewielkie.

Testy post-hoc bez jednorodności wariancji

Jeżeli spełnione jest tylko założenie normalności w jednoczynnikowej analizie wariancji, zaś wariancja jest niejednorodna, to wciąż możliwe są testy parametryczne. Test ogólny w takim przypadku to test F Welcha, zaś jako test post-hoc mamy do wyboru następujące cztery: test Gamesa-Howella, test T2 Tamhane’a, test T3 Dunnetta oraz test C Dunnetta.

Tabele liczności dla wielu zmiennych jakościowych

Narzędzie to służy do utworzenia naraz tabel liczności dla pewnej wskazanej zmiennej jakościowej względem dowolnej liczby innych zmiennych jakościowych. Każda z tych tabel zostaje opatrzona wynikiem testu chi-kwadrat, mówiącym o istotności lub braku istotności powiązania wartości obu zmiennych.

Test chi-kwadrat dla danych zagregowanych

Narzędzie to umożliwia wykonanie testu chi-kwadrat na danych zagregowanych, czyli licznościach ujętych w tabeli o dowolnych wymiarach.

Test Boxa jednorodności kowariancji

Do budowy modelu klasyfikacyjnego w zależności od wielu predyktorów ilościowych często posługujemy się liniową analizą dyskryminacyjną (LDA). Jednym z jej założeń jest jednorodność kowariancji, co oznacza tę samą macierz kowariancji predyktorów w obrębie każdej klasy. Test Boxa sprawdza właśnie to założenie, a jego istotny wynik powinien skłonić nas do zastosowania modelu kwadratowej analizy dyskryminacyjnej (QDA).

Test Jonckheere-Terpstra dla trendu

W niektórych zastosowaniach weryfikacja hipotezy o równości median w porównywanych grupach nie jest wystarczająca – znaczące jest nie tylko wystąpienie ewentualnych różnic, ale też obecność trendu opisującego zmiany wartości median w grupach uporządkowanych względem pewnej zmiennej porządkowej.
W takiej sytuacji zastosowanie znajduje test Jonckheere-Terpstra dla trendu, który umożliwia określenie, czy pomiędzy analizowanymi grupami występuje założony przez użytkownika trend dotyczący wartości median oraz ocenę jego istotności statystycznej. Uzyskiwana dodatkowo informacja o wielkości efektu umożliwia natomiast ocenę praktycznej istotności uzyskiwanych wyników.

Wykres słupkowy (Kolorowe słupki)

Moduł umożliwia utworzenie wykresu słupkowego i zdefiniowanie dla każdego ze słupków odrębnego koloru. Moduł daje również możliwość zmiany szeregu parametrów wykresu zgodnie z oczekiwaniami użytkownika.

Wykres sekwencyjny

Moduł umożliwia utworzenie wykresu sekwencyjnego i zdefiniowanie dla każdego z grup odrębnego koloru. Moduł daje również możliwość zmiany szeregu parametrów wykresu zgodnie z oczekiwaniami użytkownika.

Wykres radarowy

Moduł umożliwia utworzenie wykresu radarowego dla wybranych zmiennych na podstawie średnich bądź median. Możliwe jest wskazanie zmiennej grupującej oraz edycja szeregu parametrów wykresu.

Wykres mozaikowy

Moduł umożliwia utworzenie wykresu mozaikowego dla wybranych zmiennych jakościowych bardzo pomocnego w wizualizacji tabel kontyngencji. Możliwa jest edycja szeregu parametrów wykresu.

Wykres kołowy (SPie plot)

Moduł umożliwia utworzenie wykresu SPie będący odmianą wykresu kołowego, pozwalającą uwzględnić różnice w analizowanych grupach, zarówno za pomocą kątów, jak i długości promieni tworzonych wycinków. Możliwa jest edycja szeregu parametrów wykresu.

Piramida populacyjna

Piramida populacyjna najczęściej wykorzystywana jest w celu prezentacji danych demograficznych. Na wspólnej, pionowej osi zaznaczone są przedziały wiekowe (najmłodsze grupy na dole), natomiast słupki prezentują liczebność osób w danym przedziale w podziale na płeć.

Diagram sieci neuronowej

Zbudowawszy model sieci neuronowej na podstawie zbioru danych, w tym module mamy możliwość utworzenia diagramu przedstawiającego jej strukturę. Wystarczy podać liczności jej warstw: wejściowej, ukrytej i wyjściowej. Inne cechy sieci, jak postaci funkcji przejścia nie są uwzględniane. Wykres składa się z kwadratów oznaczających neurony poszczególnych warstw i pokazuje połączenia między neuronami z odpowiednich warstw.

Wykres sieci Kohonena

Moduł ten zawiera cztery rodzaje narzędzi do obrazowania sieci Kohonena – struktury przedstawiającej rozkład wielowymiarowych danych, mającej postać dwuwymiarowej prostokątnej siatki z neuronami w jej wierzchołkach:

Odległości między neuronami

Pierwszym narzędziem jest wykres przedstawiający odległości między sąsiednimi neuronami tworzącymi sieć Kohonena. Pola ośmiokątne oznaczają neurony i ich kolor odpowiada średniej odległości danego neuronu od jego sąsiadów. Pozostałe pola pokazują odległości między pojedynczą parą sąsiednich neuronów.

Dodatkowo mamy tu możliwość utworzenia macierzy odległości między sąsiednimi lub wszystkimi neuronami.

Średnie i liczności

Drugim narzędziem są wykresy liczności obserwacji przypisanych do danego neuronu sieci

oraz wykresy obrazujące średnią wartość wskazanej zmiennej z arkusza wejściowego dla przypadków przypisanych do danego neuronu.

Mapa z etykietami

Trzecie narzędzie to mapa sieci z etykietami poszczególnych neuronów. Oprócz etykiet neuronów mapa pokazuje odległości między sąsiednimi neuronami – im ciemniejsza krawędź tym mniejsza odległość a więc większe podobieństwo.

Płaszczyzny składowe

Czwartym narzędziem jest wykres przedstawiający za pomocą kolorów rozkład wag neuronów, czyli współrzędnych leżących w wielowymiarowej przestrzeni punktów przypisanych do neuronu. Im bardziej różniące się kolory tym mniejsze podobieństwo między neuronami. W zależności od liczby współrzędnych wskazanych do wykresu będzie on w odcieniach szarości, w dwóch składowych barw lub w pełnym zakresie barw.

Wykres diamentowy

Wykres diamentowy to narzędzie do obrazowania położenia wartości średniej wraz z jej przedziałem ufności dla wskazanej zmiennej ilościowej z podziałem na grupy, z założeniem normalności rozkładu tej zmiennej w każdej grupie. Lewy i prawy wierzchołek rombu ukazują granice wymienionego przedziału ufności natomiast jego pionowa oś symetrii przechodzi przez wartość średnią.

Szereg czasowy z limitami

Moduł ten służy do obrazowania przebiegu wartości szeregu czasowego za pomocą wykresu, z którego można sczytać to czy mieszczą się one wewnątrz wskazanych przez nas granic. Zazwyczaj określają one stan pożądany, prawidłowy lub zwyczajnie zakres wartości typowych. Wartości poza tymi granicami zostają uwidocznione kolorowymi znacznikami.

Róża wiatrów

Jeżeli jedna ze zmiennych opisujących dane ma charakter okresowy, może to być na przykład kąt lub godzina, to rozkład innej zmiennej ilościowej, nieujemnej, jak np. prędkość wiatru lub natężenie ruchu, w zależności od tej pierwszej można przedstawić za pomocą wykresu 'róża wiatrów’.

Przykładowo, dla zmiennej okresowej wyrażającej kierunek/kąt, gdy jednostką są stopnie, wartości 0, 180 i 230 utożsamiamy odpowiednio z wartościami 360, -180, -130 i dowolnymi innymi różniącymi się o całkowitą wielokrotność 360. Róża wiatrów ma dwie odmiany: wykres częstotliwości trafiania do przedziałów wartości oraz wykres rozrzutu.

Wykres Likerta

Użytecznym narzędziem służącym do przedstawiania wyników ankiet, w których odpowiedzi wyrażane są za pomocą skali Likerta – o wartościach 1, 2, 3, 4, 5, jest wykres Likerta. Pokazuje on odsetki wystąpień poszczególnych odpowiedzi w obrębie rozmaitych kategorii, jak przedziałów wiekowych, zawodu lub jednostek administracyjnych.

Wykres wrażliwości

Wykres wrażliwości to szczególny rodzaj wykresu słupkowego, służący do ukazania hierarchii ważności predyktorów pod kątem siły wpływu zmiany ich wartości na wielkość zmiennej zależnej w ramach modelu regresji liniowej. Słupki odpowiadające danemu predyktorowi, są tym szersze im większy ma on wpływ na zmienną zależną przy wahaniach proporcjonalnych do jego własnej zmienności.

Wykres słonecznikowy

Jeśli nasze dane liczbowe są dwuwymiarowe, to naturalnym jest zastanawiać się jak się one rozkładają na płaszczyźnie. Gdy liczba obserwacji jest duża, to zwykły wykres rozrzutu, zazwyczaj służący do tego celu, przestaje być czytelny i wówczas przydatny staje się wykres słonecznikowy, utworzony poprzez podział płaszczyzny na różnokolorowe sześciokątne obszary. Te do których nie trafiają żadne obserwacje są białe natomiast cała reszta podlega zasadzie: im wyższa gęstość obserwacji tym cieplejsza barwa.

Wykres skrzypcowy

Wykres skrzypcowy to jedno z narzędzi do obrazowego badania rozkładu pojedynczej zmiennej ilościowej. Jest on połączeniem, będących dla siebie nawzajem lustrzanymi odbiciami, wykresów empirycznej gęstości prawdopodobieństwa oraz wykresu ramkowego, dodatkowo z możliwością ukazania rozrzutu danych surowych.

Wykres piramidowy

Za pomocą tego modułu można utworzyć wykresy na kształt piramidy populacyjnej, które dokładniej rzecz biorąc, obrazują liczności występowania różnych kategorii, takich jak przedziały wiekowe, w obrębie dwóch grup, często oznaczających płeć.

Wykres motylkowy

Wykres motylkowy, wykazujący podobieństwo do opisanego powyżej wykresu piramidowego, również obrazuje liczności/odsetki występowania różnych kategorii w obrębie dwóch grup. Można go utworzyć zarówno dla danych surowych jak i dla gotowych liczności.

Nomogram

Nomogram obrazuje zbudowany model regresji logistycznej. Oznacza to model zależności prawdopodobieństwa wystąpienia pewnego zdarzenia od wartości predyktorów, wśród których mogą być zarówno zmienne ilościowe, jak i jakościowe. Dzięki nomogramowi można analizować, w jaki sposób dane wartości poszczególnych predyktorów wpływają na to prawdopodobieństwo. Miarą takiego wpływu jest punktacja, a suma punktów odpowiadających poszczególnym predyktorom bezpośrednio przekłada się na prawdopodobieństwo wystąpienia zdarzenia.

Wykres czteropolowy skategoryzowany

Wykres czteropolowy skategoryzowany w prosty sposób obrazuje iloraz szans wyznaczony na podstawie tabeli liczności dla dwóch zmiennych dwuwartościowych w przypadku, gdy obiekty opisane tymi zmiennymi tworzą co najmniej dwie grupy. Każdemu wykresowi przypisanemu do pojedynczej grupy towarzyszy wartość p z testu chi-kwadrat pod kątem powiązania obu tych zmiennych dwuwartościowych.

Wykres mozaikowy skategoryzowany

Wykres mozaikowy skategoryzowany pozwala w prosty i intuicyjny sposób przedstawić wartości dwudzielczej tabeli liczności, gdy w danych jest podział na grupy. Na każdym składowym wykresie mozaikowym pola odpowiadające ustalonym poziomom obu zmiennych jakościowych są proporcjonalne do liczby takich przypadków.

Wykres danych surowych

Wykres danych surowych pozwala na przedstawienie rozrzutu danych wokół mediany, w podziale na grupy lub bez. Dodatkowo możemy łatwo sczytać dane odstające oraz ekstremalne, wyznaczone na podstawie współczynnika zakresu wartości nieodstających, według Tukey.

Zapisz do pliku Office

Umożliwia zapisanie utworzonego skoroszytu Statistica do arkusza MS Excel lub dokumentu MS Word. W przypadku wzbrania formatu MS Excel, każdy obiekt skoroszytu zapisywany jest na osobnym arkuszu.

Zapisz pliki graficzne

Moduł umożliwia zapisanie wszystkich wykresów znajdujących się w skoroszycie Statistica do pliku osobnych plików graficznych w określonym formacie i rozdzielczości.

Formatuj arkusz

Moduł pozwala nadać wynikowym arkuszom Statistica pożądany przez użytkownika format – użytkownik określa sposób wyświetlania wartości komórek, typ i wielkość czcionki oraz inne parametry arkusza istotne podczas publikacji wyników.

Ogólne możliwości programu

Kreator testów statystycznych przeznaczony jest dla osób pragnących zweryfikować prawdziwość swojej hipotezy badawczej za pomocą testu statystycznego, mających jednocześnie trudności z wyborem testu, który byłby najbardziej odpowiedni w ich sytuacji. Kreator automatycznie sprawdza wszelkie założenia związane z danym typem problemu i w zależności od ich spełnienia proponuje poprawny test. Korzystając z tego narzędzia, badacz musi jedynie określić kwestie merytoryczne prowadzonej analizy, takie jak:

  • Jaką analizę chcemy przeprowadzić?
  • Czy badane próby są zależne/niezależne od siebie?
  • Ile grup analizujemy?
  • Na jakiej skali mierzone są badane zmienne?

Wynikiem działania programu jest skoroszyt zawierający wyniki poszczególnych testów (dotyczące założeń i głównego pytania) razem z interpretacją oraz wykresy i dodatkowe analizy generowane standardowo przy danym rodzaju badań.

W obecnej wersji Kreator testów statystycznych umożliwia wykonanie dwóch rodzajów analiz:

  • Testy dla pojedynczej zmiennej,
  • Badanie istotności różnic.

Wybranie jednego z nich spowoduje wyświetlenie schematu w postaci drzewa, dzięki któremu badacz w prosty, intuicyjny sposób może określić, jaki dokładnie typ analizy chce przeprowadzić.

Testy dla pojedynczej zmiennej

W celu przejścia do schematu dotyczącego analizy pojedynczej zmiennej wystarczy kliknąć w odpowiednie pole rodzaju analiz. Na ekranie pojawi się poniższy schemat.

Jak można zauważyć, w chwili obecnej program oferuje trzy typy testów dla pojedynczej zmiennej:

  • Normalność,
  • Losowość,
  • Obserwacje odstające.

W celu przeprowadzenia analizy wystarczy wybrać jeden z nich. Zostanie wtedy odblokowana możliwość wyboru zmiennych oraz wykonania analizy.

Badanie istotności różnic

Po wybraniu tego rodzaju analizy, podobnie jak w przypadku analizy dla jednej zmiennej, pojawi się schemat ułatwiający dokładne określenie właściwej ścieżki postępowania. Kreator będzie prowadził użytkownika krok po kroku, zadając mu kolejne pytania pozwalające doprecyzować rodzaj analizowanego problemu. Przykładowy schemat decyzyjny zamieszczono poniżej.

Po udzieleniu odpowiedzi na powyższe pytania, użytkownik musi jedynie wybrać zmienne i uruchomić analizę. Program sprawdzi założenia związane z daną klasą problemu, wybierze odpowiedni test i wygeneruje komplet wyników wraz z ich interpretacją.

Dodatkowe możliwości programu

Jak już wcześniej nadmieniono, program przeznaczony jest dla badaczy mających nieco mniejsze doświadczenie w analizie statystycznej. Parametry programu są zatem dostosowane do najbardziej typowych sytuacji. Bardziej doświadczeni analitycy mają jednakże możliwość określenia szeregu szczegółowych opcji dotyczących wyboru i konfiguracji testów. Ważnym atutem kreatora jest niewątpliwie możliwość zapisu raportu z analizy, zarówno w formacie Statistica, jak i MS Word. Poniżej zamieszczono fragment przykładowego raportu w formacie MS Word.