Szukaj Pokaż menu
Witaj nieznajomy(a) zaloguj się lub dołącz do nas
…BO POWAGA ZABIJA POWOLI

Paradoks Simpsona, czyli dlaczego nie warto ufać statystyce

189 589  
871   79  
Mark Twain powiedział kiedyś, że są trzy rodzaje kłamstw: kłamstwa, bezczelne kłamstwa i statystyki. Dzisiaj na przykładzie pewnego paradoksu pokażemy wam, jak wredna i myląca potrafi być właśnie statystyka, i jak łatwo - świadomie bądź nie - można wprowadzać ludzi w błąd.

Paradoks Simpsona

W 1973 roku Uniwersytet Kalifornijski został pozwany do sądu za to, że dyskryminował kobiety składające podania o przyjęcie na studia. Mężczyźni mieli zdecydowaną przewagę: 44% przyjęć w stosunku do 35% przyjęć kobiet.

Aplikujących Przyjętych
Mężczyźni 8442 44%
Kobiety 4321 35%

Pozew ten przyczynił się do przeprowadzenia szczegółowych badań. Okazało się, że kobiety nie tylko nie były dyskryminowane, ale miały wręcz przewagę nad mężczyznami! Jak to możliwe? Aby odpowiedzieć na to pytanie, musimy odnieść się do tzw. paradoksu Simpsona.

Efekt działania kilku grup danych wydaje się odwrotny, kiedy te grupy połączymy ze sobą


Oto co się wydarzyło. Niektóre kierunki miały wysoki współczynnik przyjęć, inne niski. Tak się złożyło, że kobiety chętniej składały podania na te bardziej wymagające kierunki. Mężczyźni z kolei woleli te przystępniejsze. Kiedy rozbijemy wyniki na poszczególne kierunki, okaże się, że współczynnik przyjęć jest korzystniejszy dla kobiet.

Kierunek Mężczyźni Kobiety
Aplikujących Przyjętych Aplikujących Przyjętych
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

Jest to jeden z najsłynniejszych przykładów wystąpienia wspomnianego paradoksu Simpsona.

Kamienie nerkowe

Aby lepiej sobie to utrwalić, podajmy jeszcze jeden przykład. Tym razem pod lupę weźmiemy dwie metody leczenia kamieni nerkowych. Która jest lepsza?

Metoda A - skuteczność 78% (zadziałała w 273 na 350 przypadków)
Metoda B - skuteczność 83% (zadziałała w 289 na 350 przypadków)

Na pierwszy rzut oka oczywiście wybierzemy B, ale jeśli wejdziemy w szczegóły, okaże się, że będzie to błędna odpowiedź.

Metoda A Metoda B
Małe kamienie Grupa 1
93% (81/87)
Grupa 2
87% (234/270)
Duże kamienie Grupa 3
73% (192/263)
Grupa 4
69% (55/80)
Łącznie 78% (273/350) 83% (289/350)

Kamienie nerkowe można sklasyfikować na duże i małe. Dużych oczywiście trudniej się pozbyć. Metoda A jest lepsza zarówno na te małe (93% do 87%), jak i te duże (73% do 69%). Obydwie metody leczenia zastosowano w 350 przypadkach. W czym więc problem? Kluczowym czynnikiem, który wpłynął na zakłamanie wyniku są proporcje małych i dużych kamieni w obydwu kuracjach.

Metoda A - 87 przypadków z małymi / 263 przypadki z dużymi
Metoda B - 270 przypadków z małymi / 80 przypadków z dużymi

Wyciągając średnią dla wszystkich 350 pacjentów leczonych metodą A wynik przechyli się w stronę dużych kamieni, bo ich jest znacznie więcej, a są leczone z nieco mniejszą skutecznością. Z kolei w metodzie B duża liczba małych kamieni i skuteczność w ich usuwaniu zawyży średnią. Wyciąganie ogólnej średniej spowoduje, że błędnie uznamy metodę B jako lepszą.

Kolejne warstwy kłamstwa

Paradoks Simpsona jest trochę jak obieranie cebuli. W przypadku kamieni nerkowych zewnętrzną warstwą był wynik faworyzujący metodę B. Kiedy zdjęliśmy tę warstwę i zajrzeliśmy głębiej, okazało się, że metoda A sprawdza się lepiej zarówno dla małych, jak i dużych kamieni.

Gdybyśmy zaczęli drążyć dalej, mogłoby się okazać, że jednak metoda B jest w pewnych przypadkach lepsza. Może dla pacjentów w podeszłym wieku. A może przy małych kamieniach u pacjentów z otyłością. Albo przy dużych kamieniach u pacjentów z jeszcze inną przypadłością. I tak dalej... Wiele czynników może wpływać na ostateczny wynik.

Jeszcze raz definicja Paradoksu Simpsona:
Efekt działania kilku grup danych wydaje się odwrotny, kiedy te grupy połączymy ze sobą

Gry wideo


Paradoks Simpsona pasuje do składania podań na uniwersytecie czy metod leczenia, ale równie dobrze można go zaobserwować w bardziej trywialnych rzeczach, jak gry komputerowe. Z następnym przykładem styczność mogły mieć osoby, które lubią pograć przez sieć. Nie odnosi się on do żadnej konkretnej gry.

Gracze twierdzą, że snajper ma zbyt wielką przewagę nad innymi klasami. Co mówią twarde dane?

- Snajper ma najwyższą średnią zabójstw na mecz spośród wszystkich klas.


Czy w takim razie gracze mają rację? Być może. Ale pora zdjąć warstwę z wierzchu i zajrzeć głębiej.

- Snajper ma wysoką średnią zabójstw w rozgrywkach niższego poziomu (wśród słabszych graczy).
- Snajperem gra się rzadziej w rozgrywkach wyższego poziomu (wśród najlepszych graczy).
- Snajper ma przewagę na niektórych mapach.


Zaczyna się już wyłaniać pełniejszy obraz, ale idźmy jeszcze dalej.

- Snajperem łatwo się gra.
- Klasami stwarzającymi największe zagrożenie dla snajpera grają głównie nowi, słabsi gracze.
- Snajper ma zbyt wielką przewagę na dużych mapach.
- Snajper ma dobre parametry w stosunku do innych klas, ale gra nie przenosi najlepszych snajperów na wyższy poziom rozgrywek.
- Snajper ma dobre parametry w stosunku do innych klas, ale gra błędnie premiuje słabszych snajperów awansem na wyższy poziom rozgrywek.

Dwa ostatnie przykłady pokazują, że nawet czynniki przeciwstawne sobie mogą powodować ten sam negatywny efekt - gracze uznają, że snajper ma zbyt wielką przewagę nad innymi klasami.


Co z tego wszystkiego wynika? Można się pokusić o taką teorię, choć nieudowodnioną, że:

Dla każdego statystycznego wyniku i wniosku istnieje zestaw danych, który daje taki sam wynik, ale inny wniosek.


Ten paradoks zachęca przede wszystkim do ostrożniejszego podchodzenia do wszelkiego rodzaju statystyk. Może się bowiem okazać, że jeśli głębiej w nie wejdziemy, dojdziemy do zupełnie innych wniosków niż pierwotne. Stwarza on też pole do wszelkiego rodzaju manipulacji.

Bonus

Na koniec warto jeszcze wspomnieć o jednym przypadku. W 2012 roku programista YouTube'a, Chris Zacharias, pracował nad optymalizacją serwisu. Strony rosły bowiem do rozmiaru 1,2 MB, powodując dłuższe wczytywanie. Udało mu się zmniejszyć rozmiar stron do zaledwie 98 KB. Zamienił też odtwarzacz Flasha na szybszy HTML5. Po tygodniu zbierania danych okazało się, że nowy kod jest wolniejszy! Mimo faktu, że rozmiar stron zmniejszył się 10-krotnie.

Ponownie zadziałał paradoks Simpsona.


Okazało się, że nowy kod generował sporo ruchu z południowej Azji, Ameryki Południowej i Afryki. W tych miejscach wczytywanie strony zajmowało średnio 2 minuty. Ale przy wcześniejszym kodzie zajmowałoby 20! Kod Chrisa był ogromnym sukcesem. 20 minut to zbyt długi czas oczekiwania, ale 2 minuty można jakoś przeżyć. W efekcie tego z YouTube'a mogły skorzystać po raz pierwszy całe społeczności ludzi, które wcześniej nie mogły sobie na to pozwolić. Patrząc jednak na ogólną średnią czasu ładowania, kod mógł sprawiać wrażenie porażki, bo te nowe wejścia zaniżyły wynik.

Nasuwa się więc pytanie, ile razy wpadliśmy w sidła tego paradoksu i nie mieliśmy o tym pojęcia?
13

Oglądany: 189589x | Komentarzy: 79 | Okejek: 871 osób

Dobra, dobra. Chwila. Chcesz sobie skomentować lub ocenić komentujących?

Zaloguj się lub zarejestruj jako nieustraszony bojownik walczący z powagą
Najpotworniejsze ostatnio
Najnowsze artykuły

25.04

24.04

Starsze historie

Sprawdź swoją wiedzę!
Jak to drzewiej bywało