Paradoks Simpsona, czyli dlaczego nie warto ufać statystyce

Moonshield · 20 kwietnia 2016 11:59

189 589

871 79

Mark Twain powiedział kiedyś, że są trzy rodzaje kłamstw: kłamstwa, bezczelne kłamstwa i statystyki. Dzisiaj na przykładzie pewnego paradoksu pokażemy wam, jak wredna i myląca potrafi być właśnie statystyka, i jak łatwo - świadomie bądź nie - można wprowadzać ludzi w błąd.

Paradoks Simpsona

W 1973 roku Uniwersytet Kalifornijski został pozwany do sądu za to, że dyskryminował kobiety składające podania o przyjęcie na studia. Mężczyźni mieli zdecydowaną przewagę: 44% przyjęć w stosunku do 35% przyjęć kobiet.

	Aplikujących	Przyjętych
Mężczyźni	8442	44%
Kobiety	4321	35%

Pozew ten przyczynił się do przeprowadzenia szczegółowych badań. Okazało się, że kobiety nie tylko nie były dyskryminowane, ale miały wręcz przewagę nad mężczyznami! Jak to możliwe? Aby odpowiedzieć na to pytanie, musimy odnieść się do tzw. paradoksu Simpsona.

Efekt działania kilku grup danych wydaje się odwrotny, kiedy te grupy połączymy ze sobą

Oto co się wydarzyło. Niektóre kierunki miały wysoki współczynnik przyjęć, inne niski. Tak się złożyło, że kobiety chętniej składały podania na te bardziej wymagające kierunki. Mężczyźni z kolei woleli te przystępniejsze. Kiedy rozbijemy wyniki na poszczególne kierunki, okaże się, że współczynnik przyjęć jest korzystniejszy dla kobiet.

Kierunek	Mężczyźni		Kobiety
Kierunek	Aplikujących	Przyjętych	Aplikujących	Przyjętych
A	825	62%	108	82%
B	560	63%	25	68%
C	325	37%	593	34%
D	417	33%	375	35%
E	191	28%	393	24%
F	272	6%	341	7%

Jest to jeden z najsłynniejszych przykładów wystąpienia wspomnianego paradoksu Simpsona.

Kamienie nerkowe

Aby lepiej sobie to utrwalić, podajmy jeszcze jeden przykład. Tym razem pod lupę weźmiemy dwie metody leczenia kamieni nerkowych. Która jest lepsza?

Metoda A - skuteczność 78% (zadziałała w 273 na 350 przypadków)
Metoda B - skuteczność 83% (zadziałała w 289 na 350 przypadków)

Na pierwszy rzut oka oczywiście wybierzemy B, ale jeśli wejdziemy w szczegóły, okaże się, że będzie to błędna odpowiedź.

	Metoda A	Metoda B
Małe kamienie	Grupa 1 93% (81/87)	Grupa 2 87% (234/270)
Duże kamienie	Grupa 3 73% (192/263)	Grupa 4 69% (55/80)
Łącznie	78% (273/350)	83% (289/350)

Kamienie nerkowe można sklasyfikować na duże i małe. Dużych oczywiście trudniej się pozbyć. Metoda A jest lepsza zarówno na te małe (93% do 87%), jak i te duże (73% do 69%). Obydwie metody leczenia zastosowano w 350 przypadkach. W czym więc problem? Kluczowym czynnikiem, który wpłynął na zakłamanie wyniku są proporcje małych i dużych kamieni w obydwu kuracjach.

Metoda A - 87 przypadków z małymi / 263 przypadki z dużymi
Metoda B - 270 przypadków z małymi / 80 przypadków z dużymi

Wyciągając średnią dla wszystkich 350 pacjentów leczonych metodą A wynik przechyli się w stronę dużych kamieni, bo ich jest znacznie więcej, a są leczone z nieco mniejszą skutecznością. Z kolei w metodzie B duża liczba małych kamieni i skuteczność w ich usuwaniu zawyży średnią. Wyciąganie ogólnej średniej spowoduje, że błędnie uznamy metodę B jako lepszą.

Kolejne warstwy kłamstwa

Paradoks Simpsona jest trochę jak obieranie cebuli. W przypadku kamieni nerkowych zewnętrzną warstwą był wynik faworyzujący metodę B. Kiedy zdjęliśmy tę warstwę i zajrzeliśmy głębiej, okazało się, że metoda A sprawdza się lepiej zarówno dla małych, jak i dużych kamieni.

Gdybyśmy zaczęli drążyć dalej, mogłoby się okazać, że jednak metoda B jest w pewnych przypadkach lepsza. Może dla pacjentów w podeszłym wieku. A może przy małych kamieniach u pacjentów z otyłością. Albo przy dużych kamieniach u pacjentów z jeszcze inną przypadłością. I tak dalej... Wiele czynników może wpływać na ostateczny wynik.

Jeszcze raz definicja Paradoksu Simpsona:

Efekt działania kilku grup danych wydaje się odwrotny, kiedy te grupy połączymy ze sobą

Gry wideo

Paradoks Simpsona pasuje do składania podań na uniwersytecie czy metod leczenia, ale równie dobrze można go zaobserwować w bardziej trywialnych rzeczach, jak gry komputerowe. Z następnym przykładem styczność mogły mieć osoby, które lubią pograć przez sieć. Nie odnosi się on do żadnej konkretnej gry.

Gracze twierdzą, że snajper ma zbyt wielką przewagę nad innymi klasami. Co mówią twarde dane?

- Snajper ma najwyższą średnią zabójstw na mecz spośród wszystkich klas.

Czy w takim razie gracze mają rację? Być może. Ale pora zdjąć warstwę z wierzchu i zajrzeć głębiej.

- Snajper ma wysoką średnią zabójstw w rozgrywkach niższego poziomu (wśród słabszych graczy).
- Snajperem gra się rzadziej w rozgrywkach wyższego poziomu (wśród najlepszych graczy).
- Snajper ma przewagę na niektórych mapach.

Zaczyna się już wyłaniać pełniejszy obraz, ale idźmy jeszcze dalej.

- Snajperem łatwo się gra.
- Klasami stwarzającymi największe zagrożenie dla snajpera grają głównie nowi, słabsi gracze.
- Snajper ma zbyt wielką przewagę na dużych mapach.
- Snajper ma dobre parametry w stosunku do innych klas, ale gra nie przenosi najlepszych snajperów na wyższy poziom rozgrywek.
- Snajper ma dobre parametry w stosunku do innych klas, ale gra błędnie premiuje słabszych snajperów awansem na wyższy poziom rozgrywek.

Dwa ostatnie przykłady pokazują, że nawet czynniki przeciwstawne sobie mogą powodować ten sam negatywny efekt - gracze uznają, że snajper ma zbyt wielką przewagę nad innymi klasami.

Co z tego wszystkiego wynika? Można się pokusić o taką teorię, choć nieudowodnioną, że:

Dla każdego statystycznego wyniku i wniosku istnieje zestaw danych, który daje taki sam wynik, ale inny wniosek.

Ten paradoks zachęca przede wszystkim do ostrożniejszego podchodzenia do wszelkiego rodzaju statystyk. Może się bowiem okazać, że jeśli głębiej w nie wejdziemy, dojdziemy do zupełnie innych wniosków niż pierwotne. Stwarza on też pole do wszelkiego rodzaju manipulacji.

Bonus

Na koniec warto jeszcze wspomnieć o jednym przypadku. W 2012 roku programista YouTube'a, Chris Zacharias, pracował nad optymalizacją serwisu. Strony rosły bowiem do rozmiaru 1,2 MB, powodując dłuższe wczytywanie. Udało mu się zmniejszyć rozmiar stron do zaledwie 98 KB. Zamienił też odtwarzacz Flasha na szybszy HTML5. Po tygodniu zbierania danych okazało się, że nowy kod jest wolniejszy! Mimo faktu, że rozmiar stron zmniejszył się 10-krotnie.

Ponownie zadziałał paradoks Simpsona.

Okazało się, że nowy kod generował sporo ruchu z południowej Azji, Ameryki Południowej i Afryki. W tych miejscach wczytywanie strony zajmowało średnio 2 minuty. Ale przy wcześniejszym kodzie zajmowałoby 20! Kod Chrisa był ogromnym sukcesem. 20 minut to zbyt długi czas oczekiwania, ale 2 minuty można jakoś przeżyć. W efekcie tego z YouTube'a mogły skorzystać po raz pierwszy całe społeczności ludzi, które wcześniej nie mogły sobie na to pozwolić. Patrząc jednak na ogólną średnią czasu ładowania, kod mógł sprawiać wrażenie porażki, bo te nowe wejścia zaniżyły wynik.

Nasuwa się więc pytanie, ile razy wpadliśmy w sidła tego paradoksu i nie mieliśmy o tym pojęcia?

871 Podoba mi się!

Oglądany: 189589x | Komentarzy: 79 | Okejek: 871 osób

Nieprawdopodobne historie spadkowe

Duchy na XIX-wiecznych fotografiach

Dokąd zmierza ludzkość? Eksperyment Calhouna

5 banalnie prostych rozwiązań, które pozwoliły oszczędzić kupę kasy

7 znanych miejsc z szerzej nieznanej perspektywy

7 dość zaskakujących ciekawostek na temat Europy

Dobra, dobra. Chwila. Chcesz sobie skomentować lub ocenić komentujących?

Zaloguj się lub zarejestruj jako nieustraszony bojownik walczący z powagą

Najpotworniejsze ostatnio

Naj… oglądane
Ulubione
Komentowane

Memy, które przyniosą ci odrobinę uśmiechu LII
(64 800x)

Faktopedia – Zaniedbane choroby tropikalne
(64 406x)

Mistrzowie Internetu – Dlaczego w Polsce mamy wschodnie zarobki i zachodnie ceny
(62 677x)

Pięć nadchodzących remake'ów, o które absolutnie nikt nie prosił
(58 209x)

Największe obciachy – Ludziom nie podobają się stroje polskich olimpijczyków zaprezentowane przez firmę Adidas
(56 063x)

Najnowsze artykuły

25.04

24.04

Starsze historie

Sprawdź swoją wiedzę!

Jak dobrze znasz gwarę krakowską?
(20 679x)

Czy wiesz, jak nazywają się te chmury?
(12 272x)

Jak dobrze znasz stolice państw z całego świata?
(27 959x)

Czy rozpoznasz te zioła po zdjęciu?
(17 709x)

Jak to drzewiej bywało

Redakcja serwisu nie odpowiada za materiały nadesłane przez użytkowników.
Uwagi, problemy, smutki i radości związane z niedziałaniem strony możesz przesyłać do administratora strony

Ten serwis jest bezpieczny: do jego produkcji nie użyto ani miligrama glutenu, nie zawiera też sztucznych barwników oraz glutaminianu sodu. Wszystkie zwierzęta, które były obok przeżyły, niektóre tylko lekko się uśmiechały. Zawiera większe niż śladowe ilości potu i łez jego programistów. A ty, który zauważyłeś, że po 23 latach zmieniła się stopka serwisu, bądź błogosławiony, Monster ci sprzyja.