032. Dlaczego nie lubimy statystyki? Głos w obronie.

Posted by Mariusz Wdowiak on środa, czerwca 21, 2017 with 4 comments

„Są trzy rodzaje kłamstw: kłamstwa, bezczelne kłamstwa i statystyki” miał powiedzieć kiedyś Mark Twain i myśl ta do dziś pojawia się w wielu rozmowach o statystyce. Bo statystyka jest nielubiana. Jest utożsamiana z kłamstwem absolutnym. W najlepszym przypadku jest bohaterką anegdot takich jak ta o statystycznej liczbie nóg pary składającej się z pana i pieska.

A przecież statystyka to wartościowa dziedzina wiedzy, to nauka ścisła, która w dosłownym znaczeniu pozwala zarabiać pieniądze. Bankom, firmom ubezpieczeniowym, właścicielom kasyn, a także zwykłym ludziom. Skąd więc tak częsta niechęć do statystyki?


Przekleństwo średniej arytmetycznej.


Ze wszystkich narzędzi statycznych z całą pewnością najbardziej zrozumiała jest średnia arytmetyczna. Nieszczęściem jest jednak to, że wiele osób redukuje statystykę właśnie do tego jednego narzędzia. Stąd biegnie prosta droga do prześmiewczych anegdot – to fakt - ale trzeba też wyraźnie powiedzieć, że najczęściej pożywką dla takiego podejścia jest po prostu brak wiedzy.

Jeżeli w pewnym zakładzie pracy mamy szefa z pensją 10 tys. zł i dziewięciu pracowników zarabiających po 1 tys. zł to średnie zarobki w tym zakładzie to 1,9 tys. Jeżeli ów szef przyzna sobie podwyżkę do wysokości 20 tys. a pensje pracowników pozostawi bez zmian to średnie wynagrodzenie wzrośnie do 2,9 tys. Wrogowie statystyki już w tym momencie przystąpią do ataku mówiąc, że nikt w tym zakładzie nie ma pensji w wysokości średniej, a skoro statystyka twierdzi, ze w tej firmie średnia pensja wzrosła o 53% to widać, jak na dłoni, że statystyka kłamie, bo prawie nikt podwyżki nie dostał.


Jednonarzędziowa dziedzina wiedzy.


Wrogowie statystyki mieliby pełną rację, gdyby ta dyscyplina nie oferowała innych narzędzi. Zanim je omówimy zastanówmy się, co by było, gdybyśmy w innych dziedzinach wiedzy stosowali też tylko pojedyncze narzędzia.

Weźmy medycynę. Takim jedynym narzędziem mógłby być termometr lekarski. Pomysł, aby zredukować całe bogactwo medycyny jedynie do pomiaru ciepłoty ciała brzmi absurdalnie, prawda? Nawet nie byłoby w tym nic nowatorskiego, bo poszlibyśmy po prostu śladami szeregowców Gusa i Wesa - bohaterów „Paragrafu 22” Josepha Hellera, którzy dzięki operowaniu jedynie termometrem – jak pisze autor - podnieśli medycynę do rangi nauk ścisłych.

Ale statystyka jest nauką ścisłą, więc nie ma sensu jej "podnosić"...


Odchylenie standardowe, mediana, centyl.


Gdybyśmy porzucili ślepe przywiązanie do średniej arytmetycznej i zarobki w opisanym powyżej zakładzie pracy poddali badaniu jeszcze tylko kilkoma innymi narzędziami statystycznymi, tymi najprostszymi, moglibyśmy dojść do podobnych wniosków, co „rozsądni” krytycy statystyki.

Zobaczmy:

Zarobki w zakładzie
Przed podwyżką szefa
Po podwyżce szefa
Średnia arytmetyczna
1.900
2.900
Odchylenie standardowe
2.700
5.700
Współczynnik zmienności
142%
197%
Mediana
1.000
1.000
Dziewiąty centyl
1.000
1.000

 

Interpretacja danych statycznych.


Faktycznie, średnie wynagrodzenie w tym zakładzie zwiększyło się z 1,9 tys. do 2,9 tys, ale uwagę zwraca bardzo wysokie odchylenie standardowe, które po podwyżce dla szefa dramatycznie rośnie. Jeszcze przed podwyżką oddalenie poszczególnych indywidualnych pensji było dość duże od średniej, a po podwyżce jest już ogromne. Potwierdzają to wartości współczynnika zmienności: 142% i 197% - zróżnicowanie pensji w tej firmie było bardzo duże i znacząco wzrosło. Zatem wzrost średniej został osiągnięty na dużej podwyżce małej części zatrudnionych. No to sprawdźmy medianę (wartość, dla której połowa pensji jest niższa i połowa wyższa). Jest ona stała. Przesuwamy się z naszymi badaniami w górę, aż do dziewiątego centyla (wartości, dla której 90% wynagrodzeń jest niższa i 10% wyższa) i zauważamy, że on też nie uległ zmianie. I już wiadomo, że podwyżka dotyczy tylko 10% najlepiej zarabiających, a znając liczbę wiadomo już, że podwyżkę otrzymała jedna osoba, a nawet można obliczyć jej wysokość.

Z trafnością interpretacji wiąże się oczywiście wybór stosowanych narzędzi, ale co ważniejsze intencja badającego. Miałem szczere intencje, żeby zbadać wynagrodzenia w przykładowym zakładzie pracy, więc zrobiłem to uczciwie. Świadome poprzestanie jedynie na średniej i ogłoszenie, że „średnia pensja wzrosła o 53%” byłoby manipulacją. Ale to byłby zarzut wobec osoby a nie wobec dziedziny wiedzy.


Polubić statystykę.


Nie warto więc walczyć ze statystyką. Nie warto powtarzać tych samych sloganów. Warto natomiast zwracać uwagę na to kto i jakimi metodami interpretuje dane.

Choć statystyka jest tak nielubiana, to mamy w Polsce aż dwa dni jej poświęcone. Co roku 9 marca mamy Dzień Statystyki Polskiej. A co pięć lat 20 października obchodzony jest Światowy Dzień Statystyki.

Statystycznie, mamy więc w Polsce aż 1,2 okazji do świętowania statystyki rocznie. :)