sb-wettbewerb_kleinDieser Artikel ist Teil des ScienceBlogs Blog-Schreibwettbewerb 2017. Informationen zum Ablauf gibt es hier. Leserinnen und Leser können die Artikel bewerten und bei der Abstimmung einen Preis gewinnen – Details dazu gibt es hier. Eine Übersicht über alle am Bewerb teilnehmenden Artikel gibt es hier. Informationen zu den Autoren der Wettbewerbsartikel finden sich in den jeweiligen Texten.
——————————————————————————————————————

Statistik leicht gemacht: was und warum ist der Median?

von Jens Foell

Ich bin Psychologe und Hirnforscher, derzeit an der Florida State University, und verbringe meine Zeit auch gerne mit Wissenschaftskommunikation. Ihr findet mich auf Twitter unter @fMRI_guy.

Alle reden vom Durchschnitt. Dabei stellt sich aber schnell raus: dieser ist häufig einfach irreführend. Aber wann? Und warum? Und was können wir dagegen tun? Gibt es etwa ein fast genauso einfaches Alternativmaß, auf das man sich verlassen kann? Oh ja, das gibt es, und zwar den Median!

Ich muss euch ein krasses Geheimnis verraten: Nicht jede Statistik ist gelogen.

Ja gut, bei manchen Statistiken, die man in den Medien sieht, verliert man schnell mal den Verstand. Und auch sonst sind manche Zahlen und Diagramme schwer zu glauben. Aber Tatsache ist: Die meisten Statistiken sind nicht gelogen, sondern nur auf eine Art präsentiert, die sie bedeutungslos machen. So ist es meist zu erklären, dass verschiedene „Experten“ bei demselben Thema mit völlig unterschiedlichen Zahlen um die Ecke kommen.

Das Gute ist: es gibt eine Lösung. Das zweite krasse Geheimnis lautet nämlich: Statistik ist bei weitem nicht so kompliziert, wie einem alle vormachen. Es ist ein wenig wie beim Schach: Man braucht Jahre und Jahrzehnte, um sich richtig aus zu kennen, und die Großmeister sind nur damit beschäftigt, sich gegenseitig zu übertreffen. Aber genau wie beim Schach gibt es nur wenige Grundregeln, die man verstanden haben muss, um zu begreifen, was vor sich geht.

Was ich mit diesem Post erreichen will ist, dass ihr innerhalb von ein paar Minuten genug gelernt habt, um auf den ersten Blick zu erkennen, wenn euch einer eine bedeutungslose Statistik unterjubelt. Quasi so, wie man auf den ersten Blick eine unmögliche Aufstellung beim Schach erkennen kann.

Ist doch ganz einfach. Springer schlägt Hefeweizen auf A3 Bild: Dougle Nisbet, CC BY-NC 2.0)
Ist doch ganz einfach. Springer schlägt Hefeweizen auf A3 Bild: Dougle Nisbet, CC BY-NC 2.0)

Kommen wir also gleich zum ersten Beispiel. Stellen wir uns vor, ich habe eine großartige CD mit selbst gesungener Musik produziert. Der Einfachheit halber nennen wir sie „Nuschelrock, Vol. 1“. Jetzt verkaufe ich meine Nuschelrock-CD übers Internet, und benutze dabei ein System, das sich seit einer Weile bewährt hat: Jeder darf zahlen, was er will. Nach ein paar Tagen schaue ich nach den Verkaufszahlen und sehe, dass zumindest manche Leute anbeißen. Der eine zahlt vielleicht 4 Euro für die CD, der andere vielleicht 10 Euro… das Zwischenergebnis sieht irgendwann so aus:

Verkaufte CDs: 100
Gesamteinnahmen: 732 Euro

Jetzt würde ich aber gerne wissen: Was ist den Leuten meine CD im Durchschnitt wert? Den Durchschnitt zu berechnen, ist einfach: 732 Euro geteilt durch 100 verkaufte CDs ergibt 7,32 Euro pro CD. Das sind die Leute im Schnitt bereit, auszugeben.

Plötzlich passiert etwas Tolles: ein wohlhabender Freund von mir ist so begeistert von meiner Aktion, dass er eine CD für 1000 Euro bestellt, um mir einen Gefallen zu tun. Oder vielleicht aus Mitleid. Mir als Schwabe ist das zunächst mal egal, solange nachher der Kontostand stimmt. Und wie sehen jetzt, nach dieser einen weiteren Bestellung, die Verkaufszahlen aus?

Verkaufte CDs: 101
Gesamteinnahmen: 1732 Euro

Berechnen wir nun noch mal den Durchschnitt: 1732 Euro geteilt durch 101 verkaufte CDs ergibt im Schnitt 17,15 Euro. Durch diesen einen Verkauf hat sich der Schnitt mehr als verdoppelt.

Das haut das dickste Sparschwein um. Bild: €-Schwein, CC BY-ND 2.0)
Das haut das dickste Sparschwein um. Bild: €-Schwein, CC BY-ND 2.0)

Was habe ich jetzt für ein Problem damit? Ganz einfach: Der Durchschnitt ist jetzt nicht mehr stellvertretend dafür, was den Leuten meine CD tatsächlich wert ist. Wenn ich mir überlege, was meine CD auf dem freien Markt einbringen würde, wäre die Antwort immer noch „knapp über 7 Euro“. Mein neuer, überzogener Durchschnitt mag mir vielleicht ein tolles Image einbringen, aber die Aussage „im Schnitt zahlen die Leute über 17 Euro für meine CD“ wäre irreführend, selbst wenn sie mathematisch korrekt ist.

Der Knackpunkt ist, dass das bei allem zutrifft, bei dem statistische Ausreißer vorkommen. Durchschnittsgehälter zum Beispiel: In Deutschland gibt es Tausende Einkommensmillionäre, die den Schnitt vollkommen verfälschen. Andere Beispiele sind Miet- bzw. Hauspreise oder Einspielergebnisse bei Filmen. Ein Gegenbeispiel wäre die Körpergröße: Die ist so verteilt, dass jeder extrem große Mensch im Grunde durch einen extrem kleinen ausgeglichen wird – der Durchschnitt stimmt also wieder.

Aber woher soll man das als Konsument wissen? Muss ich jedes Mal erst über die Verteilungen und Hintergründe nachlesen, wenn mir die Tagesschau (oder, Gott bewahre, die Bild-Zeitung) einen Durchschnitt präsentiert?

Es gibt zum Glück eine einfache Lösung, und zwar den Median. Der ist ein anderes Maß, um einen Mittelwert zu berechnen. Wie das geht? Ganz einfach: Stellen wir uns vor, ich bestelle mir alle ein, die im Internet meine CD bestellt haben. Dann stelle ich sie alle nebeneinander auf, und zwar in der Reihenfolge des Preises, den sie bezahlt haben.

Ungefähr so. Sitz! Bild: Jörg Kantel, CC BY-NC-ND 2.0)
Ungefähr so. Sitz! Bild: Jörg Kantel, CC BY-NC-ND 2.0)

Es stehen also alle 101 Kunden sauber aufgereiht in meiner Wohnung. Ganz am einen Ende steht mein wohlhabender Freund, ganz auf der anderen Seite der größte Knauser (der vielleicht nur einen Cent für die CD bezahlt hat). Jetzt gehe ich zu dem in der Mitte (in dem Fall Nummer 51) und frage ihn, wie viel er bezahlt hat. Seine Antwort wird sehr nahe an 7,32 Euro liegen – vielleicht hat er 7 Euro bezahlt, vielleicht auch 7,50 Euro. Aber in jedem Fall ist seine Antwort der Median – und der ist hier aussagekräftiger als der „andere“ Durchschnitt, weil mein wohlhabender Freund nicht mehr so stark ins Gewicht fällt.

Kurzum: In solchen Fällen ist der Median verlässlicher. Wann immer es um Dinge geht, die schief verteilt sein könnten, solltet ihr darauf bestehen, dass euch niemand einen bedeutungslosen Durchschnitt vorsetzt, sondern alle nur den Median. Solange aber die Leute gar nicht wissen, dass es dieses Maß gibt – warum sollten sich die Medien die Mühe machen, es anzugeben?

Eine kleine Info am Rande: Obwohl den Amerikanern gerne eine mangelnde Allgemeinbildung vorgeworfen wird, haben die US-Medien die Bedeutung des Medians schon längst verstanden. Egal ob im Fernsehen oder im Radio – jeder, der etwas auf sich hält, wird im entsprechenden Fall den Median angeben und sagt das in aller Regel auch dazu. Das ist der beste Weg, um verlässliche Zahlen zu erhalten – und übrigens ist das gleich das dritte Geheimnis dieses Artikels: Die Annahme der mangelnden Allgemeinbildung in den USA ist in den meisten Zusammenhängen eine reine Illusion.

Für alle, die tatsächlich bis hierher durchgehalten haben: Gratulation, ihr lasst euch jetzt ein bisschen weniger leicht über den Tisch ziehen, wenn es um Statistik geht. Ein kleiner Schritt gegen die Fake News!

78 Gedanken zu „Statistik leicht gemacht: was und warum ist der Median?“
  1. Ich bin nur bis zum ersten Bild gekommen.

    Das Bier darf (noch) nicht genommen werden, denn Weiß ist am Zug. Allerdings steht gleichzeitig die Dame auf g4 ein. Was wird Weiß retten, das Bier oder die Dame?

    Nebenbei, was sind die Zugregeln für ein Bier?!

  2. Stimmt schon – ein bissl mehr Statistik-Grundwissen täte uns allen gut. Median – da war doch etwas! Richtig :-). Gut erklärt, klar und knapp (vielleicht ein ganz wenig zu knapp, wenigstens ein beispiel mehr wäre schön gewesen). Aber bisher einer der besten Artikel hier.

  3. Habe jetzt den Rest gelesen.

    Ich denke das der Median bei 0 € liegen würde, zumindest nach dem Beispiel aus deinem Link. Dort haben 62% gar nichts bezahlt.

  4. Interessantes Thema, flüssig und locker geschrieben, angenehmer ironischer Unterton, witzige Bebilderung. Soweit sehr gut!

    Jetzt gehe ich zu dem in der Mitte (in dem Fall Nummer 51) und frage ihn, wie viel er bezahlt hat. Seine Antwort wird sehr nahe an 7,32 Euro liegen – vielleicht hat er 7 Euro bezahlt, vielleicht auch 7,50 Euro.

    Das verstehe ich nun nicht ganz, ist diese Annahme (…„sehr nahe an 7,32 Euro“…) nicht ein wenig willkürlich? Wäre es nicht ausagekräftiger, wenn hier zB die „Tridiane, oder Quadriane oder Quintiane“ (etc.) bestimmt und daraus jeweils ein Durchschnitt ermittelt würde?

  5. Ein flott geschriebener Artikel, der zum Schmunzeln anregt. Gefällt mir. Fehlt eigentlich nur noch ein Bild mit niedlichen Kätzchen… 😉

    Zum Thema: Erstaunlich viele Leute kennen in der Tat den Median nicht.

  6. @tomtoo
    Du meinst also, dass Weiß, in der oben abgebildeten Stellung am Zug, nachdem Schwarz mit h6-h5 die Dame angriff und dabei das Bier verschmähte, die Dame g4 rettet und das Bier hergibt?
    Möglich.
    Weiß könnte aber auch auf f7 mit Schach schlagen.
    Ob Weiß auch mit dem Bier Schach bieten könnte? Und dann im nächsten Zug die Dame retten.

  7. …wie wärs, wenn man die Bauern durch Biere ersetzt – und jeder geschlagene Bauer muss ge-ext werden! Würde sicher eine neue Spieldynamik geben…
    Geht bestimmt auch mit Schnapps… 🙂

  8. @Uma
    Wer würde schon ein Bier für eine Dame opfern ? Da müsste dann schon ein klares Matt in X zügen zu sehen sein.

    Ey, was schaut ihr alle so ? Es geht um Schach. ; )

  9. Immer wieder der Durchschnitt: Fast alle Menschen haben überdurchschnittlich viele Gliedmaßen ist im Übrigen auch eine in diesem Sinne korrekte Aussage 😉

  10. @Bullet
    Bleib locker. Ich hab jetzt gelernt, sollte ich wegen dem Bier doppelt sehen, ist es egal ob ich den Median oder den Durchschnitt für die Wegfindung nutze. Oder?

  11. Ich bin mir inzwischen ziemlich sicher, dass es in diesem Beitrag nur vordergründig um den Median geht. Man beachte: Der Autor ist Psychologe und Hirnforscher!
    In Wirklichkeit sind wir mit ziemlicher Sicherheit unwissentliche Teilnehmer eines psychologischen Experiments! Es geht anscheinend darum, herauszufinden, wer wie stark auf welches der drei Bilder reagiert!
    Bisheriger Sieger ist eindeutig das Bild mit dem Schachbrett und dem Bier (sehr interessant…).
    Ich bin hingegen von den süßen Hunden geflasht und vermisse (wie ich weiter oben schon schrieb) zum vollständigen Wohlgefühl nur noch ein Bild mit süüüßen kleinen Kätzchen. (Hier hätte man meiner Meinung nach den Versuchsaufbau noch deutlich optimieren können).
    Interssant übrigens auch, dass noch niemand auf das Sparschwein reagiert hat. Was sagt uns das?
    😉

  12. @Withold Ch.:

    Das verstehe ich nun nicht ganz, ist diese Annahme (…“sehr nahe an 7,32 Euro”…) nicht ein wenig willkürlich? Wäre es nicht ausagekräftiger, wenn hier zB die “Tridiane, oder Quadriane oder Quintiane” (etc.) bestimmt und daraus jeweils ein Durchschnitt ermittelt würde?

    Das ist eben die Definition des Median: man ordnet die Werte der Größe nach und nimmt den genau in der Mitte. Damit ist der Median exakt definiert (zumindest bei einer ungeraden Anzahl an Werten; bei einer geraden Anzahl nimmt man einen der beiden der Mitte am nächsten oder den Mittelwert der beiden). Die „Annahme“ bezieht sich nur darauf, dass man – ohne ihn zu kennen – den Median recht gut abschätzen kann soferne die Verteilung einigermaßen symmetrisch ist und es keine groben Ausreißer gibt, dann ist er nicht allzu weit vom Mittelwert entfernt. Was ihm der Typ in der Mitte dann sagt, ist der exakte Median, ohne jede Willkür.

    Was du „Quadriane“ nennst, heißt „Quartile“, d.h. jener Wert wo drei Viertel größer und ein Viertel kleiner sind oder umgekehrt. Bei Schritten von 10% spricht man von Dezilen oder ganz allgemein von Perzentilen. Damit kann man eine Verteilung genauer charakterisieren als mit dem Median alleine, beispielsweise in einem Boxplot: sieht aus wie eine Fahrradpumpe und enthält üblicherweise Minimum, Median, Maximum und Quartile: https://xkcd.com/1798/

  13. @StefanL
    Wird im Bild mit den Hündchen deutlich, also bzgl. der Anzahl und Zeitaufwand. Auf dem Bild ist der Mittelwert noch ok. Nach dem Treffen, also so eine gewisse Zeit danach, könnte dann doch der Median die bessere Wahl sein. Alles klar ?

  14. @ Lercherl # 23

    Danke für Deine Erklärungen.

    … man ordnet die Werte der Größe nach und nimmt den genau in der Mitte.

    Ja, so verstehe ich es nun … das hatte ich nicht bedacht.

    („Quadriane“ etc. hatte ich behelfsmässig aus meiner „mathematischen Aporie“ heraus erfunden …)

  15. Wobei die Berechnungsregeln für den Median gar nicht so einfach zu verstehen sind. Vor vielen, vielen Jahren fragte mich ein Arbeitskollege, der mathematische eigentlich fit ist, wie man den Median bei folgender Konstellation berechnet: gegeben ist eine Zahlenreihe mit {1;1;1;1;1;3;3;3,5}. Er war sich nicht sicher, ob man die Zahlen gleicher Größe zusammenfasst, also {1,3,5} und daraus den Median bestimmt ==> 3. Oder sich das auf alle Zahlen bezieht ==> 1. Ja, auf Ideen kommen die Menschen. 😉

  16. Hallo Leute, hier ist der Autor des heutigen Artikels! Sorry fuer die Funktstille, hier in Florida ist es ja erst noch vormittags 😉
    Vielen herzlichen Dank fuer die positiven und witzigen Kommentare!! Ich stehe gern fuer Anfragen zur Verfuegung. Es kamen schon Fragen zum Median, aber die wurden glaube ich alle bereits von anderen Kommentatoren beantwortet. Falls ihr aber andere Fragen habt, oder euch einfach so melden wollt, werde ich die Kommentarspalte im Blick behalten; oder meldet euch auch gerne ueber Twitter bei mir unter @fMRI_guy 🙂

  17. @shader

    Warum beim Median nicht zusammengefasst wird, sieht man z.B. schön beim Medianeinkommen. Fiktives Beispiel:

    1.000 Arbeiter verdienen je 1.000
    10 Chefs verdienen je 10.000
    1 Über-Boss verdient 100.000

    Der Median ist 1.000 und nicht 10.000: deswegen verwenden wir den Median, weil ihn die wenigen Ausreißer nur marginal beeinflussen können.

  18. Ich will mal ehrlich sein. Sehr schön erklärt. Spritzig dargestellt. Aber für eine Spitzenwärtung reichts bei mir nicht. Da ist mir der Inhalt zu wenig. Ok, man kann jetzt ‚buh‘ zu mir rufen. Aber ich möchte ehrlich meinen Eindruck darlegen.

  19. Danke für die Aufklärung. Guter Blogartikel.

    Dass es einen Median gibt, und wie einfach der auch für Nichtstatistiker ermittelt werden kann, ist mir erst in den letzten Jahren im Zuge vieler Internet-Diskussionen langsam bewusst geworden. Das ist auf jeden Fall immer noch viel zu wenig bekannt. Aufklärung tut weiterhin Not!

    Die Beispiele in dem Artikel fand ich gut, ich denke, eine zusätzliche Balkengrafik hätte es vielleicht noch deutlicher gemacht (viel schneller zu erfassen als ein Text).

    Es ist immer schön, wenn man ein Tool an die Hand bekommt, mit dem man schnell erkennen kann, ob man mal wieder verarscht werden soll.

    Z.B. wenn der Hamburger Verkehrsverbund sich mal wieder seinen jährlichen kräftigen „Schluck aus der Pulle“ gönnt (sprich: Preiserhöhung). Die behaupten dann kackfrech, die Fahrpreise wären nur um „durchschnittlich 2%“ angehoben worden, während das Ticket für die meistverkaufte Einzelfahrkarte gerade von 2 auf 2,20 Euro gestiegen ist …

    Ich muss auch grad an die „durchschnittliche Lebenserwartung“ denken. Viele glauben noch immer, unsere frühen Vorfahren wären allen nur 30-40 Jahre alt geworden. Wenn man allerdings die hohe Kindersterblichkeit rausrechnet, sieht das schon ganz anders aus. Auch damals gab es natürlich Leute, die über 60 wurden … würde der Median auch hier weiterhelfen? Es ist mir leider nicht gegeben, das mal eben zu approximieren :]

  20. Solche Erklärungen motivieren ungemein! Mehr davon, bitte!!
    Und die Bier-Weizen-Schachregelfrage sollte auch noch weiter vertieft werden, da wird der Nutzen von Wissenschaft unmittelbar deutlich 🙂

  21. @Dampier

    Ich muss auch grad an die “durchschnittliche Lebenserwartung” denken. Viele glauben noch immer, unsere frühen Vorfahren wären allen nur 30-40 Jahre alt geworden. Wenn man allerdings die hohe Kindersterblichkeit rausrechnet, sieht das schon ganz anders aus. Auch damals gab es natürlich Leute, die über 60 wurden … würde der Median auch hier weiterhelfen? Es ist mir leider nicht gegeben, das mal eben zu approximieren :]

    Ich habe einmal den Altersmedian von Personen mit Wikipedia-Artikel nach Todesjahr sortiert bestimmt. Der durchschnittliche Median (ja, der Durchschnitt des Medians), pro Jahrhundert ist:

    17. Jahrhundert: 61,0
    18. Jahrhundert: 64,9
    19. Jahrhundert: 66,6
    20. Jahrhundert: 71,3
    21. Jahrhundert: 80,9

    In früheren Jahrhunderten gibt es zu wenig Leute mit verlässlich bekannten Lebensdaten, um vernünftige Statistiken zu generieren.

    Natürlich muss man sich der Mängel des Auswahlverfahrens bewusst sein. Kinder bekommen keine Wikipedia-Artikel, außer in seltenen Fällen Königskinder oder prominente Mordopfer, daher fließt die Kindersterblichkeit überhaupt nicht ein. Auch sonst sind Leute mit Wikipedia-Artikel kein repräsentativer Querschnitt der Bevölkerung. Vor allem in früheren Jahrhunderten sind Adelige, Bischöfe und dergleichen stark überrepräsentiert. Die hatten wohl bessere Ernährung und überhaupt bessere Lebensbedingungen und lebten daher meist länger als das gemeine Volk.

    Grafisch gibt es das Ganze hier: https://1drv.ms/f/s!AiveP8mGyk6k5VgoI4x3uixXGgax

  22. In der Tat ein ganz flotter Beitrag. Die Sache mit dem Sich-in-einer-Reihe-aufstellen-und-den-in-der-Mitte-suchen mache ich nicht nur als Gedankenexperiment, sondern tatsächlich ganz real im Seminarraum mit den Kursteilnehmenden, wenn ich den Median unterrichte. Wenn man dann noch erstes und drittes Quartil bestimmt, kann man direkt einen Boxplot, den Lercherl in #23 angesprochen hat, per Hand malen (@Lercherl: Die Position der „Pumpengriffe“ ist übrigens nicht immer durch Minimum und Maximum definiert, häufig wird auch der Interquartile Range für die Berechnung heran gezogen).

    Das bringt mich aber auch schon zu meinem ersten Kritikpunkt: Der Beitrag arbeitet zwar heraus, wie man den Median berechnet, aber er ignoriert, dass der Median genau wie der Mittelwert nur wenig Aussagekraft hat, wenn kein Dispersionsmaß angegeben wird: Wenn der Median des Preises 7 EUR beträgt, dann könnte es sein, dass alle 100 Kunden genau diesen Betrag bezahlt haben; ebenso ist möglich, dass 50 Kunden 1 EUR und 50 Kunden 13 EUR bezahlt haben, oder 10 Kunden 2,50 EUR, 10 Kunden 3,50 EUR, 10 Kunden 4,50 EUR usw. bis hin zu 10 Kunden, die 11,50 EUR bezahlt haben, oder nahezu beliebig viele andere Kombinationsmöglichkeiten. Da der Schritt vom Median hin zum ersten und dritten Quartil wirklich nicht mehr weit ist, hat hier der Autor einen wichtigen statistischen Aspekt von Verteilungsmaßen leider ausgelassen.

    Der zweite Kritikpunkt bezieht sich auf die Rhetorik. Der Autor weist mehrfach darauf hin, dass das Wissen um den Median hilfreich sei, um sich von Statistik nicht belügen zu lassen. Da er dies auch im Schlussabsatz wieder aufnimmt, scheint ihm dieser Punkt ein wichtiges Anliegen zu sein.

    Allerdings arbeitet er diesen Punkt in meinen Augen nicht wirklich gut heraus. Einleitend unterstellt er, dass dies ein wirklich großes Problem sei („Die meisten Statistiken sind nicht gelogen, sondern nur auf eine Art präsentiert, die sie bedeutungslos machen.“), ohne auch nur ein Beispiel für eine Statistik zu bringen, die durch ihre Präsentation bedeutungslos wurde – und die Behauptung, dass das für „die meisten Statistiken“ gelte, ist für einen Beitrag, der gegen „Fake News“ anschreibt, doch ziemlich gewagt. Zum anderen finde ich nicht, dass besonders deutlich wird, wann der Mittelwert eigentlich problematisch ist. Als statistischer Neuling könnte nach dem Lesen unter Umständen den Eindruck bekommen, dass der Median immer dem Mittelwert vorzuziehen sei, und dass die Verwendung des Mittelwertes immer ein Hinweis auf bewusste Manipulation der Statistik sei. Und das wäre natürlich ein fatal falscher Eindruck.

    Hier hätten wiederum mehr Beispiele geholfen, in denen ein scheinbar bedeutungsloser Mittelwert einem hoffentlich überlegenen Median gegenüber gestellt wird. Auch hier wäre auf die Sache mit den Dispersionsmaßen einzugehen gewesen: Im Beispiel des Freundes, der als einziger eine CD für 1000 EUR gekauft hat, hat dies die Folge, dass sich die Standardabweichung schlagartig aufbläht, was den Mittelwert plötzlich einiges bedeutungsvoller macht.

    Der dritte Kritikpunkt ist ein logischer. Der Autor weist darauf hin, dass in den USA die Kenntnis um den Median wesentlich weiter verbreitet sei als im deutschsprachigen Raum, und dass dementsprechend diese Statistik auch weitaus häufiger eingesetzt würde. Abgesehen davon, dass der etwas belehrende Absatz als dritter inhaltlicher Faden (neben der Berechnung des Medians und der Fehleranfälligkeit des Mittelwerts bei stark schiefen Verteilungen) etwas deplaziert wirkt, wirft das Schlussfazit ein kleines Paradoxon auf. Wenn in den USA der Median gut verstanden wird, er in der Regel auch angewandt wird und dem Zielpublikum auch erklärt wird, und wenn das Wissen um den Median davor schützen kann, durch Statistik belogen zu werden und somit als „kleiner Schritt gegen die Fake News“ einzuschätzen sei – wie kann es dann sein, dass das Problem der Fake News in den USA überhaupt in dieser Breite existiert?

    Natürlich lässt sich das Paradoxon auflösen, aber dafür benötigt es eben etwas mehr Raum als einen etwas schnodderigen Absatz über die Verwendung des Medians in den USA und einem recht plakativen Schlusssatz. Und natürlich hätte dieser Raum den Rahmen des Beitrages gesprengt und den Lesefluss wesentlich beeinträchtigt. Aber genau aus diesem Grund glaube ich, dass der Autor besser gefahren wäre, wenn er sich auf den statistisch-formale Aspekt beschränkt hätte und nicht zugleich noch den Kampf gegen manipulative Statistik aufgenommen hätte.

  23. @Dampier und @Lercherl: Bei der Berechnung der Lebenserwartung dürft ihr allerdings nicht aus den Augen verlieren, dass die „durchschnittliche Lebenserwartung“ nicht dem durchschnittlichen Todesalter entspricht, sondern die Anzahl an Jahren, die im Mittel von einem bestimmten Alter an noch verbleibt.

    Diese Definition hat zwei Konsequenzen. Zum einen muss bei der Lebenserwartung eigentlich immer das Bezugsalter angegeben werden (also z.B. „Lebenserwartung eines neugeborenen Menschen“, „Lebenserwartung eines Zwanzigjährigen“). Zum anderen ist die Lebenserwartung prospektiv zu interpretieren: Jemand, der im Jahr 2015 geboren wurde, hatte eine mittlere Lebenserwartung von etwas mehr als 71 Jahren. Das bedeutet aber nicht, dass im Jahr das mittlere Sterbealter 71 Jahre betrug, sondern vermutlich etwas darunter.

    Wenn man eine kleine Population betrachtet, können die Unterschiede zwischen den beiden Kenngrößen durchaus dramatisch sein. Stellen wir uns einen Planeten vor, der vor 100 Jahren von der Erde kolonialisiert wurde, auf dem dann das Gesundheitssystem zusammengebrochen ist, aber erst jetzt ein Versorgungsschiff eingetroffen ist, das die neueste medizinische Technik an Bord hat. Diese Technologie ist in der Lage, eine Lebenserwartung eines Neugeborenen von 80 Jahren zu ermöglichen.

    In so einem Szenario könnte es sein, dass die Lebenserwartung innerhalb eines Jahres drastisch ansteigt: Ein Baby, das ein Jahr nach der Ankunft des Versorgungsschiffs geboren wird, kommt in den vollen Genuss der neuesten Medizin, und das betrifft alle Babys dieser Generation: Alle können damit rechnen, 80 Jahre alt zu werden.

    Das mittlere Sterbealter wird im Jahr 1 allerdings deutlich niedriger sein: Aufgrund der kollabierten Gesundheitsversorgung sind die Kolonialisten einfach nicht besonders alt geworden; vielleicht war der älteste Mensch der Kolonie 60 Jahre alt. Das bedeutet, dass im Jahr 1 einfach keine alten Menschen übrig sind, und alle, die in diesem Jahr sterben, werden jünger sein als 60 Jahre. Das mittlere Sterbealter muss also zwangsläufig niedriger sein als 60 Jahre, und hinkt somit deutlich hinter der Lebenserwartung von Babies von 80 Jahren zum exakt selben Zeitpunkt hinterher.

  24. @Lercherl

    Ich habe einmal den Altersmedian von Personen mit Wikipedia-Artikel nach Todesjahr sortiert bestimmt.

    Wie hast du das so schnell ermittelt? Gibt es da Tools für?
    Vielen Dank jedenfalls! Leider kann ich die Aussage deiner Daten auch nicht auf die Schnelle erfassen. War halt noch nie gut in Mathe etc. (bin aber überhaupt nicht stolz drauf, was ja viele angeblich vorgeben …)

    @Schmuddi
    Danke für die interessanten Ergänzungen.

  25. @Dampier

    Wie hast du das so schnell ermittelt? Gibt es da Tools für?

    Das habe ich schon vor einiger Zeit gemacht, so schnell war ich auch nicht! Auf Wikidata gibt es jede Menge strukturierte Daten, die man über ein API (Programmschnittstelle) abrufen und mit eigenen Programmen auswerten kann.

    Die wesentliche Aussage meiner Daten: Der Median des Sterbealters von Leuten, die prominent genug sind, dass jemand einen Wikipedia-Artikel über sie schreibt, ist seit dem 17. Jahrhundert mit ein paar Ausnahmen (deutlich zu sehen die beiden Weltkriege) kontinuierlich gestiegen, am stärksten nach dem 2. Weltkrieg bis heute. Aber schon im 17. Jahrhundert lag der Median bei mehr als 60 Jahren.

    Im Alten Rom dürfte die Lebenserwartung allerdings deutlich geringer gewesen sein, dazu gibt es etliche Untersuchungen mit mehr oder minder plausiblen Schätzungen, z.B. diese: https://www.researchgate.net/figure/311694346_fig3_Figure-3-Possible-Roman-mortality-curve-based-on-Coale-and-Demeny%27s-1966-life-tables. Nach dieser Kurve haben weniger als die Hälfte der Gesamtbevölkerung das Alter von 10 Jahren erreicht, der Median liegt also knapp unter 10 Jahren. Danach fällt die Überlebenswahrscheinlichkeit nicht mehr so steil ab, die 3. Quartile liegt bei etwa 52 Jahren, d.h. 25% der Bevölkerung wurden 52 oder älter.

  26. @ Schmuddi:

    „Jemand, der im Jahr 2015 geboren wurde, hatte eine mittlere Lebenserwartung von etwas mehr als 71 Jahren.“

    Da kann etwas nicht stimmen. Nach der Sterbetafel 2013/2015 lag die Lebenserwartung bei Geburt für Männer bei 78,2 Jahren, bei Frauen bei 83,1 Jahren. Grundlage in der amtlichen Statistik ist eine sog. Periodensterbetafel, die auf den realen Sterbewahrscheinlichkeiten des Zeitraums 2013-2015 für die einzelnen Altersjahre aufbaut. Sie enthält insofern keine prognostischen Elemente.

    Tatsächlich wird die Lebenserwartung eines Neugeborenen wohl noch deutlich höher sein, weil die Sterbewahrscheinlichkeiten absehbar weiter sinken, d.h. ein neugeborenes Kind wird z.B. im Alter von 60 eine geringere Sterbewahrscheinlichkeit haben als ein heute 60-Jähriger – dessen Sterbewahrscheinlichkeit aber in die Periodensterbetafel eingeht (genau wie die aller Altersgruppen im Zeitraum 2013-2015). Kohortensterbetafeln bauen auf prognostischen Abschätzungen der Sterbewahrscheinlichkeiten auf, es gibt unterschiedliche Ansätze, auch das Stat. Bundesamt berechnet Kohortensterbetafeln.

    Das durchschnittliche Sterbealter lag 2015 für Männer bei 75,6 Jahren, bei Frauen bei 82,2 Jahren. Das Verhältnis zwischen durchschnittlichem Sterbealter und Lebenserwartung ist nicht ganz trivial. Das durchschnittliche Sterbealter hängt nur von der Altersverteilung der Sterbefälle ab, je mehr alte Menschen beispielsweise sterben, desto höher das durchschnittliche Sterbealter. Bei der Lebenserwartung spielt (bei der Bestimmung der Sterbewahrscheinlichkeiten bei den einzelnen Altersjahren) auch die Altersverteilung der Bevölkerung eine Rolle. Damit endet meine Weisheit, wer mehr wissen will, muss in die demografische Fachliteratur schauen.

  27. @Joseph: Danke für dern Hinweis – ich habe vergessen anzugeben, dass es sich bei der Angabe von 71 Jahren um die weltweite Lebenserwartung ohne Differenzierung nach Geschlecht (laut WHO) handelt und nicht um die in Deutschland.

  28. Auch der Median hat seine Probleme. Mal ein Beispiel: Bei einer unheilbaren Krankheit betrögt die mediane Überlebenszeit 5 Monate. Jetzt wird eine Medikament entwickelt , das 20 % der Patienten heilt (oder die Überlebenszeit zumindest auf mehrere Jahre verlängert), und beim Rest versagt. Das wäre ein sensationeller Fortschritt, aber der Median steigt dadurch kaum an. Denn die 20 % Geheilten fallen durch den Median genauso raus, wie der eine Spender im Beispiel des Blog-Artikels. Wer nur den Median betrachtet, wird das Medikament als nutzlos einstufen, wer die Krankheit hat, wird natürlich die 20 % Chance nutzen wollen.

    Der Median ist also keinesfalls automatisch besser als der Durchschnitt. Man darf eben bei Statistik nicht nur auf einen Wert schauen.

  29. Der Beitrag gefällt mir ausnehmend gut. Leicht verständliche Erklärung des Medians.
    Ich habe den Autor auch keineswegs so verstanden, dass der Median der Weisheit lezter Schluss ist, mit Statistiken umzugehen, aber der Unterschied zwischen Durchschnitt und Median sollte verstanden werden.
    Danke!

  30. Als Laie, dem Durchschnitte immer schon etwas suspekt erschienen, so rein intuitiv, hab ich diesen zwar immer mißtraut, aber hatte ja nichts anderes.
    Das sieht jetzt anders aus.
    Und es zeigt mal wieder, dass das Bauchgefühl oftmals seine Richtigkeit hat.
    EIN Bsp., das ich hier gelesen haben, zeigt es sehr schön, finde ich: Der Altersdurchschnitt … berücksichtigt man die (früher) erhebliche Kindersterblichkeit nicht, kommt man zu einem sehr viel realistischeren Ergebnis.

  31. Ein schöne Sammlung kurzer Erläuterungen zu solchen statistischen Basics ist das Büchlein „Statistik für die Westentasche“ von Walter Krämer. Selbstverständlich enthält es auch einen Eintrag zum Median. Da kann man noch lesen, dass der Medien auch funktioniert, wenn ein Merkmal nur ordinal skaliert ist (wie z.B. die Schulnoten, und daher streng genommen kein arithmetisches Mittel berechnet werden darf), und dass der Median den Nachteil hat, dass man nicht auf die Merkmalssumme rückschließen kann (anders als beim arithmetischen Mittel, wenn man weiß, wie viele Elemente ihm zugrunde liegen).

  32. Zum Schach: Habe gerade festgestellt, dass die Position nicht aus einer normalen Startstellung entstanden sein kann. Viellicht hat jemand versehentlich illegalerweise mit Kd1 gestartet? Oder es handelt sich um eine legale Schach960 Partie. Wie allerdings das Bier da ins Spiel gekommen ist …

    @Dampier:
    Bei der früheren Lebenserwartung ist gerade eine Verteilung, bei der der Median ungünstig ist. Es liegt eine Verteilung vor in der viele Menschen entweder als Säuglinge oder alte Menschen sterben, dazwischen sterben nur wenige. Wenn jetzt, wie früher die Säuglingssterblichkeit sehr hoch ist, vielleicht sogar höher als 50%, liegt der Median für die Lebenserwartung plötzlich bei wenigen Monaten. Hier kann für eine https://de.wikipedia.org/wiki/Bimodale_Verteilung
    der Median für nur geringfügige Änderungen zwischen den beiden Werten springen.

  33. Der Median bringt isoliert betrachtet nichts, genauso wie der Mittelwert
    10 Personen verdienen ansteigend um 1 Euro von 1 bis 10 Euro.
    Weitere 10 Personen das gleiche Prinzip, nur Steigerung um 1 Million Euro , beginnend mit 1 Millionen.
    In der Mitte steht jemand mit 1000 Euro.

    So: der Median 1000 Euro
    Mittelwert überschlagsweise 2.75
    Millionen
    Ohne genaue Kenntnis der Daten sind bei dem Beispiel Median und Mittelwert nur Spielerei und für die praktische Anwendung sinnlos.

    P.S. Ramses II wurde 90 Jahre alt

  34. Man könnte mein Beispiel noch gesellschaftlich absurder darstellen .Die Person in der Mitte verdient 10.000 Euro .Alle 21 arbeiten in einem Kleinbetrieb.

    Jetzt kommt die Gewerkschaft und klagt: “ Ihr zahlt Hungerlöhne“
    Antwort:“ Wieso? Durchschnittsgehalt 2.75 Millionen und der Median 10.000 .“
    Fazit: da bringt der Median genauso nichts.

  35. @Florian: Auch mein zweiter Kommentar ist spurlos verschwunden. Nicht einmal in der Moderation. Falls du ihn findest, weißt du was ich meine.

    Hoffentlich kommt dieser endlich durch.

  36. Ich habe festgestellt, dass die Schachposition nicht aus der gewöhnlichen Ausgangsstellung gestartet ist. Der weiße König stand auf d1. Entweder ein Fehler beim aufstellen oder es ist eine legale Schach960 Partie. Wie aber das Bier ins Spiel gekommen ist …

    @Dampier: Im Fall der durchschnittlichen Lebenserwartung liegt eine zweigipf lige (bimodiale) Verteilung vor. Da ist der Median hier ungünstig, da er ohne große Veränderung an der Verteilung plötzlich weit ’springen‘ kann.
    Wenn z.B. sie Säuglingssterblichkeit die früher sehr hoch lag über 50% ist, ist der Median der Lebenserwartung womöglich bei einigen Monaten.

    @Florian: Ich habe diesen Kommentar schon mal gesendet, aber er ist völlig verschwunden. Vielleicht lag es ein einem Link zu Wikipedia auf die bimodale Verteilung?!
    Offenbar gibt es drei Möglichkeiten nach dem Abschicken. Erstens, der Kommentar erscheint sofort. Zweitens, er erscheint mit einem ‚wird moderiert‘ nur bei mir. Dann wird er später (von dir manuell?) freigeschaltet.
    Drittens, was mir passiert ist, das Fenster lädt sofort neu und alles ist weg. Ich hatte noch Hoffnung, des er vielleicht trotzdem in der Moderation gelandet ist. Aber da er bis jetzt nicht erschien, ist das unwahrscheinlich. Florian, kannst du bitte nachsehen, ob der überhaupt angekommen ist? Oder was passiert in Fall drei? Ist das so vorgesehen? Es ist frustrierend.

    Pech, wenn man ihn, wie ich den letzten, im Kommentarfenster geschrieben hatte. Dann ist alles weg.

    Hoffentlich kommt dieser Kommentar durch. Diesmal habe ich ihn extern geschrieben. Falls er nicht durchkommt, kann ich es nochmal versuchen.

  37. Ich habe den, der nicht durchkam noch mal probiert. Wieder keine Chance. Weder ein Link noch ein Smiley waren drin. Woran kann das liegen? Hast du die (inzwischen drei) die spurlos verschwanden, in der Moderation gefunden? Oder sind die ganz weg?

  38. @anderer Michael

    So wird der Median nicht gebildet, man kann die Zahlen nicht beliebig sortieren. Stell‘ Dir ein Diagramm vor, auf der x-Achse steht die Größe, um die es geht (z.B. Gehalt), die Werte sind dann automatisch aufsteigend sortiert. Auf der y-Achse wird die Häufigkeit aufgetragen (kann absolut sein, also wieviele Leute verdienen den jeweiligen Betrag auf der x-Achse, oder relativ, so dass die Summe oder das Integral aller Werte 1 ergibt). Dann schaust Du nach, wo die Hälfte der Leute liegt (bei relativer Häufigkeit: wo ist die Summe/das Integral = 0,5).

    Etwa so wie in diesem Bild. Die y-Achse zeigt die Zahl der Schüler mit einer bestimmten Note und die x-Achse die Note. 16 Leute haben 3- oder schlechter, 17 haben eine bessere Note. Der Median ist also 3-.

  39. @Florian:
    Ok. meine beiden Beiträge, momentan #46 und #52 sind jetzt da, danke Florian. Zumindest heißt das für mich, dass sie selbst im 3. Fall abgeschickt werden, was bisher nicht klar war.

    War ich vielleicht zu ungeduldig und hätte noch etwas warten sollen und wäre dann #46 schon irgendwann freigeschaltet worden? Oder habe ich dich erst jetzt darauf aufmerksam gemacht, und er wäre verschwunden geblieben hatte ich mich heute nicht gemeldet?
    Was soll ich in Zukunft tun?

    1. @UMa: „Was soll ich in Zukunft tun?“

      Wenn da steht das die Beiträge moderiert werden: Nix. Dann schalt ich sie frei sobald ich die Zeit dazu habe. Wenn sie ohne Moderationshinweis nicht auftauchen: Nicht mehrmals posten sondern mir Bescheid sagen – dann hat sie der strenge Filter gefressen von dessen Aktionen ich normalerweise nix mitbekomme und bei dem ich mich nur auf Zuruf auf die Suche machen kann (so wie in diesem Fall).

  40. @Florian
    Gibts keine Möglichkeit das der Filter meldet „Von mir gefressen“. Gerade auf dem Handy denk ich als, war das jetzt ein timeout oder was auch immer.

    1. @tomtoo: Bitte nicht vergessen: Ich bin AUTOR bei ScienceBlogs. Ich schreibe hier nur Texte. Ich bin nicht der Betreiber, Besitzer oder Admin dieser Blogplattform. Ich hab keinen Einfluss auf Software oder technische Abläufe…

      Aber man sieht es ja: Normale Moderation wird entsprechend angezeigt. Wird nix angezeigt und ist der Kommentar nicht da, dann wars keine normale Moderation.

  41. @Florian:
    Ok, danke. Eine Meldung, wie von tomtoo vorgeschlagen wäre schön, denn dann könnte man diesen Fall des gefressen werdens von lokalen und anderen Problemen unterscheiden.

    Sonst bitte nicht wundern, falls ich dir das nächste mal Bescheid gebe, einer meiner Beiträge wäre gefressen worden, aber gar kein Beitrag angekommen ist.

    Ich hatte auch nur andere Probleme, wobei es nicht klar ist ob lokal oder was abgeschickt wurde. Z.B. öffnete sich einmal immer ein Werbefenster, als hätte ich auf einen Banner geklickt. Dadurch war es weder möglich, den Beitrag durch copy-paste zu retten (jeder Versuch wieder ins Textfenster kommen öffnete stattdessen das Werbefenster) noch abzuschicken (wieder Werbefenster). Es blieb nur den den Browser zu schließen und neu zu starten. Der Text war natürlich unrettbar verloren.

    Öfter hingegen macht der Browser auch einfach komplett beim Klick auf abschicken zu und meldet dann das er leider gecrashed ist.
    Ich habe keine Ahnung, ob dann der Beitrag noch durchkommt und gefressen wird, oder gar nicht geschickt wird.

    Ob das anderen auch so geht?

    Deswegen wäre ein Meldung „gefressen“ schön, damit man weiß ob man dir Bescheid geben soll oder nicht.

  42. Alderamin
    Einverstanden, auch wenn ich null verstehe ( vor allem meinst du Integralrechnung ?). Bei meinem zugegeben absurden Beispiel ist der Median 10,000 Euro . 10 Personen verdienen weniger, 10 Personen mehr.
    Wo ist mein Denkfehler? Ich habe das gleiche gemacht , wie der Autor.Er hat seine 101 Kunden , nach Größe ihres Kaufpreises aufgestellt und ist zur Nummer 51 als Mitte gegangen.
    Ich habe auch die 21 Gehaltsempfänger aufgestellt und bin zur Nummer 11 als Mitte gegangen.
    Bei mir liefert der Median ein absurdes vollkommen irrelevantes Ergebnis, sofern man dem Median einen Stellenwert zuweisen möchte.Der Autor schreibt etwas von Schiefverteilung der Daten, der Median sei dann aussagekräftiger. Gut meine Daten sind ordentlich schiefverteilt, hat der Median eine bessere Aussagekraft? Die Hungerlöhne werden mit einer Rechnung beiseite geschoben.

    Ich habe herzlich wenig Ahnung von Statistik. Ich habe mir aus der Vorlesung einen Satz gemerkt. Sinngemäß: mit Statistik kann man nicht belegen, ob ein Medikament wirkt oder nicht. Es ist nur ein Hilfsmittel bei der Interpretation von Daten.

  43. @anderer Michael

    Sorry, ich hatte Deinen Post nicht richtig gelesen/missverstanden. Hab’s eben nochmal gelesen, war richtig argumentiert. Ja, der Median ist dann z.B. 1000.

    Dass der dann nichts aussagt, ist ein anderes Problem. Mittelwert und Median können nicht alle Eigenschaften einer Verteilung in einer Zahl wiedergeben. Dafür gibt es dann die empirische Varianz und die Standardabweichung.

    Die Varianz ist Summe der quadratischen Abweichungen der Einzelwerte vom Mittelwert, dividiert durch die Zahl der Werte – 1.

    Beispiel: wir beiden essen ein Hähnchen. Im Mittel bekommt jeder ein halbes Hähnchen (Mittelwert 1/2). In Wahrheit esse ich das Hähnchen aber komplett alleine (1) und Du bekommst nichts (0). Dann beträgt die Varianz

    [(0-1/2)² + (1-1/2)²]/(2-1) = (1/4 + 1/4)/1 = 1/2 und die empirische Standardabweichung 1/√2 = 0,707…

    Hätten wir hingegen beide je ein halbes Hähnchen gegessen, wäre die Varianz

    [(1/2-1/2)²+(1/2-1/2)²]/(2-1) = (0 + 0)/1 = 0 und die emprirische Standardabweichung ebenso. Daran sieht man, dass die Hähnchenmenge fair geteilt wurde.

    In Deinem Beispiel kommt eine Standardabweichung von 3,47 Millionen heraus, noch größer als der Mittelwert (26190979,86). Daran sieht man, dass die Gehälter erheblich variieren.

  44. Danke Alderamin
    Das bedeutet , isoliert sind Mittelwert und Median nur bedingt aussagekräftig. Man braucht demzufolge weitere Kenngrößen zur besseren Einordnung. Und eben nicht in jedem Fall ist der Median eine sinnvolle Größe.
    Klingt für die meisten banal diese Erkenntnis, aber ich hoffe verstanden zu haben.

  45. @aM #63

    „Bei meinem zugegeben absurden Beispiel ist der Median 10,000 Euro . 10 Personen verdienen weniger, 10 Personen mehr.“

    Wie kommst Du dabei auf einen Median von 10’000?

    Du hast doch gesagt:
    10 Leute mit {1,2,…10} und
    10 Leute mit {1,2,…10 Mio}

    Es kommt doch mE hier stark darauf an, wie ich in *-ile aufteile. Oft wird in Dezilen dargestellt, also hier in 10 Kästchen a 2 Personen. Dann ist:
    Dezil1 = Person (1+2)/2 = 1,5
    Dezil2 = Person (3+4)/2 = 3,5
    ….
    Dezil5 = Person (9+10)/2 = 9,5
    Dezil6 = Person (11+12)/2 = 1,5 Mio(!)
    ….
    Dezil10= Person (19+20)/2 = 9,5 Mio(!)

    Hier gibt es offensichtlich 2 Mediane, 9,5 und 1,5 Mio.

    Wo nimmst Du Deine 10’000 her? (Auch an @Alderamin)

  46. @awmrkl

    Du hast doch gesagt:
    10 Leute mit {1,2,…10} und
    10 Leute mit {1,2,…10 Mio}

    Nein, er hat gesagt:

    10 Leute mit {1,2,…10}
    1 Person mit 1000 (oder 10000, im zweiten Post)
    10 Leute mit {1,2,…10 Mio}

    Das ist eine ungerade Stichprobenzahl und das Gehalt der einzelnen Person ist genau das mittlere Element, also der Median.

  47. @Alderamin & @aM
    Oh (rotwerd&schäm), hab ich glatt übersehen:
    „In der Mitte steht jemand mit 1000 Euro.“
    Ja, dann ist der Median 1000 (bei Einzel-Wertung jedes Datenpunkts) im 1.Bsp.

    Worauf ich aber hinauswollte, ist, daß meist sowas wie Dezile (10er-) bzw Perzentile (100er-) Aufteilungen gebräuchlich sind, und v.a. n (die Anzahl der Datenpunkte) eher in der Größenordnung von mind. 1’000…10’000 liegt.

  48. awmrkl
    Wenn sich einer schämen sollte, dann ich .
    1. Etwas überlesen passiert mir ständig.
    2. Eigentlich ist das allerunterste Statistik, die ich kaum beherrsche. Ich habe schon ein paar Anläufe gemacht tiefer einzusteigen. Nur so bei ein paar Details verstehe ich etwas.

    Ich freue mich , wenn ein paar Cracks doch auf meine ernsten naiv rüberkommenden Fragen antworten.

    Wenn ich diese Informationen verarbeite, ist die prosaische Behauptung des Autors aus Florida ,der Median sei bei schiefverteilten Daten aussagekräftiger ,pauschal nicht richtig. Wie Alderamin ausführte, sind noch weitere Kenngrößen sinnvoll. Ich behaupte ,mit Standardabweichung und Varianz ist der Durchschnittszeitungsleser überfordert.

    Letztlich hat der Autor den Median doch anschaulich erklärt .

  49. @awmrkl

    Worauf ich aber hinauswollte, ist, daß meist sowas wie Dezile (10er-) bzw Perzentile (100er-) Aufteilungen gebräuchlich sind,

    Das sind dann Werte wie „95% der Mitarbeiter verdienen weniger als…“. Der Median ist dabei nichts anderes, als die 50-Perzentile. Dass 90% der Leute in Michaels Liste weniger als 8 Millionen bekommen, gibt am Ende aber auch nicht wieder, dass knapp die Hälfte weniger als 10 Euro erhalten. Die Verteilung ist so abartig, dass man sie kaum in charakteristischen Größen repräsentativ wiedergeben kann.

    @anderer Michael

    Ich behaupte ,mit Standardabweichung und Varianz ist der Durchschnittszeitungsleser überfordert.

    Häufig findet man die Standardabweichung bei annähernd gaußverteilten Größen angegeben als Mittelwert +/-Standardabweichung. Bei einer Normalverteilung liegen 68% der Werte innerhalb dieses Intervalls um den Mittelwert. Bei 2 Standardabweichungen nach oben und unten liegen 95% der Werte dazwischen, bei 3en 99%. Da kann man sich schon etwas drunter vorstellen: sagen wir mal, es gehe um Körpergrößen von Männern, und die wäre im Schnitt 1,80 m +/- 10 cm, dann wüsste man somit, 68% der Männer liegen zwischen 1,70 m und 1,90 m, 95% zwischen 1,60 und 2,00, so wie 99% zwischen 1,50 und 2,10. Allerdings funktioniert das eben nur mit der Gaußverteilung (andere Verteilungen haben andere Konfidenzen für die Standardabweichung). Die ist relativ weit in der realen Welt verbreitet, ergibt sich automatisch, wenn viele zufällige Einflussgrößen sich addieren, aber sie passt nicht immer, insbesondere nicht auf Deine Beispiel-Gehaltsliste.

  50. Ich behaupte ,mit Standardabweichung und Varianz ist der Durchschnittszeitungsleser überfordert.

    Das sehe ich auch so, aber das hat weniger mit der Intelligenz des durchschnittlichen Zeitungslesers zu tun als viel mehr mit dessen schulischer Bildung. Denn Statistik wird in der Schule AFAIK meisst erst in der Oberstufe, also ab der 11. Klasse unterrichtet; und das auch nicht immer. Wer die Schule aber nach der 10. Klasse verlässt wird davon also kaum noch etwas hören. Einige werden damit möglicherweise noch in der Berufschule konfrontiert, aber auch längst nicht alle, weil es in vielen Berufen nicht gebraucht wird.

    Ansonsten: Ein interessanter Artikel, der zwar auch einige Mängel aufweist, auf die schon mehrfach hingewiesen wurde, aber ansonsten den Unterschied zwischen Mittelwert und Median ganz gut aufzeigt.

  51. Der Median ist schon mal besser als der arithmetische Mittelwert, noch besser wäre es die jeweilige Verteilung aufzuzeichnen, um nicht nur nicht auf statistische Ausreisser reinzufallen, sondern besser die Realität zu erfassen. Ein schönes Beispiel ist die Einkommensverteilung.

  52. Als Mathematiklehrerin kann ich behaupten, dass der Unterschied zwischen Median (hier auch Zentralwert genannt) und arithmetischem Mittel nicht nur Inhalt des Unterrichts ist und auch Haupt- und Oberschüler die Grundlagen der beurteilenden Statistik vermittelt bekommen, sondern dass diese Grundkenntnisse auch durchaus in den Abschlussprüfungen abgefragt werden, häufig mit einem ähnlichen Beispiel wie im Text. Leider geht dieses durchaus für’s Leben wichtige Wissen wie auch anderes „Schulwissen“ unter anderem auch deswegen verloren, weil Schüler die Relevanz nicht erkennen, wenn es im Rahmen der Schule bleibt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.