Dieser Artikel ist Teil einer fortlaufenden Besprechung des Buchs „Wenn Gott würfelt: oder Wie der Zufall unser Leben bestimmt“ (im Original: „The Drunkard’s Walk: How Randomness Rules Our Lives“) von Leonard Mlodinow. Jeder Artikel dieser Serie beschäftigt sich mit einem anderen Kapitel des Buchs. Eine Übersicht über alle bisher erschienen Artikel findet man hier.
——————————————————-
Im ersten Kapitel des Buchs hat Mlodinow anschaulich dargelegt, wie sehr der Zufall unser Leben bestimmt und vor allem dort, wo wir nicht damit rechnen. Das zweite Kapitel hat sich mit den grundlegenden Regeln der Wahrscheinlichkeit beschäftigt. Im dritten Kapitel präsentiert Mlodinow das fiese Ziegenproblem, das unser Unverständnis der Wahrscheinlichkeit eindrucksvoll präsentiert. Das vierte Kapitel beschäftigt sich mit den Methoden zur Berechnung von Wahrscheinlichkeiten die vor allem Blaise Pascal im 17. Jahrhundert entwickelt hat. Das fünfte Kapitel beschäftigt sich mit der Frage, was Wahrscheinlichkeiten in der realen Welt eigentlich bedeuten.
Und in Kapitel 6 wird es verwirrend… Denn da geht es um Thomas Bayes und seinen kleinen aber relevanten Beitrag zur Wahrscheinlichkeitsrechnung. Ein Beitrag, der für das Verständnis von Wahrscheinlichkeiten im Alltag von enormer Bedeutung ist, aber sehr oft ignoriert wird. Bayes hat sich mit den bedingten Wahrscheinlichkeiten beschäftigt, also mit der Frage, wie die Wahrscheinlichkeit eines Ereignisses von der Wahrscheinlichkeit eines anderen Ereignisses abhängt.
Ein Beispiel: Ein Mann nimmt nach der Arbeit heimlich Tanzstunden. Seine Frau merkt, dass er immer später nach Hause kommt und schließt daraus, dass er ein Verhältnis hat. Denn warum sonst sollte er ihr die Wahrheit über das verschweigen, was er nach der Arbeit tut. Wenn er eine Affaire hat, dann ist die Wahrscheinlichkeit gröer, dass er über seine „Überstunden“ lügt als wenn er keine Affaire hätte. Aber hier hat sie die bedingten Wahrscheinlichkeiten durcheinander gebracht. Da ist einmal die Wahrscheinlichkeit, dass der Mann lügt, wenn er eine Affaire hat. Und dann die Wahrscheinlichkeit, dass er eine Affaire hat, wenn er lügt. Beide Wahrscheinlichkeiten sind nicht gleich groß und dürfen nicht verwechselt werden!
WIE wichtig das ist, weiß Mlodinow aus eigener Erfahrung. Im Jahr 1989 bekam er einen Anruf von seinem Arzt der ihm erklärte, dass er mit einer Wahrscheinlichkeit von 99,9 die nächsten 10 Jahren nicht überleben wird. Das ist natürlich keine sonderlich erfreuliche Nachricht sondern kommt einem Todesurteil gleich. Aber Mlodinow ist immer noch lebendig und die erschütternde Aussage seines Arztes ist nur schlechter Statistik zu verdanken.
Mlodinow hatte für seine Lebensversicherung einen HIV-Test absolviert und wurde positiv getestet. Der Test ist natürlich nicht perfekt. Wird er auf 1000 nicht-infizierte Blutproben angewandt, dann liefert er im Durchschnitt einmal ein falsches Ergebnis und behauptet, das Blut wäre infiziert obwohl es das nicht ist. Daraus hat der Doktor geschlossen dass der Test in 999 von 1000 Fällen richtig und Mlodinow mit einer Wahrscheinlichkeit von 99,9 Prozent mit HIV infiziert ist. Aber das ist falsch. Der Arzt hat wieder zwei bedingte Wahrscheinlichkeiten verwechselt. Die Wahrscheinlichkeit dass Mlodinow positiv getestet wird, wenn er nicht HIV-positiv ist und die Wahrscheinlichkeit, dass Mlodinow nicht HIV-positiv ist, wenn er positiv getestet wird.
Um den Fehler des Arztes zu verstehen, muss man sich die Sache ganz genau ansehen und das Theorem von Bayes ist die korrekte Methode das zu tun. Es reicht nicht, sich einfach nur die Daten aller Menschen anzusehen, die den HIV-Test absolviert haben. Bayes‘ Theorem ermöglicht es, zusätzliche Informationen zu inkludieren und sie zu benutzen um die Wahrscheinlichkeiten von Ereignissen neu festzulegen. Mlodinow ist ein weißer männlicher heterosexueller Amerikaner der keine Drogen nimmt und gehörte damit 1989 zu keiner der klassischen Risikogruppen. Es macht also Sinn, sich bei der Untersuchung der Wahrscheinlichkeiten auf die Gruppe zu beschränken, zu der auch Mlodinow gehört. Außerdem muss man alle Möglichkeiten untersuchen, die bei der Auswertung des Tests auftreten können. Dazu gehören die Fälle, in der eine Person positiv getestet wird, die HIV-positiv ist („richtig-positiven“ Fälle); die Fälle in der eine Person positiv getestet wird, die nicht HIV-positiv ist („falsch-positiv“); die Fälle in der eine Person negativ getestet wird, die nicht HIV-positiv ist („richtig-negativ“) und die Fälle in der eine Person negativ getestet wird, die HIV-positiv ist („falsch-negativ“). Erst wenn man weiß wie wahrscheinlich all diese Fälle sind, kann man korrekte Aussagen über den Test machen.
Die entsprechenden Statistiken besagen, dass von 10.000 getesteten weißen männlichen heterosexuellen Amerikanern die keine Drogen nehmen im Durchschnitt eine Person mit HIV infiziert ist. Die falsch-negativ-Rate des Tests ist quasi gleich null; d.h. es kommt nicht vor, dass jemand übersehen wird, der tatsächlich HIV-positiv ist. Der Test wird bei den 10.000 Personen also auf jeden Fall ein positives Resultat liefern das auf die tatsächliche Infektion der eine Person zurückzuführen ist. Die Wahrscheinlichkeit, dass der Test ein positives Resultat liefert obwohl die Person nicht infiziert ist, also die falsch-positiv-Rate liegt aber bei den vom Doktor erwähnten 0,01 Prozent (1 falsches Ergebnis von 1000). Bei den 10.000 getesteten Menschen sind das also 10, die ein positives Resultat erhalten obwohl sie nicht infiziert sind. Insgesamt sind es 11 Leute von 10.000 die ein positives Testresultat erhalten obwohl nur einer davon tatsächlich infiziert ist. Wenn man zu dieser Gruppe gehört, dann besteht eine Chance von 10 zu 11, also mehr als 90 Prozent, dass man nicht infiziert ist, obwohl der Test ein positives Resultat geliefert hat!
Der Doktor hätte Mlodinow also sagen müssen, dass er mit einer Wahrscheinlichkeit von 90 Prozent nicht HIV-positiv anstatt ihm zu erzählen, dass er mit einer Wahrscheinlichkeit von 99,9 Prozent infiziert ist. Der Unterschied liegt im Bayesschen Theorem und den zusätzliche Informationen. Die Statistiken sagen nämlich auch, dass bei 10.000 Menschen aus der Risikogruppe im Durchschnitt 100 tatsächlich infiziert sind (und nicht nur einer wie in der Nicht-Risikogruppe zu der Mlodinow gehört). Es gibt nun also 100 richtig-positive Fälle und weiterhin 10 falsch-positive Fälle. Bekommt man ein positives Resultat besteht nun eine Chance von 10 zu 11 das man tatsächlich infiziert ist, wenn man ein positives Resultat bekommen hat.
Die bedingten Wahrscheinlichkeiten sind tatsächlich ziemlich hinterhältig und wenn man sie vernachlässigt, kann das schnell dramatische Folgen haben. Das fängt dubiosen Statistiken in Esoterik und Pseudowissenschaften, wo man nur die richtig-positiven Fälle betrachtet („Mein Horoskop hat das Erdbeben korrekt vorhergesagt“), aber die falsch-positiven Fälle (Erdbeben wurden nicht vorhergesagt und haben nicht stattgefunden) genauso ignoriert wie die richtig-negativen Fälle (Erdbeben wurden vorhergesagt und haben nicht stattgefunden) und die falsch-negativen (All die Erdbeben die stattgefunden haben ohne vorhergesagt zu werden). Ich habe das früher schon mal ausführlich erklärt und festgestellt, dass es enorm einfach ist, eine scheinbar unfehlbare Methode für was auch immer zu entwickeln. Einen HIV-Test mit 100 prozentiger richtig-positiv-Rate zu entwerfen, ist simpel. Man muss einfach nur bei jeder Person behaupten, dass sie infiziert ist. Damit ist sicher gestellt, dass JEDE Person, die infiziert ist, von diesem Test auch erkannt wird. Aber man produziert eben auch eine gigantische falsch-positiv-Rate die den „Test“ völlig wertlos macht.
Bayes‘ Theorem ist seit dem 18. Jahrhundert bekannt, hat sich aber immer noch nicht im Bewusstsein der Menschen durchgesetzt. Mlodinow berichtet von einer Studie, bei der Ärzte vor folgendes Problem gestellt wurden:
Wie wahrscheinlich ist es, dass eine Frau zwischen 40 und 50 Jahren die keine spezifischen Symptome zeigt an Brustkrebs leidet, wenn sie ein positives Mammographie-Resultat erhält? 7 Prozent der Mammographien zeigen Krebs an, obwohl keiner vorhanden ist. Die Statistik zeigt, dass 0,8 Prozent der 40 bis 50jährigen Frauen ohne spezifische Symptome tatsächlich an Brustkrebs leiden. Die falsch-negativ-Rate des Tests beträgt 10 Prozent.
Mit Bayes‘ Theorem läst sich die gesuchte Wahrscheinlichkeit genau ausrechnen und sie beträgt in diesem Fall 9 Prozent. Nur 9 Prozent der 40 bis 50jährigen Frauen ohne Symptome haben (in diesem Beispiel) tatsächlich Brustkrebs wenn die Mammographie Brustkrebs anzeigt. Ein Drittel der befragten Ärzte in Deutschland war allerdings der Meinung, es wären 90 Prozent und im Durchschnitt lagen die Antworten bei 70 Prozent. Dieser Unterschied zwischen dem, was wir intuitiv für die Wahrscheinlichkeit eines Ereignisses schätzen und der realen Wahrscheinlichkeit zeigt sich hier besonders dramatisch. Es macht einen enormen Unterschied, ob man nach einem Besuch beim Arzt erfährt, dass man zu 90 Prozent an Krebs leidet oder nur zu 9 Prozent!
Und wer nun denkt, er habe die bedingten Wahrscheinlichkeiten verstanden, für den gibt es noch eine Hausaufgabe. In Kapitel 3 ging es um die Frage, wie wahrscheinlich es ist, dass eine Familie mit zwei Kindern zwei Mädchen hat, wenn bekannt ist, dass zumindest eines der Kinder ein Mädchen ist. Das war im Prinzip schon eine bedingte Wahrscheinlichkeit nach Bayes und die Antwort betrug: 1 zu 3. Von den vier Möglichkeiten (Junge/Junge), (Junge/Mädchen), (Mädchen/Junge), (Mädchen/Mädchen) sagt uns die Zusatzinformation der „wenn“-Bedingung, dass wir den Fall (Junge/Junge) ignorieren können. Von den verbleibenden drei Möglichkeiten erfüllt nur eine die gesuchte Bedingung nach zwei Mädchen. Die Wahrscheinlichkeit beträgt also 1 zu 3. So weit, so klar. Aber wie lautet die Antwort auf diese Frage:
Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, das eines der Kinder ein Mädchen mit dem Namen „Mechthild“ ist?
Das mag nun vielleicht absurd klingen, aber für die Frage nach der Wahrscheinlichkeit spielt es tatsächlich eine Rolle, ob man den Namen des Mädchens kennt oder nicht und die Antwort auf diese Frage ist NICHT „1 zu 3“. Viel Spaß beim Suchen nach der Lösung (und wenn ihr die Antwort schon kennt weil ihr das Buch gelesen habt, dann verratet sie bitte nicht gleich in den Kommentaren!).
Willkommen im neuen Jahr. Alles schläft, nur die hochtechnische Automatik wacht…
Frohes Neues. Du bist nicht der Einzige, der sich aus dem Bodennebel emporgekämpft hat.
Hatte ich zu spät gemerkt, Spritkopf, der post hier war heute nach gut 4 Stunden das erste, was sich tat – und Dein Kommentar geruhte, sich mir erst nach dem Abschicken von mail und Kurzkommentärchen hier zu zeigen.
Hallo Florian, für Dich ein erfolgreiches, glückliches, friedvolles und hoffentlich weiterhin höchst informatives (Blog)-Jahr 2014. Hab mal ein bisschen Werbung für Dich auf derstandard.at gemacht (Artikel von Peter Illetschko „Auf dem Plateau ist man den Sternen näher“).
Es ist doch erschreckend, wie weit verbreitet unser Unwissen über Statistiken ist und welche Konsequenzen solche falsch verstandenen statistischen Werte haben können. Daher finde ich es klasse, Florian, dass du dieses Buch hier so ausführlich vorstellst! Vielleicht traue ich mich jetzt doch mal daran, es zu lesen.
Über Bayes und sein Theorem ist mir folgendes Buch sehr empfohlen worden:
https://www.lehmanns.de/shop/mathematik-informatik/27055096-9783642377693-die-theorie-die-nicht-sterben-wollte
Dir und deinen Lesern wünsche ich alles Gute für das Jahr 2014.
„Die Wahrscheinlichkeit, dass der Test ein positives Resultat liefert obwohl die Person nicht infiziert ist, also die falsch-positiv-Rate liegt aber bei den vom Doktor erwähnten 99,9 Prozent.“
Wenn ich den Satz richtig verstehe liegt der Test zu 99,9 % falsch?
@XIBU: Habs korrigiert; das war falsch formuliert.
„Die Wahrscheinlichkeit, dass der Test ein positives Resultat liefert obwohl die Person nicht infiziert ist, also die falsch-positiv-Rate liegt aber bei den vom Doktor erwähnten 0,01 Prozent (1 falsches Ergebnis von 1000)“
Wenn du jetzt noch ein 0,1 aus den 0,01 machst ist alles gut 🙂
Schönes neues Jahr
Wenn mich vor ein paar Jahren jemand gefragt hätte, wie wahrscheinlich es ist, dass ich am Neujahrstag einen Artikel über Wahrscheinlichkeitsrechnung lese, hätt ich wohl gesagt: geht gegen null.
Das mit dem Vornamen kapier ich nicht, es gab laut Wikipedia diverse Klosterfrauen und Ehefrauen von Adligen namens Mechthild, wie kann man da plausible Schlüsse ziehen, ob ein Brüderchen oder Schwesterchen wahrscheinlicher ist?
die frage ist, ob der Name“ Mechthild“ was mit der Antwort zu tun hat, oder ob die Frage gleich ausgehen würde, wenn der Name „Susi“ lautet.
Zur Mechthild -Frage:
Ich kenne die Anwort nicht und mein folgender Versuch erscheint mir auch nicht ganz logisch. Irgendwas sträubt sich da in mir.
Junge/Mädchen
Mädchen/Junge
Mädchen/Mädchen
Wäre ja wieder ein Drittel.
Gehe ich recht in der Annahme, dass die Wahrscheinlichkeit (ein wenig) kleiner 1/3 ist, da das andere Mädchen ja nicht Mechthild heißen kann? (Namensrecht)
Ich habe nämlich nicht alle Mädchen zur Auswahl im Mädchen/Mädchen-Fall sondern nur
Mädchen/Mädchen minus Mädchen mit Vornamen Mechthild
@Frau Gummibaum: insofern wäre es bei Susi noch ein wenig weniger als ein Drittel, da ich annehme, dass Susi häufiger ist als Mechthild.
Allerdings kenne ich so eine Frage auch mit einem Geburtstag an einem bestimmten Wochentag. Da erhöht es die Wahrscheinlichkeit deutlich. (13/27)
Ich bin verwirrt.
Wahrscheinlich aber muss ich noch bis morgen warten bis ich wirklich wieder nüchtern bin.
Hab grad selbst festgestellt, dass im wenn ein Kind an einem bestimmten Wochentag geboren ist, das andere Kind auch am gleichen Wochentag geboren sein kann…
Ist also ein anderer Fall…
Die Wahrscheinlichkeit dafür, dass beide Kinder mädels sind, beträgt ein Drittel. Der Name ist irrelevant, eine redundante Information.
Den Bayes kann man übrigens besser erklären:
1) Bist Du krank, wird es zu 99,9 % erkannt
2) Bist Du gesund, wird es zu 99 % erkannt.
Tausend Leute werden gestest.
1 Person ist krank
999 sind gesung
Diese eine Person wird als krank erkannt = 1
Von den 999 Gesunden wird 1 % = 10 Personen als krank erkannt.
Summe: 11 Krankgeschriebene, aber nur einer von elf = 9 % ist wirklich krank.
Wenn man sich das klar macht, geht man nie wieder zur Vorsorge…… das Geld kann man sich sparen….
@Statistiker: „Die Wahrscheinlichkeit dafür, dass beide Kinder mädels sind, beträgt ein Drittel. Der Name ist irrelevant, eine redundante Information.“
Wenn der Name irrelevant wäre, hätte ich ihn ja kaum genannt, oder?
Im Mlodinows Buch lautet der Name übrigens nicht Mechthild sondern „Florida“. Ich hab das modifiziert, damit sich die Lösung nicht so schnell googeln lässt…
Durch die Festlegung auf einen Namen wird die Anzahl der
guten Kombinationen erhöht:
Junge-Mechthild, Mechthild-Junge, Mädchen-Mechthild, Mechthild-Mädchen.
Das sind 2 aus 4 gleich 1/2
Meine Kopfschmerzen sind weg
@Berlin: ja, das klingt nach einem klareren Kopf als ich ihn schon habe.
Aber für die gesuchte Bedingung 2 Mädchen gilt:
Mechthild=Mädchen.
Du hättest also
Junge-Mädchen, Mädchen-Junge,
Mädchen-Mädchen, Mädchen-Mädchen.
Das letzte paar bliebe doppelt und man müsste eines streichen.
Da komm ich bisher noch nicht weiter… ich sehe den Namen wie Statistiker #13 als redundante Information.
Außer vielleicht es gibt bevorzugte Namenspaare wie Mechthild-Brunhild oder irgendsowas. Könnte eventuell ein(e) FPÖler(in) beantworten…kopfkratz?
Wie immer gibt es einen passenden Comic von xkcd dazu: https://xkcd.com/1132/.
Die Wahrscheinlichkeit beträgt 50%, wenn ich nicht sehr daneben liege. Unsere Familie hat ein Mädchen namens Mechthild und noch ein Kind, von dem wir nichts wissen. Die Chance, dass dieses Kind ein Mädchen ist ist 50% und das ist zugleich auch die Chance, dass beide Kinder Mädchen sind (wenn wir die Biologie berücksichtigen, nicht ganz: es werden etwas mehr Jungen als Mädchen geboren, die haben dafür eine höhere Sterblichkeit, und Mechthild und N. N. könnten eineiige Zwillinge sein, was die Chance für zwei Mädchen erhöht: sagen wir 50+/-1 %).
OT: Kommentar im österreichischen Fernsehen zur norwegischen Skirennläuferin Ragnhild Mowinckel: „Die wird man sich merken müssen – trotz des etwas eckigen Namens.“
Gut, es hängt wohl damit zusammen, dass IRL Eltern wie auch immer zueinanderpassende Namen für ihre Sprösslinge auswählen, das hilft mir bei der Einschätzung der Wahrscheinlichkeit aber nur weiter, wenn ich mich über beliebte Namenspaare schlau mache.
Beim Beispiel mit Florida würde mir spontan Miami einfallen, beides nach meinem Gefühl Mädchennamen, deshalb ist die Wahrscheinlichkeit für 2x Mädchen vermutlich höher, als man ohne die Zusatzinformation annehmen würde. Bei einem Namen der nicht oft in Kombination verwendet wird, wie ich sag mal zum Beispiel Gertrude, würde sich die Wahrscheinlichkeit für 2x M dann nicht erhöhen?
#18: Unsere Familie hat ein Mädchen namens Mechthild und noch ein Kind, von dem wir nichts wissen. Die Chance, dass dieses Kind ein Mädchen ist ist 50%…
Nein. Es ist ausdrücklich so formuliert, dass nicht ein bestimmtes der beiden Kinder ein Mädchen namens Mechthild ist, sondern eins der beiden. So wie Du das formulierst, wäre auch im Ausgangsfall (d.h. ohne Namen) die Wahrscheinlichkeit dafür, dass das zweite Kind ein Mädchen ist, 1/2
@stone1, Gregor Weidninger:
An unterschiedlichen Wahrscheinlichkeiten bestimmter Namen oder Namenskombinationen wird es wohl kaum liegen; schon deshalb, weil uns die Lösung dann nichts Grunsätzliches über Wahrscheinlichkeitsrechnung verraten würde, und darum geht’s hier ja, nicht um Namenspräferenzen.
@Quercus: Es geht um Bayes. Und wenn du den Artikel gelesen hast, dann weißt du ja auch, dass Zusatzinfos aller Art hier von Bedeutung sind. U.a. die Wahrscheinlichkeit bestimmter Namenskombinationen.
Ich vermute, das geht so:
Wenn Du aus allen Zwei-Kinder-Familien diejenigen auswählst, bei denen genau ein Kind Mechthild heißt, dann ist die Wahrscheinlichkeit, daß das nicht-Mechthild-Kind ein Mädchen ist, ½. Denn das zweite Kind hat mit der Auswahl nichts zu tun und bleibt daher in der ursprünglichen 50:50-Verteilung.
Wenn Du aus allen Zwei-Kinder-Familien mit wenigstens einem Mädchen eine x-beliebige auswählst, ein x-beliebiges Mädchen daraus auswählst, nach ihrem Namen fragst und erfährst, daß sie Mechthild heißt, dann ist die Wahrscheinlichkeit, daß das nicht-Mechthild-Kind ein Mädchen ist, ⅓. Denn dann war der Name tatsächlich irrelevant; die Auswahl erfolgte bereits vorher, und zwar nach beiden Kindern, so wie letztes Mal beschrieben.
Ich würde das Ergebnis so formulieren: Die Verteilungen hängen davon ab, wie man seine Zustände präpariert. Aber Statistiker haben da bestimmt eine andere Terminologie.
Ok – ich lös die Sache mit Mechthild mal auf. Der Name IST relevant; und es geht darum, dass es ein veralteter und seltener Name ist (wie Florida im englischen Sprachraum). Das reicht, um entsprechende Rechnungen nach Bayes anzustellen. Hier wird das gut zusammengefasst: https://allendowney.blogspot.de/2011/11/girl-named-florida-solutions.html
@Quercus:
Naja, in diesem Kapitel geht’s doch genau darum, welche Faktoren aus dem richtigen Leben bei der Wahrscheinlichkeitsrechnung zu berücksichtigen sind. Und da könnte ich mir schon vorstellen, dass häufig vorkommende Namenspaare, gerade in diesem Beispiel, eine signifikante Rolle spielen.
Die Frage ist jetzt, ob und wie stark das Endergebnis dadurch beeinflusst wird.
OK, damit wird es etwas klarer, vor allem mit der Diskussion in den Kommentaren dort. Letztlich gibt es zwei Deutungen, die zu unterschiedlichen Resultaten führen:
1) Ich kenne eine Familie, von der ich weiß, dass sie eine Tochter namens Mechthild und ein zweites Kind unbekannten Geschlechts haben.
2) Ich wähle unter allen Familien mit zwei Kindern, von denen eines eine Tochter ist und Mechthild heißt, zufällig eine aus.
Die erste Variante war meine Interpretation in #18, und die führt immer – unabhängig von der Mechthildizität des Kindes – zum Resultat 1/2. Die zweite Variante führt zu Werten zwischen 1/2 und 1/3, je nach der Häufigkeit des Namens Mechthild.
Im verlinkten Blog wird das in einem Kommentar auch schön formuliert:
Der Name IST relevant; und es geht darum, dass es ein veralteter und seltener Name ist (wie Florida im englischen Sprachraum). Das reicht, um entsprechende Rechnungen nach Bayes anzustellen.
Nachdem ich das in Downeys Blog nachgelesen habe, würde ich es anders formulieren: Dass der Name besonders selten ist, veranschaulicht das Phänomen, weil es dann besonders ausgeprägt ist (wenn die Häufigkeit eines Namens gegen 0 geht, geht die Wahrscheinlichkeit für ein Mädchen als einzigem Geschwister gegen 1/2). Aber das Phänomen existiert für jeden Namen, oder? Und selbst bei Allerweltsnamen kommen Wahrscheinlichkeiten heraus, die wesentlich näher an 1/2 liegen als an den ohne Kenntnis des Namens ermittelten 1/3. Nehmen wir z.B. mal an, die Häufigkeit von „Susi“ betrage 1/4. Die Wahrscheinlichkeit dafür, dass, wenn eins von 2 Kindern ein Mädchen namens „Susi“ ist, das andere Kind ein Mädchen ist, betrüge dann nach Downeys Formel:
(1 – x) / (2 – x) = (1 – 1/8) / (2- 1/8) = 7/15
Soweit richtig?
(wenn ich das Beispiel weitertreibe und verallgemeinere – es muss ja mit jeder denkbaren Eigenschaft des Kindes funktionieren, Downey macht es im nächsten Schritt mit den roten Haaren -, bekomme ich wirklich Schwierigkeiten mit etwas in mir, das sich mir gerne als logisches Denken präsentiert, sich aber am Ende wahrscheinlich doch nur als meine störrische Intuition erweisen wird….aber das würde ich gerne Schritt für Schritt überprüfen)
Danke, nachdem ich auch die Seite bei Probably Overthinking It nachgelesen habe, hab ich’s kapiert. Je seltener also der Vorname, desto näher ist die Wahrscheinlichkeit für 2 Mädchen bei 50%.
Würde das Mädchen z.B. „Maria“ o.ä. heißen und sich das Beispiel auf einen christlich geprägten Kulturkreis beziehen, wäre die Wahrscheinlichkeit nahe bei 1/3.
Stimmt das so?
Seltsam das hier anscheinend niemand grundlegendes Wissen über Gentik hat. Wie hoch ist die Wahrscheinlichkeit ein Mädchen oder Jungen zur Welt zu bringen?
Welchen Einfluß darauf soll der Vorname der Kinder, die Vorlieben der Mutter, die Haarfarbe der Großmutter oder die Größe der 100.ten Ahnengeneration haben?
Bevor ich das glaube, schreibe ich mir ein Simulationsprogramm:
Grundgesamtheit: > 100.000,
Kinder pro Paar 1 5 mit plausibler Wahrscheinlichkeit, Wahrscheinlichkeit Mädchen bei Geburt 48 52 und Häufigkeit Name 1 40.
Aufgeschlüsselt wird nach Paaren mit exakt 2 Kindern, welche Mädchen sind in Abhängigkeit der Häufigkeit ihrer Vornamen.
Mal sehen, was da rauskommt. Alles andere als ca. 50% wäre sehr verwunderlich. Ich habe den (vorläufigen) Eindruck, hier liegt der klassische Fall von „Vertraue keiner Statistik, die du nicht selbst gefälscht hast“ vor.
So, jetzt habe ich mich aber weit genug aus dem Fenster gelehnt. Gut möglich, daß ich irgendwas nicht verstanden habe. Vermutlich geht es aber nicht nur mir so.
Nachtrag: Blöderweise wird das Größer und Kleiner-Zeichen nicht angezeigt. Es soll heißen:
Kinder pro Paar 1 kleiner gleich x größer gleich 5 mit plausibler Wahrscheinlichkeit,
Wahrscheinlichkeit Mädchen bei Geburt 48 kleiner gleich x größer gleich 52 und
Häufigkeit Name 1 kleiner gleich x größer gleich 40.
Und noch ein Nachtrag: kleiner gleich soll größer gleich und größer gleich soll kleiner gleich heißen. Liegt wohl an der Uhrzeit, sorry.
Bei dem Erdbeben-Vorhersage-Beispiel scheinen die Beschreibungen der falsch-positiv/-negativ und richtig-negativen Fälle durcheinander geraten zu sein. Korrekt müsste es z.B. heißen: „falsch-negativ: Erdbeben wurden nicht vorhergesagt, haben aber stattgefunden“ (Die negative Vorhersage war falsch.). Anders formuliert: „All die Erdbeben die stattgefunden haben ohne vorhergesagt zu werden“ sind falsch-negative Vorhersagen.
@Christian Grothe: „Bei dem Erdbeben-Vorhersage-Beispiel scheinen die Beschreibungen der falsch-positiv/-negativ und richtig-negativen Fälle durcheinander geraten zu sein.“
Da hab ich von mir selbst abgeschrieben: https://www.scienceblogs.de/astrodicticum-simplex/2011/04/warum-statistik-wichtig-ist.php
Ich kann mit der Frage auch nichts anfangen. Vorab noch eine Kleinigkeit: „… dass beide davon Mädchen sind“ – wieso wovon ? Falls gesagt werden soll, dass es genau 2 Kinder sind, dann sollte das einfach gesagt werden: „Eine Familie hat genau 2 Kinder. … dass beide Mädchen sind …“
Der Versuchsaufbau ist unklar. Wie kommen die Informationen zustande – was ist Zufall, was ist Setting – wenn 2 Kinder in einer Familie sind, und davon mindestens eines eine Tochter, dann kann man ja zufällig eine der Töchter nach dem Namen fragen und den dem Rater mitteilen – unabhängig davon, wie der Name nun zufällig lautet. Hätte man die Familie verworfen, wenn es keine Mechthild gegeben hätte, oder hätte man dann einfach „Rita“ gesagt?
Die Chance, dass von zwei Töchtern eine Mechthild heißt ist bei 2 Töchtern größer, aber ist das Teil des Settings? Solche Quizze finden ja im realen Leben nicht statt, im Ggs. zu Vorsorgeuntersuchungen, daher kann man m.E. nicht sagen, was hier eigentlich gemeint ist.
Ansonsten ein frohes Neues!
@Szefan W: 2Hätte man die Familie verworfen, wenn es keine Mechthild gegeben hätte, oder hätte man dann einfach “Rita” gesagt? „
??? Ich weiß nicht, was du jetzt genau willst. Die Frage war klar und eindeutig formuliert. Das war kein „Experiment“ und kein „Versuch“, sondern eine mathematische Frage mit einer klaren mathematischen Antwort deren Ziel es ist zu demonstrieren, dass die Wahrscheinlichkeitsrechnung ein Gebiet ist, das sehr oft zu Ergebnissen führt, die wir nicht intuitiv verstehen und die sogar manchmal kontra-intuitiv sind und das so sehr, dass wir uns weigern, die Antwort anzuerkennen. Wie man ja an den Kommentaren hier im Blog sehr gut sieht…
@sowhat: „So, jetzt habe ich mich aber weit genug aus dem Fenster gelehnt. Gut möglich, daß ich irgendwas nicht verstanden habe.“
Vermutlich. Es geht ja gerade darum, dass bei der Wahrscheinlichkeitsrechnung oft besser fährt, wenn man probiert den „Hausverstand“ abzuschalten und rein der Mathematik zu folgen. Und die ist in diesem Fall eben so eindeutig, wie Mathematik eben mal ist.
Ich muss hier mal Florian beistehen.
Verändern wir das Beispiel mal ein bißchen.
„Eine Familie hat drei Kinder. Einer davon ist ein Junge. Wie hoch ist die Wahrscheinlichkeit, dass es drei Jungs sind?“
…
Nun das ganze mit Zusatzinformationen:
„Eine Familie hat drei Kinder. Eins der Kinder ist ein Sohn und heißt Trick. Ein Onkel heißt Donald. Wie groß ist die Wahrscheinlichkeit, dass die drei Kinder Jungs sind?“
Ohne jetzt weiter rechnen zu wollen scheint mir klar das im zweiten Fall (mit Zusatzinfos) die Wahrschienlichkeit, dass es drei Jungs sind ein Stückchen höher ist…
Alles Gute im neuen Jahr! Wieder einmal ein schöner Artikel.
Aber ich frage mich: Wie hoch ist die Wahrscheinlichkeit für ein und denselben Autor zwei falsch positive Diagnosen für a) HIV und b) Hodenkrebs (vgl. „Feynmans Rainbow“) zu erhalten, die beide damit zu tun haben, dass Ärzte die Fallstricke der Diagnostik übersehen? Ja, das ist schon möglich, aber irgendwie hat es für mich ein Geschmäckle, weil spätestens die HIV-Geschichte so konstruiert klingt (die Geschichte habe ich schon einige Male ohne den Namen Mlodinow gehört).
Zum Ereignisraum:
https://de.wikipedia.org/wiki/Bertrand-Paradoxon_%28Wahrscheinlichkeitstheorie%29
Ich habe eine Vermutung warum abgesehen von konkreten Wahrscheinlichkeiten Zusatzinformationen die Wahrscheinlichkeit ändern.
Mit 2 Kindern ist die Wahrscheinlichkeit das beide Kinder Mädchen sind durch folgende Kombinationen beschrieben:
JJ JM MJ MM also 1/4.
Wenn ich weis das eins davon ein Mädchen ist fällt JJ weg also
JM MJ MM also 1/3
Habe ich ein Zusatzinformation (z.B. das ältere der Kinder ist ein Mädchen (es gibt immer ein älteres Kind also ist das keine Geschichte wie mit Mechthild)) kann ich die Kombinationen weiter einschränken (z.B. durch Sortieren nach dem Alter: das älteste zuerst oder so) also verbleiben: MJ MM also 1/2
Anschaulich würde ich das Problem so erklären: es ist so unwahrscheinlich, dass ein Kind „Mechthild“ heißt, dass für Familien mit zwei Mädchen die Chance viel höher ist, wenigstens eine Mechthild zu haben, weshalb diese einen unerwartet hohen Anteil der Familien-mit-Mechthild stellen.
Wer jetzt einwerfen möchte, dass aber nicht beide Kinder Mechthild heißen können: Dieser Fall hat eine so geringe Wahrscheinlichkeit, dass es egal ist ob wir sowas erlauben oder nicht.
Für alle Mathe-Skeptiker, hier eine kleine Simulation des Problems: https://ideone.com/HWMZ4A
Schon bei einer 10% Chance, dass ein Mädchen Florida heißt, ergibt sich eine 48.8% Wahrscheinlichkeit, dass das andere Kind weiblich ist (47.5%, wenn nicht beide gleich heißen dürfen).
Ist die Fragestellung eigentlich äquivalent zu dieser?
Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, dass eines der Kinder ein Mädchen ist und einen bestimmten Namen hat, den höchsten 10% aller Mädchen haben?
Und jetzt stelle ich mir folgenden Dialog auf einer Party vor:
A: Meine Freunde haben zwei Kinder. Eines ist ein Mädchen, wie wahrscheinlich ist es dass das andere auch ein Mädchen ist?
B: 33%. Obwohl, wie heißt denn das Kind?
A: Celine-Chantale.
B: Na dann fast 50%.
Hey, jetzt fällt mir noch eine zweite anschauliche Erklärung ein. Die Falle, weswegen im ersten Fall 33% rauskommt, war ja, dass nicht festgelegt ist welches der beiden Kinder das Mädchen ist. Indem wir dem Kind einen Namen geben, stellen wir aber künstlich eine Ordnung her. Man könnte die Frage ja auch umformulieren als:
Eine Familie hat zwei Kinder, eins heißt Mechthild. Wie wahrscheinlich ist es, dass das nicht-Mechthild Kind ein Mädchen ist?
Dass hierbei 50% rauskommt, ist fast schon wieder intuitiv klar … deshalb ist diese Erklärung wahrscheinlich auch falsch -.-
@Stefan (#34):
Das Beispiel halte ich für sehr schön und anschaulich auf den Punkt gebracht.
@barfoo(#40):
hier eine kleine Simulation des Problems: https://ideone.com/HWMZ4A Schon bei einer 10% Chance, dass ein Mädchen Florida heißt, ergibt sich eine 48.8% Wahrscheinlichkeit, dass das andere Kind weiblich ist (47.5%, wenn nicht beide gleich heißen dürfen).
Das ist ja das, was ich für eine Namenswahrscheinlichkeit von 1/4 oben schon gerechnet hatte; sogar da kommen 7/15 (= ca. 46,7 %) raus.
Und Deine Frage finde ich sehr gelungen formuliert:
Ist die Fragestellung eigentlich äquivalent zu dieser?
Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, dass eines der Kinder ein Mädchen ist und einen bestimmten Namen hat, den höchsten 10% aller Mädchen haben?
Ich gehe mal noch weiter und formuliere die Frage schrittweise weiter um:
1. Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, dass eines der Kinder ein Mädchen ist und einen Namen hat?
Wenn das Mädchen einen Namen hat, dann hat dieser eine Wahrscheinlichkeit, und realistischerweise kann ich mindestens davon ausgehen, dass es diesen nicht mit allen Mädchen teilt. Die Wahrscheinlichkeit für diesen Namen ist also auf jeden Fall < 1/2, und damit ist unsere gesuchte Wahrscheinlichkeit immer > 1/3, also auch dann, wenn wir den konkreten Namen nicht kennen. Das widerspricht aber der Lösung unseres Ausgangsfalles.
2. Ein weiterer Schritt wäre: Ich brauche für meine Überlegung nicht einmal die Annahme, dass das Mädchen auf jeden Fall einen Namen haben muss. Ich kann die Ergebnismenge, die bisher alle möglichen Namen enthält, einfach um das Ergebnis „kein Name“ erweitern.
3. Ich kann die Rechnung mit jeder beliebigen Eigenschaft oder jeder beliebigen Kombination von Eigenschaften durchführen (Downey macht das ja im nächsten Schritt mit den roten Haaren). Ich könnte also allgemein formulieren: Das Mädchen hat ganz bestimmt irgendeine Eigenschaft, die es nicht mit allen Mädchen teilt. Ohne die konkrete Eigenschaft zu kennen, kann ich also auf jeden Fall feststellen, dass die Wahrscheinlichkeit, dass das andere Geschwister auch ein Mädchen ist, immer > 1/3 ist.
Wo ist mein Denkfehler? (ich ahne ja, wo er stecken könnte, aber es passt noch nicht zusammen…)
@barfoo(#40):
Hey, jetzt fällt mir noch eine zweite anschauliche Erklärung ein. Die Falle, weswegen im ersten Fall 33% rauskommt, war ja, dass nicht festgelegt ist welches der beiden Kinder das Mädchen ist. Indem wir dem Kind einen Namen geben, stellen wir aber künstlich eine Ordnung her. Man könnte die Frage ja auch umformulieren als:
Eine Familie hat zwei Kinder, eins heißt Mechthild. Wie wahrscheinlich ist es, dass das nicht-Mechthild Kind ein Mädchen ist?
Dass hierbei 50% rauskommt, ist fast schon wieder intuitiv klar … deshalb ist diese Erklärung wahrscheinlich auch falsch -.-
Ja. Die Aufgabe ist gerade so gestellt, dass nicht bestimmt ist, ob Kind Nr. 1 oder Kind Nr. 2 das Mädchen namens Mechthild/Florida ist – genauso wenig, wie im Ausgangsfall ohne den Namen bestimmt ist, welches Kind das eine Mädchen ist. Und es kommt ja bei Kenntnis des Namens auch keine Wahrscheinlichkeit von genau 50 % raus, sondern – je nach Häufigkeit des Namens – eine mehr oder weniger große Annäherung an diesen Wert.
Das „Mechthild“-Problem basiert auf einer Axiomen-Kette, die nicht belegt ist und ohne die Kette in sich zusammenfällt. Hab das alles mal durchgerechnet. Es ist und bleibt ein Drittel. Denn diese Unterscheidung in x-1/2 und 1/2-x kürzt sich zwangsläufig raus. Erscheint mir ein typisches Konstrukt für Erstsemester zu sein nach dem Motto „Na, wer findet den Fehler?“
Falsches Axiom, daraus richtige Schlussfolgerung = falsches Ergebnis.
Wenn man das ganze wisenschaftlich angehen wollte, müsste man differenzieren nach Geburtsjahrgängen, Alter der Mutter, Einkommen der Familie etc.
@Quercus
Diese Überlegung hatte ich auch schon, ich wollte das Paradoxe daran mit dem Dialog darstellen.
Wo ist mein Denkfehler? (ich ahne ja, wo er stecken könnte, aber es passt noch nicht zusammen…)
Mir wurde es klar, als ich nochmal über das Ziegenproblem nachgedacht habe:
Wir wählen Tür 1, der Moderator zeigt uns hinter Tür 2 eine Ziege, sollten wir jetzt auf Tür 3 wechseln? Kommt drauf an! Warum hat uns der Moderator Tür 2 gezeigt? Wenn er immer eine Ziege zeigt (weil er weiß wo die sind), dann sollten wir wechseln. Wenn er aber einfach immer Tür 2 aufmacht, egal was dahinter ist, dann nützt uns die Information mit der Ziege gar nichts.
Genauso müssen wir uns Fragen, warum das Kind Mechthild heißt. Wenn wir den Namen erst danach erfahren (so wie in meinem Dialog), dann ist die Information wertlos. Wenn der Name aber vorher feststeht und wir wissen dass von Anfang an nur Mechthild-Familien für unsere Fragestellung relevant waren (zB wie in der Simulation), dann können wir diese Information entsprechend verwenden.
Gleichermaßen können wir, wenn wir zufällig von einem der Kinder erfahren dass es weiblich ist, diese Information nicht verwenden (siehe aktualisiertes: https://ideone.com/HWMZ4A). Nur wenn ich mich beim Jahrestreffen des Vereins Familien-mit-zwei-Kindern-und-davon-mind.-einem-Mädchen eV befinde, kann ich damit angeben das Geschlecht des anderen Kindes meistens erraten zu können.
Und in der ursprünglichen Fragestellung
Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, das eines der Kinder ein Mädchen mit dem Namen “Mechthild” ist?
ist nicht gesagt WARUM uns diese Information bekannt ist (finde ich). Von daher haben die Leute, die sagen dass man keine Nutzen aus der Information ziehen kann, durchaus recht.
So, jetzt habe ich darüber geschlafen und sehe die Sache doch etwas klarer. Hilfreich ist da auf jeden Fall der Link von Florian: https://allendowney.blogspot.de/2011/11/girl-named-florida-solutions.html
Ich versuch es mal in meinen Worten zu erklären (und man verzeihe mir falsch verwendete Termini und allfällige Tipfehler):
1. Zuerst die Frage „Wie wahrscheinlich sind 2 Mädchen“:
Wichtig, es handelt sich um zwei unabhängige Ereignisse:
Wahrscheinlichkeit, daß das 1.te Kind ein Mädchen ist – 50 %
Wahrscheinlichkeit, daß das 2.te Kind ein Mädchen ist – 50 %
Daraus ergibt sich:
MM, MB, BM, BB
Dabei ist natürlich MB und BM ident, da es auf die Reihenfolge nicht ankommt.
Jede mögliche Kombination hat 25% Wahrscheinlichkeit (MM, MB, BM, BB) oder etwas korrekter
25% (MM)
50% (MB und BM)
25% (BB)
Da Buben-Buben ausfallen ergibt sich für MM 1/3.
2. Die zweite hilfreiche Frage ist „Wie wahrscheinlich sind 2 Mädchen wenn das älteste Kind ein Mädchen ist“:
Hier ist ein Ereignis (das älteste Kind ist ein Mädchen) fix vorgegeben. Wir haben nicht mehr 2 unabhängige Ereignise sondern nurmehr ein Ereignis. Man könnte auch sagen, der Freiheitsgrad des Systems wurde reduziert (mir liegt diese Formulierung, da sie mir vertraut ist).
Wahrscheinlichkeit, daß das 1.te Kind ein Mädchen ist: 50 %
Wahrscheinlichkeit, daß das 2.te Kind ein Mädchen ist: 100 %
Daraus ergibt sich:
MM, MB
Korrekter wäre übrigens die Schreibweise M, B, da ja das Geschister fix ist.
Die möglichen Kombinationen sind demnach
50% (MM)
50% (MB)
Das ergibt natürlich für 2 Mädchen eine 50%ige Wahrscheinlichkeit
UND JETZT ZUM MECHTHILD/FLORIDA – PROBLEM
Dies ist ein allgemeinerer Fall und liegt zwischen den beiden Extremen von Fall 1. und Fall 2.
Grundsätlich sind auch hier zwei Ereignisse. Allerdings ist ein Ereignis mehr oder weniger eingeschränkt:
Der Name Mechthild kommt nur selten vor. Er schränkt den Freiheitsgrad des ersten Mädchens stark ein.
Umgekehrt würde ein Name wie Susi den Freiheitsgrad nur wenig einschränken, da Susi häufig vorkommt.
Die Starke Einschränkung von Mechthild führt zur hohen Warhscheinlichkeiten von nahe 50% (wie bei Fall 2). Die schwache Einschränkung von Susi zur geringen Wahrscheinlichkeit nahe 33% (siehe Fall 1).
Wäre Mechthild ein einmaliger Name, dann würde ein Ereignis vollkommen eingeschränkt sein (hat keinen Freiheitsgrad mehr) und damit auch vollständig zum Fall 2 werden.
Umgekehrt, wäre Susi der einzige Name, würden beide Ereignisse (die beiden Geschwister) vollkommen frei sein und zum Fall 1 werden.
Übrigens der wirklich allgemeine Fall wäre die Frage: „Wie wahrscheinlich sind 2 Mädchen, wobei ein Mädchen Susi und das andere Mechthild heißt“. Und wenn man sich öfters und intensiv mit der Problematik auseinandersetzen würde, würde es wohl auch mit der Intuition klappen.
So, daß waren meine (bisherigen) Erkenntnisse, wohl nicht in der korrekten Fachsprache aber hoffentlich verständlich.
Ich bleibe dabei, dass die Frage in dieser Form Blödsinn ist.
Angenommen man wählt zufällig eine Familie aus, dann kann diese auch 0, 1, 3, 4 oder mehr Kinder haben, von Stief- und Adoptivkindern mal abgesehen. Hier hat aber eine Vorauswahl stattgefunden, und es sind nur Familien mit 2 Kindern überhaupt in der Ausgangsmenge.
Jetzt erfahren wir, dass eines davon ein Mädchen namens Mechthild ist, und wir sollen sagen, wie wahrscheinlich ist das zweite Kind auch ein Mädchen.
Wäre jetzt dieses eine Mädchen von Namen Susi gewesen – was würde das ändern? Angenommen das Mädchen hieße Susi, aber das andere Mechthild?
Bernd kann das Mädchen ja schlecht heißen.
Wenn die Frage lautet: „Wieviele Familien mit 2 Kindern, von denen eines Mechthild heißt, haben 2 Töchter?“ ist die Frage dagegen klar, vorrausgesetzt dass der Vorname nicht mit der Kinderzahl korreliert.
@Stefan W.
Ja, da hast du natürlich recht. Die Fragestellung ist nicht exakt formuliert und läßt Spielraum. Aber inzwischen dürfte allgemeiner Konsens darüber bestehen, wie es gemeint war.
Und spätestens aber nach deinem Kommentar sollte es allen klar sein.
@barfoo(#45):
Die Parallele zum Ziegenproblem kann ich noch nicht ganz nachvollziehen (ich formuliere mal ganz doof: Wo versteckt sich beim Mechthild/Florida-Problem der wissende Moderator, und wo der unwissende Kandidat?). Aber ich muss mir das nochmal in Ruhe überlegen. Bei Allen Downey gibt es ja auch einen Kommentator („Jeff Jo“), der das ins Spiel bringt – ich bin mir aber nicht mal sicher, ob er dasselbe meint wie Du.
Ich glaube aber, Du hast hier eine nicht ganz richtige Formulierung drin:
Gleichermaßen können wir, wenn wir zufällig von einem der Kinder erfahren dass es weiblich ist, diese Information nicht verwenden (siehe aktualisiertes: https://ideone.com/HWMZ4A). Nur wenn ich mich beim Jahrestreffen des Vereins Familien-mit-zwei-Kindern-und-davon-mind.-einem-Mädchen eV befinde, kann ich damit angeben das Geschlecht des anderen Kindes meistens erraten zu können.
Wenn das Kind schon individualisiert ist, ist die Wahrscheinlichkeit für das andere Kind, ein Mädchen/Junge zu sein, immer 50/50, Name des ersten Kindes hin oder her, Art oder Zeitpunkt der Kenntniserlangung hin oder her (bei Downey: Problem 3). Ich erwähne das nochmal, weil dieser Fall weiter oben schon ein paar Mal für Verwirrung gesorgt hat.
@Florian, #38:
Du hat deinen Artikel da aber falsch zitiert und die Aussagen teilweise vertauscht! 🙂
„Falsch positiv“ in deinen alten Artikel: Die Planeten befinden sich in einer bestimmten Konstellation und es tritt kein Erdbeben auf. – korrekt!
„Falsch positiv“ hier: Erdbeben wurde nicht vorhergesagt und Erdbeben hat stattgefunden. – nicht korrekt! Dies ist „falsch negativ“!
@Quercus
Von den anzuwendenen Formeln sind die beiden Probleme verschieden. Die Parallele ist, dass uns die zusätzliche Information nichts nützt wenn wir nicht wissen warum wir diese Information haben.
Wenn das Kind schon individualisiert ist …
genau das meine ich auch.
Zur Auflockerung ein kleiner Witz:
Eine Frau erwartet zweieiige Zwillinge. Bei einer Ultraschalluntersuchung soll das Geschlecht der Kinder festgestellt werden.
Der Arzt sagt: „Eines ihrer Kinder wird ein Mädchen…“
Die Frau, die sich zwei Mädchen wünscht, unterbricht ihn:
„Moment, dieses Kind nenne ich Florida!“
Oder noch verfeinert:
Eine Statistikerehepaar erwartet zweieiige Zwillinge. Bei einer Ultraschalluntersuchung soll das Geschlecht der Kinder festgestellt werden.
Der Arzt sagt: “Eines ihrer Kinder wird ein Mädchen…”
Die Frau, die sich zwei Mädchen wünscht, unterbricht ihn:
“Moment, dieses Kind nenne ich Florida!”
Der Mann, der gerne einen Jungen hätte schreit:
„Nein, Susi!“
Hier noch ein aktuelle Artikel aus der Zeit zum Thema Statistik: http://www.zeit.de/2014/01/statisitk-wissenschaft-signifikanz
@barfoo(#51)
Soweit, so abstrakt hatte ich das schon verstanden. Nur: beim Ziegenproblem kann ich konkret nachvollziehen, wie die Kenntnis des Moderators, wo sich der Gewinn befindet, seine Entscheidung für eine Tür und damit aus Sicht des Kandidaten die Wahrscheinlichkeiten beeinflusst. Entsprechendes kann ich bei Mechthild/Florida noch nicht. Auch nicht, auf welche Weise sich der relevante Unterschied in der Formulierung niederschlägt. So, wie es Stefan W. (#47) vorschlägt, erschließt es sich mir jedenfalls nicht. Wäre diese Formulierung denn Deiner Meinung nach richtig? Ist Florians Formulierung, wie Stefan meint, falsch bzw. uneindeutig?
@Quercus
Ich hab‘ da übrigens auch ein Verständnisproblem (und ich hatte ziemlich viel W’rechnung und Statistik in der Oberstufe und im Studium). Der Name Mechthild mag sehr selten sein, aber es heißt ja auch nicht gerade jedes zweite Mädchen Susi, jeder Name ist hinreichend selten. Wie soll auch mit gebräuchlichen Namen jemals eine Wahrscheinlichkeit nahe 1/3 herauskommen, die eigentlich der normale Fall sein müsste? Und irgendeinen Namen hat ja jedes Kind, was soll sich ändern, wenn man diese Information bekommt oder nicht? Und ob der Name dann selten oder sehr selten ist?
Das ist gänzlich anders als beim Ziegenproblem, wo der Moderator abhängig von der ersten Wahl des Kandidaten gezwungen ist, ein bestimmtes Tor zu öffnen, wenn der Kandidat falsch liegt, jedoch zwei Möglichkeiten hat, wenn er richtig liegt. Hier hängt alles zusammen.
Man muss in der Wahrscheinlichkeitsrechnung höllisch aufpassen, welches Modell man verwendet.
@Aldemarin:
genau wie soll mit einem häufigen Namen jemals ein Egebnis nahe ein Drittel herauskommen?
Ich finde es ja auch schon völlig absurd.
Selbst ein besonders häufig vorkommender Name hat einen Anteil von vielleicht 2-3%.
Jedenfalls halte ich es für völlig absurd, wenn man weiß, dass das Mädchen 2 Nasenlöcher hat, es die Wahrscheinlichkeit gegen ein Drittel setzt, während ein Mädchen, das nur ein Nasenloch die Wahrscheinlichkeit für 2 Mädchen auf 1/2 erhöht?
Es ist einfach nicht logisch.
Ich halte auch meinen Witz (s.o.) für eine Widerlegung der Wahrscheinlichkeits-Rechnung.
Durch die Namensgebung kann sich nichts ändern!
@Gregor Weidinger: „Es ist einfach nicht logisch. Durch die Namensgebung kann sich nichts ändern!“
Seufz. Ich habe mit meiner ausführlichen Besprechung dieses Buchs ja eigentlich probiert, klar zu machen, dass man sich bei Wahrscheinlichkeitsrechnungen EBEN NICHT auf Hausverstand und Logik verlassen kann. Das was wir als „logisch“ empfinden, ist eben nicht so, wie Wahrscheinlichkeit funktioniert. Und dieses Zwillingsbeispiel ist extra dafür da, uns das erkennen zu lassen. So wars ja auch beim Ziegenproblem. Da haben auch u.a hunderte Mathematiker (!) heftigst dagegen protestiert das so eine „falsche“ und „unlogische“ Lösung publiziert wurde.
Du machst außerdem den Fehler, nur ein einziges Paar mit Zwillingen zu betrachten. Da ist es natürlich völlig schnurz, wie die Kinder heißen und sie wechseln nicht plötzlich ihr Geschlecht. Aber so funktioniert die Frage nach der Wahrscheinlichkeit ja nicht. Die Frage ist eher: Wenn du ein riesiges Fussballstadion voll mit Eltern und ihren Zwillingskindern hast: Wie viele davon haben zwei Mädchen? Und wie viele davon haben zwei Mädchen von denen eines Mechthild heißt?
Ich bin immer noch in Urlaub und hab das Buch von Mlodinow zu Hause gelesen. Aber nächste Woche kann ich hier nochmal genau zitieren, wie er das Florida-Problem im Buch erläutert. Vielleicht wirds dann klarer.
Die Kommentare haben mich nochmal zum Nachdenken gebracht. Hier mein Problem:
SelternerName (wie Mechthild) kommt genau einmal vor. Dann kann ihr Geschwister nur
M: 50% oder
W: 50% sein.
Wenn aber SelternerName (Mechthild) 2mal vorkommt dann sieht es doch für das Geschwister so aus:
SelternerName_1 (Mechthild Huber)
M: 50%
W: 50%
SelternerName_2 (Mechthild Merkel)
M: 50%
W: 50%
Das ergibt für die Kombinationen des Geschwisters von Mechthild
MM: 25%
MW: 25%
WM: 25%
WW: 25%
Und das würde doch wieder genau 1/3 ergeben. Demnach wäre 1/2 nur für den Spezialfall gültig, wenn Mechthild genau einmal vorkommt. Wo liegt mein Fehler???
Die Änderung in der Wahrscheinlichkeit hängt davon ab wie sich durch die Vorgaben die Grundgesamtheit ändert.
Wenn ich zunächst aus der Menge „mindestens ein Mädchen“ auswähle dann ist die Wahrscheinlichkeit für ein zweites Mädchen 1/3.
Daran ändert sich auch nichts wenn man mir sagt, wie das erste Mädchen heißt, da ich ja nicht aus der Teilmenge mit einem bestimmten Namen ausgewählt habe sondern erst hinterher schaue wie das Mädchen heißt.
Wenn ich meine Auswahl vorher auf Paare mit mindestens einem Mädchen mit der seltenen Eigenschaft x beschränke, dann ändert sich meine Grundgesamtheit, und zwar derart, dass darin die Kombination MM fast genausooft enthalten ist wie MJ+JM.
Veranschaulichen lässt sich das am besten mit dem Bild aus dem link
https://allendowney.blogspot.de/2011/11/girl-named-florida-solutions.html
Also nochmal in kurz:
Entscheidend ist aus welcher Menge ich vorher auswähle, nicht in welche Teilmengen man hinterher noch einordnen kann.
Hallo,
ich finde dieses Thema faszinierend – schon weil ich selbst nicht damit klarkomme. 🙂
Das Ziegenproblem ist für mich einleuchtend.
Bei der Frage, wie wahrscheinlich es ist, dass beide Kinder Mädchen sind, wenn eines ein Mädchen ist, komme ich nicht klar. Warum muss ich denn die Wahrscheinlichkeit für beide Kinder (alle 4 Fälle) benutzen, wobei ein Fall (Junge/Junge) durch die Aufgabenstellung eleminiert wird?
Da ich die Info vorher habe, warum kann ich nicht einfach nur die Wahrscheinlichkeit berechnen, ob das 2. Kind ein Junge oder Mädchen ist? Das wären dann 50%. (Das erste Kind ist ja als Mädchen definiert und fällt für mich damit aus einer Wahrscheinlichkeitsrechnung heraus.)
Wo denke ich falsch?
Ok, vielleicht sollten wir nochmals ganz zurückgehen. Kein Bayes sondern nur bedingte Wahrscheinlichkeit. Probieren wir vielleicht ein Beispiel, was einfacher zu verstehen ist.
Ich würfle mit einem ganz normalen fairen Würfel, sage Dir aber nicht die Augenzahl und Deine Aufgabe ist es zu raten, welche Zahl der Würfel zeigt. Da Du keinerlei Informationen hast, ist es egal welche Zahl zu wählst da alle Zahlen von 1-6 gleich wahrscheinlich sind. (Nebenbei: implizit benutzt Du hier natürlich auch schon Vorwissen, weil Du weißt dass die Zahl 7 bei einem normalen Würfel nicht vorkommt also die Wahrscheinlichkeit für eine 7 gleich 0 ist, aber das nur nebenbei).
Jetzt gebe ich Dir die Information, dass die Augenzahl gerade ist. Nehmen wir der Einfachheit mal an, dass diese Information zu 100% korrekt ist. Nachdem Du diese Information hast, ändern sich die Wahrscheinlichkeiten. Jetzt macht es auf einmal keinen Sinn mehr auf, 1, 3 oder 5 zu wetten (also ist die Wahrscheinlichkeit für diese Zahlen, gegeben dieser Information gleich 0. Die Wahrscheinlichkeit für die übrigen Zahlen erhöht sich damit natürlich auf ein Drittel).
Sobald zu neue Informationen hast, ändern sich die Wahrscheinlichkeiten immer.
Der Satz von Bayes erlaubt jetzt den Schluss in die umgekehrte Richtung. Wir hatten bis jetzt gerade die Wahrscheinlichkeit gegeben der Information das die Zahl gerade ist berechet. Mit dem Satz von Bayes kann ich jetzt berechnen, wie wahrscheinlich die Zahl gerade ist.
Das erscheint jetzt vielleicht ziemlich bescheuert, weil ich ja weiß ob eine Zahl gerade ist oder nicht. Aber das ist nur der Fall, weil wir ursprünglich davon ausgegangen sind, dass alle Informationen, die Du bekommst zu 100% korrekt sind. Angenommen ich lüge in 10% der Fälle wenn ich Dir die Information gebe, dass die Augenzahl gerade ist.
Wenn das der Fall ist, ändern sich wieder die Wahrscheinlichkeiten. Auf einmal ist die Wahrscheinlichkeit für 1,3 und 5 nicht mehr gleich 0 wenn ich sage, dass die Zahl gerade war. Denn es könnte ja sein, dass die Zahl tatsächlich ungerade ist und ich einfach nur lüge.
Und so sind in einem Bayeschen Schema sind alle Wahrscheinlichkeiten immer abhängig von Deinem aktuellen Wissen. Und das Wissen ist wiederum abhängig von Deinen Beobachtungen.
so hat er es gemacht
Ja ist gut, ich bin dumm.
@Florian
Also kann ich nicht ein Paar fragen, das 2 Kinder hat, eines davon ein Mädchen. Und danach davon ausgehen, dass es mit einer Wahrscheinlichkeit von 1/3 ein zweites Mädchen hat?
Und wenn ich vor dem Tipp noch nach dem Namen frage habe ich keine höhere Trefferwahrscheinlichkeit?
Denn ich betrachte ja nur ein Paar?
Wenn ich eine Münze werfe kann ich nicht davon ausgehen, dass ich mit 50% Wahrscheinlichkeit Kopf oder Zahl bekomme, denn ich betrachte ja nur meinen einzigen Wurf?
So habe ich Wahrscheinlichkeit tatsächlich noch nie verstanden. Ich dachte immer, dass man durch das Betrachten von allen Fällen Schlüsse auf den Einzelfall ziehen kann.
@Gregor Weidninger: „Ja ist gut, ich bin dumm.“
Das hat keiner gesagt. Wenn es um Wahrscheinlichkeiten geht, sind wir alle „dumm“, weil unser Gehirn eben nicht dafür ausgelegt ist, sowas intuitiv zu verstehen und explizit dafür ausgelegt ist Dinge abzulehnen, die es nicht intuitiv versteht…
„Wenn ich eine Münze werfe kann ich nicht davon ausgehen, dass ich mit 50% Wahrscheinlichkeit Kopf oder Zahl bekomme, denn ich betrachte ja nur meinen einzigen Wurf?“
Die Wahrscheinlichkeit, dass eine faire Münze auf „Kopf“ landet, liegt bei 50%. Aber du fragst ja quasi, wie wahrscheinlich ist es, dass eine Münze, die schon geworfen wurde, auf Kopf gelandet ist und wunderst dich darüber, wie eine zusätzliche Information den Status der schon geworfenen Münze verändern kann – was natürlich nicht geht, weil die Münze ja schon definitiv liegt.
@rolak: Hast du vielleicht auch noch die Stelle aus dem Buch, in der Mlodinow das mit dem Zwillingstreffen in der großen Halle erklärt? Da wird das Problem recht verständlich erläutert.
Kommt darauf an, was Du mit „Einzelfall“ meinst. Wenn Du meinst, wie ein konkreter Einzelfall ausfallen wird, dann ist die Aussage falsch. Wenn Du meinst, was mit einem Einzelfall im Durchschnitt passiert, dann ja.
Wenn ich mir die Statistik anschaue, dann lohnt es sich z.B. nicht, Lotto zu spielen. Das ändert natürlich nichts an der Tatsache, dass es sich für den Gewinner offensichtlich gelohnt hat.
Das Problem hier sind zwei verschiedene Sichtweisen. Beim Gewinner schaut man rückwirkend auf Kosten/Nutzen und kommt zu einem positiven Ergebnis. Wenn man allerdings noch nicht weiß, dass man gewinnen wird, macht es keinen Sinn weil man im Durchschnitt immer draufzahlt.
Klar, Florian, ist ja dasselbe Buch – doch da ich dergleichen nicht auswendig lerne muß ich suchen. ‚Twin’s kamen nur in Einzahl vor (also eine Mutter..), ‚meeting‘ half nicht und ‚hall‘ war -nicht unerwarteterweise- zumeist die von Monty. Hmm, also hatte ich
Ok, brute force, ran an den Anfang des Kapitels, Finger auf [abwärts] und friedlich rauscht der Blätterwald bis exakt nach dem eben Herauskopierten^^ Hätte eigentlich klar sein sollen, selbst schuld, da ist es, ohne (twin, hall, meeting) doch inklusive des Warnhinweises bzgl der Nebenwirkungen im sozialen Leben.
Genau, die Stelle meinte ich. Da ist das gut erklärt:
Solche Trümmer zitierend einzubinden überlasse ich vorsichtshalber Dir, Florian 😉
Interessant die Textstelle:
Leider erklärt die eben nicht das Problem:
Von den 25 Millionen 2 Mädchen Familien bleiben lediglich 25 Floridas.
Denn von den 50 Millionen Mädchen in den 2 Mädchen Familien bleiben lediglich 25 Millionen, die definitionsgemäß Florida heißen können.
Nur die Hälfte der 50 Millionen hat überhaupt die Möglichkeit Florida zu heißen.
Denn nur ein Mädchen in den 2 Kind Familien kann Florida heißen. Das andere heißt anders.
Ohne den Namen können 50 Millionen Mädchen – Mädchen sein.
50 Millionen Jungen.
Mit Namen eben 25 Millionen mögliche Floridas, 25 Millionen Mädchen und 50 Millionen Jungen.
Die Wahrscheinlichkeiit bleibt bei einem Drittel.
Der Denkfehler dabei ist: Florida IST GLEICH (=) Mädchen.
@Gregor: Was meinst du jetzt genau? Das Mlodinow falsch gerechnet hat?
Ich weiß leider nicht, wie ich das noch anders/besser erklären soll. Wenn das Ergebnis dem widerspricht, was du intuitiv für richtig hälst, dann ist das aber genau der Punkt, um den es bei diesem Beispiel geht. Es SOLL nichts herauskommen, was dir intuitiv richtig vorkommt; denn das Beispiel wurde extra so konstruiert um die Nicht-Intuitivität der Wahrscheinlichkeitsrechnung zu demonstrieren. Die Mathematik ist in der Hinsicht eindeutig.
Ups kleine Zahlenfehler im letzten Post. Ändert aber nix am der Aussage.
Es geht mir nicht um Intuition.
Ich behaupte auch nicht, dass die Rechnung falsch ist.
Er geht nur von falschen Voraussetzungen aus.
Nur die Hälfte der Mädchen von der er annimmt die Florida heißen können, kann Florida heißen.
Er hält MF für eine dritte Kategorie neben J und M.
x=y ist nun mal x=y auch wenn man sagt, y ist aber ein seltener Buchstabe.
Es gibt eben nicht die Möglichkeiten:
J MF
MF J
M MF
MF M
MF MF
Richtig wäre, da MF=M
J M
M J
M M
@Greogor Weidinger: Ich verstehe immer noch nicht, was du sagen willst. Du sagst anscheinend, Mlodinow hätte in seinem Buch nen Fehler gemacht? Und bis jetzt hat ihn niemand außer dir entdeckt? Will ich nicht ausschließen, halte ich aber für unwahrscheinlich.
Dich scheint zu stören, dass Mlodinow „Mädchen das Florida heißt“ als eigene Kategorie neben „Mädchen das nicht Florida heißt“ benutzt. Aber exakt darum geht es bei der Bayesschen Statistik! Das ist eine Form der Wahrscheinlichkeitsrechnung, die es erlaubt, zusätzliche Informationen in die Berechnung zu inkludieren. Und der Name IST eine zusätzliche Information und MUSS extra berücksichtigt werden. „Mädchen die Florida heißen“ sind eine eigene Kategorie die getrennt von „Mädchen die nicht Florida heißen“ behandelt werden muss, wenn man die entsprechende Information berücksichtigen will. Und das will man hier.
Da werden Dir allerdings sämtliche Susis etwas anderes erzählen, Gregor, gegebenenfalls ziemlich nachdrücklich.
Vielleicht hat Christian Reinboth die Bayessche Statistik ja besser erklärt: https://scienceblogs.de/frischer-wind/2008/12/05/das-taxiproblem/
Muss nicht sein. Die Frage war ja, dass alle Familien bleiben sollen, die mindestens ein Mädchen namens Florida haben. Damit ist es egal, ob Florida auch ein Jungenname sein kann.
Die Leute mit zwei Mädchen haben somit zwar die doppelte Wahrscheinlichkeit zu gewinnen als die mit nur einem Mädchen. Allerdings gibt es doppelt so viele Familien mit nur einem Mädchen.
@Compuholic: Ich glaube es ging nicht um die Frage, ob auch Jungs „Florida“ heißen können, sondern darum, dass Gregor „Mädchen das Florida heißt“ mit der Kategorie „Mädchen“ gleich setzt.
@Gregor
Wenn du dir eine Zwei-Mädchen-Familie ansiehst, und eins der Mädchen heißt Florida, und das andere nicht, dann generalisierst du das darauf, dass nur die Hälfte der Mädchen überhaupt die Chance bekommt, Florida zu heißen, und das andere gar nicht.
Es ist aber etwas anders: Das eine Mädchen hat eine geringe Wahrscheinlichkeit (ein Millionstel), Florida zu heißen, und das andere ebenso (ein Millionstel), und nur wenn beides zufällig aufeinandertrifftt (in einem Billionstel der Fälle), werden die Eltern das zweite Mädchen anders nennen.
Sehen wir dann nur auf die Zwei-Mädchen-Familien mit Mädchen namens Florida, dann bekommen wir jetzt zwei Millionstel minus ein Billionstel – während in deiner Lösung ein Millionstel herauskommt, weil du das zweite Mädchen generell ausschließt, selbst wenn das erste gar nicht Florida heißt.
Ok, es stimmt. Wir haben ja gelernt, dass wir nichts glauben sollen, das wir nicht überprüft haben. Also hab ich’s überprüft. Per Simulation.
Hier ist ein kleines C-Programm für den gcc (z.B. auf Windows unter Cygwin):
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <math.h>
int main (int argc, char **argv)
{
long familien, haeufigkeit;
char kind1, kind2;
long count = 0;
long countMJ = 0;
long countMM = 0;
long countJJ = 0;
long countM = 0;
long florida = 0;
long floridaMM = 0;
long floridaMJ = 0;
float ProzJJ, ProzMM, ProzMJ;
float Proz1M, Proz2M;
float ProzF1M, ProzF2M;
int error = 1;
if (argc==3)
{
familien = strtol (argv[1],NULL,10);
haeufigkeit = strtol (argv[2],NULL,10);
error = (familien*haeufigkeit<=0);
}
if (error)
{
printf ("Aufruf: %s <Zahl der Familien> <1/Haeufigkeit des Namens 'Florida'>\n", argv[0]);
printf ("Beispiel: %s 10000 50\n\n",argv[0]);
return EXIT_FAILURE;
}
srand ( time(NULL) );
for (count=0;count<familien;count++)
{
kind1 = (rand()%2)? 'J':'M';
kind2 = (rand()%2)? 'J':'M';
if (kind1==kind2)
{
if (kind1=='M')
{
countMM++;
floridaMM+=((rand()%haeufigkeit==0) | (rand()%haeufigkeit==0))?1:0;
}
else countJJ++;
}
else
{
countMJ++;
floridaMJ+=(rand()%haeufigkeit==0)?1:0;
}
}
ProzJJ=(float)countJJ/count;
ProzMM=(float)countMM/count;
ProzMJ=(float)countMJ/count;
printf ("\nTotal: %d, JJ: %f%% MJ/JM: %f%%, MM: %f%%\n", count, ProzJJ, ProzMJ, ProzMM);
countM = countMJ+countMM,
Proz1M=(float)countMJ/countM;
Proz2M=(float)countMM/countM;
printf ("Nur >= 1M: %d, 1M: %f%%, 2M: %f%%\n", countM, Proz1M, Proz2M);
florida = floridaMM+floridaMJ;
ProzF1M=(float)floridaMJ/florida;
ProzF2M=(float)floridaMM/florida;
printf ("Haeufigkeit Florida: %e\n", 1.0/haeufigkeit);
printf ("Nur >= 1 Florida: %d, 1M: %f%%, 2M: %f%%\n\n", florida, ProzF1M, ProzF2M);
}
Man ruft das Programm mit Florida <n> <m> auf, wobei <n> die Zahl der simulierten Familien und <m> die Zahl der Mädchen, auf die eine „Florida“ kommt, angibt (also 1000, wenn auf jedes 1000. Mädchen eine Florida kommt). Die Ausgabe erklärt sich dann selbst.
Hier ein paar Durchläufe für verschiedene Häufigkeiten von „Florida“ bei jeweils 10 Millionen Familien:
F:\>florida 10000000 1000
Total: 10000000, JJ: 0.250224% MJ/JM: 0.499781%, MM: 0.249995%
Nur >= 1M: 7497762, 1M: 0.666574%, 2M: 0.333426%
Haeufigkeit Florida: 1.000000e-03
Nur >= 1 Florida: 9920, 1M: 0.493952%, 2M: 0.506048%
F:\>florida 10000000 10
Total: 10000000, JJ: 0.249977% MJ/JM: 0.500067%, MM: 0.249955%
Nur >= 1M: 7500226, 1M: 0.666737%, 2M: 0.333263%
Haeufigkeit Florida: 1.000000e-01
Nur >= 1 Florida: 975256, 1M: 0.513008%, 2M: 0.486992%
F:\>florida 10000000 2
Total: 10000000, JJ: 0.250254% MJ/JM: 0.500106%, MM: 0.249640%
Nur >= 1M: 7497464, 1M: 0.667034%, 2M: 0.332966%
Haeufigkeit Florida: 5.000000e-01
Nur >= 1 Florida: 4372389, 1M: 0.571674%, 2M: 0.428326%
F:\>florida 10000000 1
Total: 10000000, JJ: 0.249928% MJ/JM: 0.500138%, MM: 0.249934%
Nur >= 1M: 7500723, 1M: 0.666787%, 2M: 0.333213%
Haeufigkeit Florida: 1.000000e+00
Nur >= 1 Florida: 7500723, 1M: 0.666787%, 2M: 0.333213%
– wie erwartet hat man stets je zur Hälfte Kinder mit gleichem Geschlecht (1/4 JJ, 1/4 MM und die Hälfte gemischt).
– ebenfalls wie erwartet hat man, wenn man nur die Familien mit wenigstens 1 Mädchen betrachtet, in 2/3 der Fälle 1 Mädechen und in 1/3 der Fälle 2 Mädchen.
– wenn man nur die Fälle von Familien mit einer Tochter „Florida“ zählt (hier simuliert durch ein zusätzliches Ereignis mit einstellbarer Häufigkeit, das jeweils einmal pro Mädchen getestet wird), dann ergibt sich schon bei einer Häufigkeit des Namens von 50% eine große Abweichung von der 2/3-1/3 Verteilung, die noch gegeben ist, wenn alle Mädchen „Florida“ heißen (letzter Durchlauf). Bei 10%-Wahrscheinlichkeit ist man schon nahe bei 1/2-1/2. Es ist also herzlich egal, welchen Namen das Kind hat – sobald man die betrachteten Familien auf einen beliebigen aber festen Namen einer der Töchter einschränkt, geht die Wahrscheinlichkeit, eine zweite Tochter zu haben, gegen 50%. Das ist bei „Chantal“ oder „Jacqueline“ ebenso der Fall wie bei „Florida“ oder „Mechthild“. Die 1/2-1/2 wird bei selteneren Namen nur besser approximiert.
So, und jetzt muss ich nochmal über das Ergebnis nachdenken…
Ich habe mir beide Fragen noch einmal angeschaut:
(1) Wie groß ist die Wahrscheinlichkeit, daß es zwei Mädchen sind, wenn wir wissen, daß (mindestens) eines ein Mädchen ist?
(2) Wie groß ist die Wahrscheinlichkeit, daß es zwei Mädchen sind, wenn wir wissen, daß ein Mädchen Namens Mechthild existiert?
Um zur Antwort auf (1) zu kommen, wurden die Möglichkeiten der Geschlechtskombinationen aufgelistet (in der Reihenfolge der Geburt):
Junge – Mädchen; Mädchen – Junge; Mädchen – Mädchen
woraus sich die Wahrscheinlichkeit von 1/3 ergab.
Bei der Antwort auf Frage (2) werden die Antwortmöglichkeiten allerdings erweitert. Für jedes der beiden Kinder gäbe es die Möglichkeiten Junge / Mädchen / Mechthild. Aus den theoretischen 9 Kombinationen bleiben durch die Zusatzinformation 4 (!) übrig:
Junge – Mechthild
Mechthild – Junge
Mädchen – Mechthild
Mechthild – Mädchen
Man beachte: Die Zusatzinformation hat aus den drei Möglichkeiten aus Frage (1) nun 4 Antwortmöglichkeiten gemacht, von denen zwei günstig sind. Die Antwort auf die Frage lautet also 2 aus 4 = 1/2.
Ich finde die Frageumformulierung von barfoo (#40) recht gut, sie vereinfacht das Problem auf den Kern: Es gibt ein Kind namens Mechthild (oder Susi oder Ronja oder irgendwas), wie groß ist die Wahrscheinlichkeit, daß das Geschwister auch ein Mädchen ist?
Der eigentliche Name tut nichts zur Sache. Lediglich die Zusatzinformation, daß wir zu einem der Mädchen eine Eigenschaft wissen, erweitert die Lösungsmöglichkeiten von
Mädchen – Mädchen
auf
Mädchen – MädchenMitEigenschaft und MädchenMitEigenschaft – Mädchen
Abweichungen von 1/2 (in der Regel nach unten) kann ich nicht nachvollziehen, weil mir die Annahmen der zugrunde liegenden Statistik suspekt sind. Die Schätzung der in den Lösungswegen angenommenen Häufigkeiten zu Namen; Haarfarben und ähnlichem sind ja mit einem gewissen Fehler behaftet. Sind die Schätzungen hingegen richtig gut, so sollte ein Wert etwas kleiner als 1/2 herauskommen, da ja biologisch die Wahrscheinlichkeit einer Mädchengeburt etwas geringer ist als die einer Jungengeburt.
Ich weiß nicht wem das Gerechne noch weiterhilft. Für mich ist die Frage alles andere als ein klarer Fall von Beleg, dass der Mensch bedingte Wahrscheinlichkeiten nicht begreift, sondern ein Zeichen dafür, dass nicht jeder Mathematiker geeignet ist Textaufgaben oder gar ein Quiz zu formulieren.
Das ist leicht verständlich und nur deswegen schlecht, als durch das Nicht-Zurücklegen die Situation unterschiedlich ist, und 2 Herzkarten auch kein Problem darstellen.
In der Originalfrage:
wird um die Wahrscheinlichkeit herumgeredet. „Wenn bekannt ist“ ist eine Wischi-waschi-Formulierung, die unklar läßt was wem wann bekannt ist, und was das mit dem Rätsel zu tun hat. Bis auf die üblichen Drohungen mit Spitzfindigkeiten, die ich selbst gerne leiste, wenn es kein anderer tut, geht jeder von einer 50:50 Chance aus für Junge vs. Mädchen und läßt die 1 Promille mit unklarem Geschlecht stillschweigend aus der Betrachtung herausfallen. Aber wieviel Prozent heißen eigentlich Mechthild? Kürzt sich die konkrete Zahl am Ende raus? Ist das eine Trickfrage?
Eine Familie mit genau 2 Kindern von denen mindestens eins ein Mädchen ist kennen vielleicht noch die meisten. Aber ein Saal voller Mechthildfamilien – dass die die Vorauswahl bilden wird aus der Fragestellung nicht deutlich.
Wenn die Leute kein Mathe können, dann soll man Fragen stellen, die gut verständlich sind.
Die Aufklärungsbemühungen scheitern ja auch durchweg an der dt. Sprache. Die Wahrscheinlichkeit kann sich nicht ändern, wenn bekannt ist, dass das Kind Mechthild heißt, auch nicht wenn es Mechthild heißt.
@Stefan W: „Für mich ist die Frage alles andere als ein klarer Fall von Beleg, dass der Mensch bedingte Wahrscheinlichkeiten nicht begreift, sondern ein Zeichen dafür, dass nicht jeder Mathematiker geeignet ist Textaufgaben oder gar ein Quiz zu formulieren. „
Also wenn dir die Antwort einer Frage komisch vor kommt, dann muss der Fragesteller falsch liegen? Ist auch ne Einstellung – wenn auch keine sehr rationale…
„Wenn die Leute kein Mathe können, dann soll man Fragen stellen, die gut verständlich sind. „
Es tut mir leid dass ich eine Frage aus einem Buch zitiert habe, deren Antwort dir nicht gefällt. Aber es ging nicht darum, einfache Matherechenaufgaben zu stellen. Das macht man in der Grundschule. Es ging darum, Bayessche Wahrscheinlichkeit zu demonstrieren. Wenn dich das nervt, dann kann ich da auch nichts machen. Die Bayessche Statistik ist weder meine Privaterfindung noch die von Mlodinow. Die ist schon ein paar hundert Jahre alt und hat sich gut bewährt.
Aber wenn du dich besser damit fühlst, mir die Schuld daran zu geben, dass du die Antwort auf die Frage doof findest, dann fühl dich frei. Damit kann ich leben.
„Die Wahrscheinlichkeit kann sich nicht ändern, wenn bekannt ist, dass das Kind Mechthild heißt,“
Rechne. Betrachte die Ergebnisse. Die Mathematik ist eindeutig. Und der Rest nicht relevant.
(Das ganze erinnert mich an die typischen Diskussionen zum Ziegenproblem. Da wird die 50/50-„Lösung“ von einigen auch immer noch mit Händen und Füßen verteidigt; trotz aller mathematischen Belege und Experimente)
Gegenfrage: Wenn viele Leute eine Frage nicht oder falsch verstehen – kann es dann nicht am Fragesteller liegen?
Ich sage auch nicht dass der Fragesteller falsch liegt, sondern dass die Frage ungünstig formuliert ist. Mir die stärkere Aussage zu unterstellen wäre ein Strohmann – das bin ich von Dir sonst nicht gewohnt.
Wie gesagt – nicht die Antwort gefällt mir nicht, sondern die Frage. Und ob es Dir leid tut oder nicht ist nicht mein Anliegen – entweder ich kann Dir verständlich machen, wieso mir die Frage nicht gefällt, oder nicht. Wenn ich es verständlich gemacht haben sollte magst Du zustimmen oder nicht.
Das habe ich schon mitbekommen. 🙂
Wie gesagt – ich finde nicht die Antwort auf die Frage, sondern die Frage zur Antwort doof. Und ich suche nicht jemanden, dem ich die Schuld geben kann, sondern einen Weg die Frage so zu stellen, dass sie besser verstanden wird. Ob die Leute dann dennoch falsch antworten oder nicht könnte man dann sehen.
Die Familie ist ja bereits gewählt – die Vorauswahl von Familien, die mindestens ein Kind namens Mechthild mitbringen ist auch vorbei – die Wahrscheinlichkeit ändert sich – da kann man rechnen bis man schwarz wird – nicht, wenn es bekannt wird.
Meine Chance Lungenkrebs zu bekommen ändert sich auch nicht dadurch, dass Du weißt, dass ich früher geraucht habe. Deine Schätzung kannst Du mit dem Wissen verbessern.
Wenn man von Beginn an auf Bayes fokussiert ist, schaut man vielleicht großzügig über solche Ungenauigkeiten hinweg. Ich finde eine sorgfältige Formulierung gehört zu einem guten Problem dazu.
@Stefan W. Das Problem ist nicht ungenau formuliert. Es ist so formuliert wie es formuliert sein soll. Aber ich fürchte das werde ich dir nicht mehr erklären können.
@Alderamin:
Hab gleich Cygwin und gcc auf meinen Rechner geholt (Visual Studio wäre hierfür wohl klarer Fall von overkill) und dein Listing kompiliert. Läuft 1a und illustriert das Bayes-Theorem gleich viel anschaulicher.
Kudos!
@Nordlicht 70 (#61):
Bei der Frage, wie wahrscheinlich es ist, dass beide Kinder Mädchen sind, wenn eines ein Mädchen ist, komme ich nicht klar. Warum muss ich denn die Wahrscheinlichkeit für beide Kinder (alle 4 Fälle) benutzen, wobei ein Fall (Junge/Junge) durch die Aufgabenstellung eleminiert wird? Da ich die Info vorher habe, warum kann ich nicht einfach nur die Wahrscheinlichkeit berechnen, ob das 2. Kind ein Junge oder Mädchen ist? Das wären dann 50%. (Das erste Kind ist ja als Mädchen definiert und fällt für mich damit aus einer Wahrscheinlichkeitsrechnung heraus.) Wo denke ich falsch?
Du gehst davon aus, dass klar ist, dass ein bestimmtes Kind ein Mädchen ist. Wenn ich weiß: „Kind Nr. 1 ist ein Mädchen“, dann ist klar, dass das nicht die Wahrscheinlichkeit dafür beeinflusst, ob Kind Nr. 2 auch ein Mädchen ist. Die bleibt bei 50% – so wie sie auch für Kind Nr.1 war, bevor Du die Zusatzinformation erhalten hast. Anders gesagt: Von den 4 möglichen Kombinationen fallen 2 weg (JM und JJ), es bleiben 2 gleich wahrscheinliche übrig: MM und MJ.
Wenn ich weiß: „Eines der beiden Kinder ist ein Mädchen (aber ich weiß nicht, ob Kind Nr. 1 oder Nr. 2)“, dann fällt nur die Möglichkeit „JJ“ weg, und 3 gleich wahrscheinliche bleiben übrig (JM, MM und MJ).
Das hatten wir jetzt schon ein paar mal, dass diese beiden Fälle durcheinander gebracht wurden. Das Problem liegt auch darin, dass die Sprache oft unpräzise ist bzw. man oft intuitiv Zusatzannahmen macht, die im Alltag im jeweiligen Kontext zwar oft sinnvoll, in der Aufgabenstellung aber gar nicht enthalten sind.
ich ziehe meinen Beitrag #81 zurück.
Ich wollte eigentlich was ganz anderes schreiben, bin aber jetzt nochmal Florians Link zu Allen Downey gefolgt. Vor allem die Zeichnung darin hat das Verständnis erhöht.
Und die Aussage in einem Kommentar darin, daß das Verhältnis der verschiedenen Wahrscheinlichkeiten unterschätzt wird.
Ich habe anhand der vorgegebenen Formel „P(GG | at least one girl named Florida) = (1 – x) / (2 – x)“ einmal durchgerechnet, wenn ich den Namen Florida ersetze durch „am Montag geboren“ bzw. „nicht am Montag geboren“.
Und siehe da, wenn man von den Familien mit zwei Kindern weiß, daß eines ein „montagsgeborenes Mädchen“ ist, dann beträgt die Wahrscheinlichkeit für 2 Mädchen 48%.
Wenn man allerdings weiß, daß eines der Kinder ein „nichtmontagsgeborenes Mädchen ist“ sinkt die Wahrscheinlichkeit für 2 Mädchen auf etwa 36%.
Die Mathematik dahinter habe ich nunmehr verstanden. Jetzt muß ich nur noch meinem Verstand beibringen, daß ich es verstanden habe. Es ist schon etwas mindbending…
C.E.
Das gilt mittlerweile auch für mich.
Eine Frage nur noch:
Alderamin (der mich endgültig überzeugt hat)
hat gezeigt, dass
Wenn ich diese Wahrscheinlichkeitsrechnung für jeden denkbaren Vornamen durchführe, erhalte ich jedesmal und für jeden Namen Werte nahe 50%. Mit nur kleinen Abweichungen.
Wenn es bei jedem Namen so ist (da alle Vornamen verhältnismäßg selten sind), ist dann ein einzelner Vorname noch eine relevante Information?
Und bitte jetzt nicht wieder nur *Seufz Wie soll ich das noch erklären*-Antworten.
Wenn man eine schwierige Frage stellt, bei welchen sogar Mathematiker ihre Probleme haben, darf man nicht von Laien erwarten, dass sie gleich alles verstehen.
Noch mal um es klarer zu machen:
Wenn die Wahrscheinlichkeit für jeden denkbaren Vornamen gegen 50% tendiert, so wäre doch die Frage:
Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, das eines der Kinder ein Mädchen mit einem Vornamen ist?
@Gregor Weidninger
Das Problem mit den Namen ist, daß es eine solche Vielzahl gibt, daß selbst die häufigsten nur eine geringe Häufigkeit aufweisen.
Ich denke, das Problem wird viel deutlicher bei dem Haarfarben-Beispiel von Allen Downey. Oder meinen Beispiel zum Wochentag der Geburt.
Zusammengefaßt kann man wohl sagen, je kleiner die Subpopulation, die mit der zusätzlichen Information (Name, Haarfarbe…) beschrieben wird, desto mehr approximiert sich die Wahrscheinlichkeit für 2xMädchen an 1/2. Je allgemeiner die Zusatzinformation, desto näher kommt die Wahrscheinlichkeit an 1/3 [Extrembeispiel Allen Downey: zwei Kinder, eins ist ein Mädchen mit XX Chromosomen. Da die Zusatzinformation alle Mädchen beschreibt, ist hier die Wahrscheinlichkeit 1/3, weil die Zusatzaussage keinerlei zusätzlich unterscheidende Information liefert.]
Sorry für den Doppelpost, aber wegen der Lesbarkeit nochmal.
@Gregor Weidninger
Der Name ist mehr oder weniger Wurst (er entscheidet nur über kleine Prozentanteile), muss aber fest sein. Alternativ kann man auch eine andere Eigenschaft betrachten, die häufiger vorkommt und somit prozentual mehr Einfluss hat, z.B. die Haarfarbe: Wenn ein Kind mit 50% dunkelblond ist, dann kommen 57%:43% aus meiner vorletzten Simulation raus (bitte die Zahlen im Kopf noch mal 100 nehmen, hab‘ zwar Prozent dahinter geschrieben, aber die Multiplikation vergessen).
Welchen Unterschied der Name macht, kann man sich so klar machen:
Angenommen, ich weiß, dass draußen eine Familie vor der Tür steht mit zwei Kindern, von denen mindestens eines ein Mädchen ist. Ich rufe mir ein Kind rein, das zufällig gewählt sei.
A1: wenn es ein Junge ist, weiß ich, dass draußen noch ein Mädchen wartet; 2 Mädchen sind aber nun ausgeschlossen.
A2: wenn es ein Mädchen ist, wartet mit 50% Wahrscheinlichkeit draußen noch ein zweites.
Mehr kann ich nicht sagen.
Wenn ich aber weiß, dass ein Mädchen einen bestimmten Namen hat, den ich kenne, dann sieht die Situation anders aus:
B1: wenn ein Junge reinkommt, weiß ich, dass draußen noch ein Mädchen wartet und nur 1 Kind ein Mädchen ist – wie oben
B2: wenn ein Mädchen reinkommt, frage ich es nach seinem Namen. Ist es der mir bekannte Name, dann wartet draußen mit 50% Wahrscheinlichkeit draußen noch eines, wie oben
B3: wenn ein Mädchen reinkommt, es aber NICHT der mir bekannte Name ist, dann wartet draußen auf jeden Fall noch ein zweites Mädchen, und das ist ein Unterschied zum obigen Fall!
Jetzt muss man das Eintreten der Fälle nur noch gewichten und das Hereinrufen der Kinder hintereinander berechnen:
Ob.d.A stehen die Kinder draußen zufällig sortiert hintereinander.
P(A1) = W’keit, dass in den Kombinationen JM, MM, MJ ein Junge vorne steht = 1/3
P(A2) = P(Komplementärfall von A1) = 1-P(A1) = 2/3
Die W’keit für 2 Mädchen ist demnach in A:
P (A1) * P(2M | A1) + P(A2) * P(2M | A2) =
P(A1) * 0 + P(A2) * 1/2 = 2/3*1/2 = 1/3.
So, nun Fall B:
P(B1) = W’keit, dass in den Kombinationen JM, MM, MJ ein Junge vorne steht = 1/3
P(B2) = W’keit, dass ein Mädchen vorne steht * W’keit, dass es den bekannten Namen hat (Voraussetzung: eines der Kinder hat diesen Namen) = 2/3 (wie vorher) * 1/2 (50:50, dass Mechthild vorne steht) = 1/3
P(B2) = P(B1) (gleiche W’keit, nun steht Mechthild hinten; den Fall, dass beide Kinder den gleichen Namen haben, schließe ich aus)
W’keit für 2 Mädchen in B:
P(B1) * P(2M|B1) + P(B2) * P(2M|B2) + P(B3) * P(2M|B3) =
P(B1) * 0 + P(B2) * 1/2 + P(B3) *1 = 0 + 1/3*1/2 + 1/3 = 1/6 + 1/3 = 1/2
qed.
@Florian:
Ich erinnere mich an eine Diskussion zum Ziegen-Problem. Es wurde ungefähr so formuliert:
„Stell dir vor Du bist in einer Spielshow, hinter drei geschlossenen Türen ist 2x eine Niete und 1x ein Auto. Du sollst eine der Türen wählen. Danach öffnet der Moderator eine Tür mit einer Niete und bietet dir an zu wechseln. Solltest Du wechseln?“
Nach einigen minuten Diskussion sagt einer der Anwesenden:
„Aber wenn der Moderator die Tür mit dem Auto öffnet hab ich doch sowieso verloren“
Offensichtlich war das Problem (für die Diskussionsrunde) nicht eindeutig genug formuliert. Es ist nun mal bei solchen Aufgaben notwendig genau anzugeben wer welche informationen zu welchem Zeitpukt besitzt und wie diese Informationen im weiteren Verlauf eingesetzt werden. Wird auf diese Angaben verzichtet, dann wird man immer auf Menschen treffen die die Aufgabe falsch verstehen. Dabei ist weder die Formulierung des Problems wirklich falsch, noch ist die Interpretation der Formulierung falsch. Beide Parteien haben einfach implizite Annahmen gemacht die nicht mitgeteilt wurden.
Für mich ist beim Mechthild-Problem klar was gemeint ist. Trotzdem ist aus meiner Sicht die Formulierung nicht eindeutig. Stell dir eine riesige Halle vor in dem jeweils Väter mit ihren beiden einzigen Kindern stehen. Die Stichprobe könnte folgendermassen gebildet werden:
– „jeder der keine Tochter mit dem Namen Mechtild hat verlässt den Raum“. Dies ist die „korrekte“ Interpretation.
– „jeder Vater wählt ein Kind aus. Ist dieses keine Tochter mit dem Namen Mechthild verlässt er den Raum.“
– „jeder Vater wählt zufällig eine Tochter aus. Hat diese nicht den Namen Mechthild oder hat er keine Tochter verlässt er den Raum.“
Es gibt sicher noch mehr Interpretationen. Ich könnte für beide falschen Interpretationen zeigen, wieso man annehmen könnte diese Interpretation sei gemeint. Dass diese Interpretationen falsch sind ergibt sich zumindestens nicht zwingend aus der Formulierung des Problems. Ich denke, das hat Stefan W gemeint.
Ausserdem: Bei solchen Aufgabenstellungen ist man gewohnt, dass die Wahrscheinlichkeit für Junge und Mädchen als jeweils exakt 50% angenommen wird. Daraus könnte man schlussfolgern, dass die Wahrscheinlichkeit für verschiedene Namen auch nicht relevant ist. Es wäre also hilfreich, dies in irgendeiner Form mitzuteilen.
@Jakob „Bei solchen Aufgabenstellungen ist man gewohnt, dass die Wahrscheinlichkeit für Junge und Mädchen als jeweils exakt 50% angenommen wird.“
Es geht aber doch genau darum, dass das was man „gewöhnt“ ist, in Sachen Wahrscheinlichkeit kein Maßstab, sondern höchstens irreführend ist.
Also ich fand diesen Text super. Mit Bayesscher Statistik bin ich immer noch nicht 100%ig firm, insofern konnte ich mich hier weiterbilden und ich habe – glaube ich – auch das Mechthild-Beispiel verstanden. Allerdings auch erst als ich die aufgedrößelten Wahrscheinlichkeiten in Zahlen und Formeln und das Programm gesehen habe. Ich denke, so sieht das auch in den Kommentaren aus. Wer genügend Mathematik versteht, um das ganze in ein lauffähiges kleines Programm umzusetzen, „sieht“ irgendwann dass es stimmt, auch wenn er/sie es nicht unbedingt „begreift“.
Die anderen, die nicht genügend Mathematik können, können höchstens versuchen, das Ganze nachzuspielen mit jemandem, der die Aufgabenstellung verstanden hat. Weil auch daran scheitert es hier regelmäßig, daran warum die Einschränkung Mechthild einen Unterschied macht. Wenn mensch es aber versucht nachzuspielen, dann sollte es eigentlich irgendwann klick machen. Ich meine hier mit Durchspielen ein Verfahren analog zu dem in diesem netten kleine Video zum Ziegen-Problem mit den Bechern und den Plastik-Ziegen/Autos.
Beim rum-googeln bin ich auf einen Vorschlag gekommen, wie ein klein wenig mehr Verständnis für die Aufgabenstellung für Nicht-Mathematik-affine reinkommen kann. Anstatt das Beispiel mit einem seltenen Namen durchzuspielen, kann mensch auf einfach eine seltene bzw. häufige Eigenschaft der Töchter für Mechthild bzw. Susi ersetzen.
Also z.B. „Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, das eines der Kinder ein Mädchen mit einem Muttermal auf der linken Wange ist“? Dann ist auch die Möglichkeit zugelassen, dass beide Mädchen diese relativ seltene Eigenschaft haben können. Ich weiß, das ändert nichts am Endergebnis, aber es nimmt eine mögliche Verwirrung heraus.
Das kann mensch vergleichen gegenüber der Frage:
„Eine Familie hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, dass beide davon Mädchen sind wenn bekannt ist, das eines der Kinder ein Mädchen ist, das eine Nase hat“?
Es ist sehr unwahrscheinlich, das ein Kind keine Nase hat – z.B. aufgrund eines Unfalls oder einer Krankheit.
Das hilft aber nur bei der Aufgabenstellung und nicht beim Verständnis. Da hilft – finde ich – nur das selbst ausprobieren und es sehen.
Und das Problem, dass ich hier sehe ist, dass die Leute, die nicht sehr „mathematisch“ sprechen, so eine große Hürde haben, dass sie sich hier massiv im Nachteil sehen und entweder gehen die den mühsamen Weg es „händisch“ nachzuspielen,oder aber sie geben auf und vertrauen darauf, dass das die Mathematiker schon richtig drauf haben bzw. dass es in der Anwendung funktioniert. So etwas hat ja z.B. vielfältige Anwendungen in der Versicherungsmathematik.
Die Menschen kommen aber eher damit klar, dass sie einen französischen Satz nicht verstehen und vertrauen da ohne Probleme der Dolmetscherin. Bei der Sprache „mathematisch“ – und ja ich sehe das als ganz eigene Sprache – da fühlen sich Leute doof, wenn sie es nicht verstehen und greifen die Dolmetscher an. V.a. wenn sie meinen, dass sie es aus dem Effeff begreifen müssten. Das Problem dabei ist, dass niemand perfekt „mathematisch“ und schon gar nicht „wahrscheinlichkeitsrechnerisch“ spricht. Keiner von uns ist Muttersprachler in diesen „Sprachen“ und wir müssen daher ständig auf der Hut sein. Egal ob Nobelpreisträger oder nicht.
Aber diese Selbsterkenntnis ist schwer und so sehen hier einige das Selbstbild angegriffen und das führt zu den typischen Abwehrreaktionen wie „Mathematiker/Physiker sind doof und verarschen uns“ oder versuchen den Boten zu töten „Du bist zu doof die Frage zu formulieren“, denn der Mensch selbst kann auf keinen Fall „zu doof“ sein, die Frage zu verstehen.
Insofern war der Post nicht nur mathematisch sondern auch soziologisch/erkenntistheoretisch interessant und für die Tücken der Wissensvermittlung.
@Ludmila: „Und das Problem, dass ich hier sehe ist, dass die Leute, die nicht sehr “mathematisch” sprechen, so eine große Hürde haben, dass sie sich hier massiv im Nachteil sehen „
Mathematisch sprechen ist ein Vorteil, aber es muss keiner sein. Als damals Marylin vos Savant die Sache mit dem Ziegenproblem präsentiert hat, hat sie auch von hunderten Mathematikern bitterböse Zuschriften bekommen, die das Problem auch nicht durchblickt haben. Aber mit mathematischen Fähigkeiten hat man mehr Chancen, das Problem irgendwann zu durchblicken; da hast du recht.
Ich glaube Jakob B. und Stefan W. haben den Finger tatsächlich auf einen Wunden Punkt gelegt. Die Formulierung des Florida/Mechthile-Problems entspricht keiner Situation, die man im Alltag so antreffen könnte.
Siehe Kommentar von Jeff J:
https://bblais.blogspot.ch/2010/01/there-once-was-girl-named-florida-aka.html?showComment=1272903890678#c1183990169588007954
Damit die Rechnung zutrifft, muss jemand im geheimen alle Familien mit genau zwei Kindern, wovon mindestens eines ein Mädchen ist UND wovon mindestens eines ein Mädchen namens Florida/Mechthilde ist sorgfältig auswählen. (Wobei irgendein anderer Name auch ginge, weil ja – wie bereits erwähnt – auch Susi mehr als genug selten wäre.)
Was mir und vielleicht auch anderen helfen würde, die Rechnung auch intuitiv zu verstehen, wäre ein Beispiel, das man im Allag konkret nachspielen könnte. Dann könnte man dazu eine Geldwette abschliessen, was in gewissen Fällen dem Gehirn etwas hilft, das Problem doch noch zu verstehen.
Das Ziegen-Türen-Problem jedenfalls kann man gut mit Spielkarten nachspielen.
Hat jemand ein Beispiel für das Florida/Mechthile-Problems?
@Flofi: „Die Formulierung des Florida/Mechthile-Problems entspricht keiner Situation, die man im Alltag so antreffen könnte.“
Was aber auch nicht unbedingt beabsichtigt war. Es ging ja darum, Wahrscheinlichkeit zu demonstrieren und nicht den Alltag zu beschreiben. Aber vielleicht wäre es für das Verständnis besser gewesen.
@Ludmilla
Ich hatte vor lauter Programmieren (musste erstmal Cygwin und den Compiler ans Laufen kriegen, hab‘ ewig nichts mehr programmiert) die #68 oben völlig überlesen, im Zitat des Autors wird das Problem sehr anschaulich gelöst.
Der Name „Mechthild“ oder die Eigenschaft „Muttermal auf der linken Wange“ sind eine Art seltenes Los (nur Mädchen ziehen Lose). Familien mit zwei Mädchen ziehen zwei Lose und haben damit doppelte Gewinnchancen, wie Familien, die nur ein Mädchen haben. In meinem Programm in #80 steckt die Doppellosziehung in der Zeile
floridaMM+=((rand()%haeufigkeit==0) | (rand()%haeufigkeit==0))?1:0;
(Wer sich mit C nicht auskennt: Die Zählvariable floridaMM für die Paare mit zwei Mädchen wird um 1 erhöht, wenn die erste Zufallszahl oder eine zweite Zufallszahl zwischen 0 und haeufigkeit-1 (Wertebereich per Modulodivision der zufälligen Ganzzahl durch haeufigkeit eingeschränkt) = 0 sind, sonst wird um 0 erhöht, das sind zwei gezogene Lose für den Gewinnwert 0)
Wenn man also also alle „Verlierer“ bittet, den Raum zu verlassen, dann bleiben von den Familien mit 2 Mädchen anteilig doppelt so viele Familien als Sieger übrig, als bei den gemischten Paaren weil sie mit zwei Losen doppelte Gewinnchance hatten. Allerdings sind die gemischten Paare vor der Auslosung in doppelter Überzahl. Das Verhältnis der gemischten Geschwister gegenüber den Schwesterpaaren verschiebt sich nun so, dass der Anteil der Schwesternpaare sich unter den Gewinnern verdoppelt. Machten sie vorher 1/3 (zu 2/3 gemischte Geschwister: auf jedes Schwesternpaar kommen 2 gemischte) aus, so sind sie nach dem Aussortieren der Verlierer hälftig vertreten (auf jedes Schwesternpaar kommt 1 gemischtes).
Eine Eigenschaft wie „hat eine Nase“ teilen hingegen alle, jede Familie mit mindestens einem Mädchen ist Sieger, kein Verlierer verlässt den Raum und nichts ändert sich folglich.
Bei einer Eigenschaft, die 50% der Mädchen teilen (dunkelblond oder so was) ist die Loschance 1/2 für gemischte Geschwister und 75% für Schwesternpaare, was dann ihre Häufigkeit unter den Losgewinnern steigert, aber nicht auf das Doppelte, sondern nur um den Faktor 1,5. Demnach verändert sich das Verhältnis von 2/3 :1/3 zu 4/7 : 3/7 (von anfänglich X Familien sind 2/3 gemischt, davon bleiben 50% Sieger, macht 1/3 X; 1/3 sind anfänglich Schwesternpaare, davon bleiben 75%, macht 1/3*3/4 X = 1/4 X; die neue Gesamtmenge ist Y = (1/3 + 1/4) X = 7/12 X, also X = 12/7 Y; 1/3 X gemischte sind 1/3*12/7 Y = 4/7 Y; 1/4 X Schwestern sind 1/4*12/7 Y = 3/7 Y) oder 57,14% gemischt zu 42,86% Schwesternpaare, siehe vorletztes Ergebnis in #80.
@Florian:
Nochmal (siehe #50):
Ich glaube, da ist ein Fehler im Abschnitt zur Beurteilung von Erdbeben-Vorhersagen und versuche nochmal, ihn zu beschreiben.
Vorhersage
positiv = „Es wird ein Erbeben geben.“
negativ = „Es wird kein Erdbeben geben.“
Eintreten
Ja = „Erdbeben tritt ein.“
Nein = „Erdbeben tritt nicht ein.“
Ja + positive Vorhersage = richtig positiv
Nein + positive Vorhersage = falsch positiv
Nein + negative Vorhersage = richtig negativ
Ja + negative Vorhersage = falsch negativ
Stimmt’s?
Falls ja, stimmt der entsprechende Abschnitt im Text oben nicht.
@Flofi
Vielleicht so:
Man nimmt einen Satz Spielkarten und legt Sie verdeckt als Paare aus.
Jetzt entfernt man alle Pärchen in denen nur schwarze Karten sind und dreht dann eine rote Karte um. Wie groß ist die Wahrscheinlichkeit dass die zweite Karte auch rot ist?
Im zweiten Durchlauf werden alle Pärchen entfernt in denen nicht das Herz-As ist und selbiges umgedreht. Wie groß ist nun die Wahrscheinlichkeit dass die zweite Karte auch rot ist?
@Alderamin: Doppelte Gewinnchance für ein seltenes Ereignis, ja das bringt meine Intuition auf die Spur 🙂
@Florian: Ich meine, die Mathematiker, die das Ziegenproblem nicht erkannten, unterliegen dem Irrglauben, dass sie perfekt mathematisch könnten und dass sie deswegen nicht bei konzeptuell komplexen Aufgabenstellungen extrem aufpassen müssten. In diesem Spezial-Fall ist es sogar erst einmal ein Nachteil sehr gut mathematisch zu können, weil die erst mal nicht auf die Idee kommen, es wirklich mal händisch nachzuprüfen. Und ich denke, nicht wenige fühlen sich dann in ihrer Berufsehre gekränkt und machen dann erst recht dicht.
Hallo,
lese normalerweise nur mit und finde die Diskussion hier hochspannend. Mir hat folgende Überlegung geholfen, das Problem zu begreifen, vielleicht hilft’s ja noch jemandem:
Die Wahrscheinlichkeit für eine Mechthild in der Familie ist einfach umso höher, je mehr Töchter vorhanden sind. Also ist in 2-Töchter-Familien die Chance höher, dass eine davon Mechthild heißt, als in Familien mit nur einer Tochter.
(Bei noch mehr Töchtern steigt die Wahrscheinlichkeit immer weiter.)
Daraus aber den Umkehrschluss zu ziehen, dass, wenn ein Mädchen Mechthild heißt, das andere Kind mit höherer Wahrscheinlichkeit weiblich ist, geht auch mir gegen die Intuition. Ob das aber am zu praxisfernen Beispiel oder meinem beschränkten Mathematikverständnis liegt, ist mir noch nicht ganz klar.
@Ludmilla: Psychologisch gut erfasst.
@Lurker: Die Falle für die Intuition ist, dass man erst verrät, dass ein Kind mindestens weiblich ist. Dann kommt man mit der Mechthild hervor, die ja dieses eine Kind sein könnte. Da der Name keine Rolle spielt auf die es später noch ankommt kann man denken: Ja, das eine Kind könnte die Mechthild sein. Ja, oder das andere – so what?
Die Hürde ist es, die Mechthildauswahl zurückzuverlegen und anzunehmen, dass das eine Vorauswahl war. Aber das macht das Rätsel m.E. zu wenig deutlich. Der Spielleiter muß ja offensichtlich lunzen, um zu sehen, was die Karten sind. Dass er nicht einfach verrät was er gesehen hat, sondern dass er alle Nicht-Mechthildpaare ausgesondert hat.
@Peter G aus L: „Satz Spielkarten“ ist etwas unspezifisch. Je nach dem ist da überhaupt nur ein As Herz drin. Ein Blackjackrblatt (17+4) hat m.W. 6 Folgen von 2 bis As in jeder Farbe. Da sieht dann der Tisch nicht so leer aus.
@Lurker
Das Problem mit den Wahrscheinlichkeiten tritt deswegen auf, weil man nicht ein beliebiges Mädchen untersucht, ob sie einen Bruder oder eine Schwester hat, denn da wäre die Chance einfach 50:50.(Genauso bei einer beliebigen Mechthild)
Stattdessen untersucht man Familien mit Mädchen. Und wenn eine Familie zwei Mädchen hat, dann wird sie trotzdem nur einmal berücksichtigt. Man ignoriert also ein Mädchen in 50%*50% der Fälle, also 25%. Das verzerrt das 50:50-Bild erheblich.
Wenn man dann Familien mit Mechthilds untersucht, ist es ähnlich: Wenn eine Familie zwei Mechthilds hätte, würde sie trotzdem nur einmal berücksichtigt. Bei einer Chance von einem Promille, Mechthild zu heißen, wird ein Mädchen in 0,1%*0,1% der Fälle ignoriert, also einer in einer Million. Das verzerrt das 50:50-Bild praktisch gar nicht.
@Flofi
Das ist schon der erste und vermutlich grundlegende Irrtum. Florian hat doch im Artikel und in den Kommentarantworten immer wieder darauf hingewiesen:
Es ist völlig normal, daß kein einziger Mensch diese Problemstellungen intutitiv versteht.
Ansonsten empfehle ich Ludmilas Kommentar #95. Ich sehe das sehr ähnlich.
Ich habe das Problem erst halbwegs begriffen als Florian diese Lösung verlinkt hat:
https://allendowney.blogspot.de/2011/11/girl-named-florida-solutions.html
Die Rechtecke finde ich als Erklärung sehr anschaulich. Wobei ich Alderamins Programm als überaus elegant, aber nicht als Veranschaulichung betrachte.
^_^
Ich meinte einen Satz hier üblicher Spielkarten (französisches Blatt) mit 32 oder 52 Karten.
Es soll ja nur ein Pärchen übrig bleiben.
Nach meiner Berechnung kommt man auf folgende
Wahrscheinlichkeiten, zwei rote Karten zu erhalten :
32 Blatt = 7/15 = 0.46666666666
52 Blatt = 12/25 = 0.48
Als Nicht-Statistiker sehe ich das Problem an der Frage nicht:
Wie beim Roulette wird der „Zufall“ bei jeder Zeugung wieder neu initialisiert – soll heissen, dass bei JEDER Zeugung die Wahrscheinlichkeit für eines der beiden Geschlechter annährernd 50% ist. Somit ist m.E. die Wahrscheinlichkeit dafür, ein Mädchen zu bekommen IMMER 50% – auch wenn das erste Kind schon ein Mädchen ist und Mechthild heisst. Und auch wenn das erste Kind ein Junge ist und daher NICHT Mechthild heisst. Ebenso wie wenn das erste Kind ein Mädchen ist und NICHT Mechthild heisst. Die Wahrscheinlichkeit ist immer (nahezu) 50:50 … die Wahrscheinlichkeiten sind nicht voneinander abhängig.