Forschung ist kompliziert. Das ist trivial, aber dennoch einen genaueren Blick wert. Denn genau darum geht es: Um den genauen Blick. Ganz klassisch wird die Methodik der Wissenschaft ja gerne so zusammengefasst: Man stellt eine Hypothese auf. Dann wird die Hypothese anhand von Daten geprüft. Und danach entweder verifiziert oder verworfen. Dieser Prozess funktioniert sehr gut. Aber eben manchmal auch nicht. Manchmal verhindert die Hypothese, dass man das sieht, was wirklich da ist – zum Beispiel ein Daten-Gorilla.

Itai Yanai vom New York University Langone Medical Center und Martin Lercher von der Uni Düsseldorf haben ein recht interessantes Experiment gemacht („A hypothesis is a liability“). Sie haben Studierenden einen Haufen Daten gegeben. Es war ein recht simpler Datensatz: Der Body-Mass-Index (BMI) von 1786 Menschen und dazu die Anzahl der Schritte die die jeweiligen Personen an einem bestimmten Tag gegangen sind. Ein Datensatz für die Männer, einer für die Frauen. Die Studierenden wurden in zwei Gruppen geteilt. Die erste Gruppe bekam die Aufgabe, die Daten auf drei verschiedene Hypothesen zu prüfen. Erstens: Es gibt einen statistisch relevanten Unterschied in der durchschnittlichen Anzahl der Schritte bei Männer und Frauen. Zweitens: Es gibt eine negative Korrelation zwischen der Anzahl der Schritte und dem BMI bei Frauen. Drittens: Die gleiche Korrelation ist bei Männern positiv. Außerdem wurden sie gefragt, ob in den Daten sonst noch was interessantes zu finden sei. Die zweite Gruppe der Studierenden bekam keine Hypothesen präsentiert; sie wurde einfach gefragt was man aus diesen Daten ableiten könne.

Jetzt wäre es prinzipiell ja interessant zu wissen, ob die Anzahl an Schritten die man täglich geht eine Auswirkung auf den BMI hat und ob sich dieser Zusammenhang bei Männer und Frauen unterschiedlich darstellt. Nur konnte man das definitiv nicht aus den Daten ablesen. Die haben Yanai und Lercher nämlich ganz speziell zusammengestellt. Wenn man die Daten von Männern und Frauen kombiniert und in einem Diagramm auf der x-Achse die Schritte aufträgt und auf der y-Achse den BMI: Dann sieht man einen winkenden Gorilla! Nicht irgendwie versteckt, sondern sehr deutlich. Da gibt es keinen Interpretationsspielraum:

Bild: Yanai & Lercher (2020)

Die eigentliche Frage der Forscher war also: Finden die Leute bei ihrer Analyse den Gorilla? Das erinnert nicht zufällig an das berühmte Gorillaexperiment von Daniel Simons und Christopher Chabris mit dem die „Unaufmerksamkeitsblindheit“ demonstriert werden soll. Versuchspersonen bekamen ein Video gezeigt mit Menschen die sich einen Ball zuwerfen. Sie sollten die Pässe zählen, was sie auch taten – dabei aber komplett übersehen haben, dass sehr gut sichtbar ein Mensch in einem Gorillakostüm durchs Bild läuft.

In der abstrakteren Variante von Yanai und Lercher war die Frage: Verpassen wir etwas relevantes bei der Analyse von Daten wenn wir uns schon vorab für bestimmte Hypothesen entscheiden die die Daten belegen/wiederlegen sollen? Die Antwort: Ja, tun wir! Es war fünfmal wahrscheinlicher dass die Studierenden ohne Hypothese-Vorgabe den Daten-Gorilla entdecken als dass er von der Gruppe gefunden wurde, die versuchten die drei konkreten Hypothesen zu untersuchen.

Es wäre nicht schwer gewesen, den Gorilla zu sehen. Man hätte einfach nur die Rohdaten visualieren müssen; ein Prozess zu dem kein großer Aufwand nötig ist; die Bedeutung von Visualisierungen wurde den Studierenden auch in ihrem Studium beigebracht. Aber wenn man einer Hypothese auf der Spur ist, verliert man offensichtlich den Blick fürs Große ein wenig und konzentriert sich gleich auf die nötigen Details um die Vermutung bestätigen zu können. Wenn man hingegen einfach nur „mal schauen“ soll, was die Daten hergeben, dann geht man etwas spielerischer an die Sache heran und probiert alle möglichen Dinge aus.

Der Titel der Arbeit von Yanai und Lercher lautet „A hypothesis is a liability“, also „Eine Hypothese ist eine Belastung“. Ich bin damit aber nicht ganz einverstanden. Die Sache ist ein wenig komplexer. Denn wenn man einfach auf gut Glück mit Daten rumbastelt, kann man zwar einerseits Dinge finden, die man sonst nie gefunden hätte. Andererseits aber auch Phänomene entdecken die es gar nicht gibt. Wie bei der „Schokolade hilft beim Abnehmen“-Studie aus dem Jahr 2015: Die war absichtlich schlecht gemacht um die Methoden des schlechten Wissenschaftsjournalismus aufzuzeigen – benutzt aber Techniken die leider auch in der echten Forschung (absichtlich oder unabsichtlich) vorkommen. Wenn man etwa einfach nur genug Datenpunkte sammelt und die auf so viele mögliche Arten miteinander kombiniert, dann findet man früher oder später immer irgendwas, was nach einem realen Zusammenhang aussieht, aber keiner ist. In diesem Fall eben „Schokolade hilft beim Abnehmen“. Das nennt sich übrigens „p-Hacking“ und „funktioniert“ deswegen, weil man sich vor der Forschung nicht darauf festlegt, was man eigentlich wissen will und so nachträglich die Parameter der Analyse anpassen kann.

Wenn man wissenschaftlich seriös arbeiten will, dann sollte man schon darauf achten, halbwegs einen Plan zu haben. Man sollte wissen, welche Fragen man beantworten möchte und wie man das anstellen kann. Gleichzeitig – und genau darauf weist die Studie von Yanai und Lercher mit dem Daten-Gorilla hin – muss man aber immer offen für Antworten auf Fragen sein, die man gar nicht gestellt hat! Das gelingt der Wissenschaft im großen und ganzen recht gut. Aber leider wissen wir ja nicht, welche Gorillas wir bis jetzt verpasst haben…

21 Gedanken zu „Hinderliche Hypothesen und Daten-Gorillas – Wie offen für das Unerwartete muss die Forschung sein?“
  1. Ich stimme dir halb zu und halb Itai. Es kommt darauf an, ob es eine offene Studie ist („ich weiß noch gar nicht, was es da zu entdecken gibt”, Beispiel: wie wirkt sich die Corona-bedingte Einsamkeit auf die Psyche von Lehrern aus) oder eine geschlossene („ich weiß genau, was ich will”, Beispiel: ist XXX wirksamer als YYY zur Vorbeugung von Prostata-Karzinomen).

    Geschlossene Studien sind bei den „harten” Wissenschaften häufig; offene bei den „weichen”. (So Sachen wie User Interface Design sind immer in der Mitte — sind das jetzt IT-Menschen, die Psycho-Kram machen, oder kognitive Psychologen, die ein bisschen hacken?) Die harten werden immer härter — heutzutage hätte man inzwischen gerne, dass Studien vorregistriert sind, sodass nach Durchführung der Studie nur noch bereits vorbereiteter (sagen wir mal) R-Code ausgeführt wird und eine Reihe von p-Werten ausspuckt. Bei so etwas interessiert man sich nicht für Gorillas und findet sie entsprechend auch nicht.

    Ist das richtig? Ich denke ja. Es gibt sowohl für offene als auch geschlossene Studien gute Anwendungsfälle.

  2. In einer guten Studie macht man selbstredend keine post hoc Statistik, sondern plant eine Auswertung (z. B. auch unter Berücksichtung statistischer Power). Dann könnte man z. B. planen mit einem t-Test zu vergleichen, zur Testung der ersten Hypothese.

    Zu jeder guten Datenauswertung gehört zunächst einmal, die Daten in Augenschein zu nehmen. In den meisten Fällen hilft ein Plot. Dann kann man schon sehen, ob es evtl. Probleme mit den Daten gibt. (Bereiche ohne Daten? Zufällige Lücken? Schiefe Verteilung? etc.). Hierbei wäre der Gorilla bereits aufgefallen.

    Danach testet man, aber ob die Annahmen, die man a priori gemacht hat (z. B. „wir können einen t-Test durchführen), denn auch stimmen. Da fällt dann auch auf, wenn die Daten, keiner Normalverteilung gehorchen (welche die Bedingung für die Durchführung des t-Test ist). (Ggf. hat man bereits damit gerechnet, dass es einer Vorabtransformation bedarf, aber dennoch wird man testen, ob das überhaupt geht.)

    Die Autoren schreiben selber, dass sie Tugend des Visualisierens von Daten versuchen zu lehren. Insofern sehe ich den ges. Artikel eher an Lehrer gerichtet als an Wissenschaftler: Es ist nicht die Hypothese, die schädlich ist, sondern die Vorgehensweise – von der wir nicht wissen in wieweit Gruppendruck eine Rolle spielten.

    Insofern, Florian, stimme ich Deiner Schlussfolgerung völlig zu: Schönes Paper, aber reisserischer Titel.

  3. „…Es war fünfmal wahrscheinlicher dass die Studierenden ohne Hypothese-Vorgab…“

    Nach fig. 1 bestand die Hypothesis-focused Gruppe aus 19 Stud. von denen 5 (26%) den Gorilla gefunden haben.
    Die Hypothesis-free Gruppe bestand aus 14 Stud. von denen 9 (64%) den Gorilla gefunden haben.
    Wenn ich 64:26, ((9/14):(5/19)), rechne, komme ich auf 2,4.
    @Florian Freistetter
    Wie muß ich rechnen um auf fünfmal zu kommen?

  4. Das Ergebnis des Experiments, für das man in der Tat das Konzept der Unaufmerksamkeitsblindheit bemühen kann, ähnlich wie bei vielen Zaubertricks übrigens, ist zunächst ein Beitrag zur Psychologie der Forschung. Inwiefern es auch einer zur Logik der Forschung ist, wäre zu diskutieren. Die beiden Ebenen hatte Popper sorgfältig unterschieden.

    Jedenfalls ein interessanter Beitrag, regt zum Nachdenken an. Danke.

  5. @uwe hauptschueler

    (9 / 5) / (5 / 14) = 5,04

    Soll heißen, dass es fünfmal wahrscheinlicher ist, dass die Studierenden ohne Hypothese-Vorgabe den Affen entdecken als die andere Gruppe.
    😉

  6. Evolutionspsychologisch gesehen ist die Sache ganz klar: In der Frühzeit des Homo sapiens haben sich nur diejenigen erfolgreich fortgepflanzt, welche die damals überall herumlaufenden Gorillas konsequent ignorieren konnten. Diejenigen, die dazu nicht in der Lage waren, sind einfach nicht unsere Vorfahren.

  7. @Christian Meesters
    In dieser guten Studie sollte ich doch auch schon vorher Kriterien festgelegt haben, welche Anforderungen meine Daten erfüllen müssen (z. B. Normalverteilung oder schiefe Verteilung, Daten in allen relevanten Bereichen.). Das kann ich objektiv testen und brauche dafür keine Visualisierung. Wenn ich aufgrund der Visualisierung zusätzliche Kriterien festlege, ist das doch auch wieder eine post hoc Entscheidung…
    Und was ist, wenn mir bei der Visualisierung der Gorilla auffällt? Darf ich den dann nicht berichten, weil ich ihn nicht a priori als Hypothese genannt habe, sondern er sozusagen post hoc auftaucht?

  8. @Devilsadvocat

    Wenn ich aufgrund der Visualisierung zusätzliche Kriterien festlege, ist das doch auch wieder eine post hoc Entscheidung…

    Ja, aber das habe ich nicht sagen wollen:

    1. sind wir Menschen nun mal Wesen mit einem Hang zur visuellen Wahrnehmung. Es hilft Daten nicht nur post-analytisch zu visualisieren, sondern nach Erhebung. Da können auch Probleme „ins Auge springen“, die man u. U. zuvor nicht antizipiert hat.
    2. spricht nichts per se gegen eine Veränderung der Hypothese nachdem ein Resultat erzielt wurde (a.k.a. THARKing).

    Das Auge hat auch seine Grenzen: Deshalb waren die Stichworte etwas zu suggestiv. Klar, Schiefe von Verteilungen ermittelt man besser nicht allein nach Augenmaß.

  9. @ Karl-Heinz:

    Das Chancenverhältnis (Odds Ratio) ist 5 mal so groß. Aber warum in dem Fall nicht dem Vorschlag von uwe hauptschueler folgen? Das positive Outcome ist relativ häufig, ich glaube, in Medikamentenstudien würde man da von einer Überschätzung des Effekts des Einflussfaktors durch das Odds Ratio ausgehen. Liest hier zufällig jemand mit, der sich mit so was auskennt?

  10. @17Karl-Heinz
    Nicht wirklich. Ich weiß jetzt was gerechnet wurde, eine Bedeutung scheint es auch zu haben, denn auf Wikipedia gibt es einen Artikel zu Odds Ratio. Was ich berechnet habe ist laut Wikipedia wohl das relative Risiko (RR), Risk Ratio [1] oder Risiko-Verhältnis [1]. Aus H. Kuhns Anmerkung schließe ich, daß ich da nicht vollkommenen Blödsinn gerechnet habe. Wenn diese Begriffe mir noch einmal begegnen habe ich jetzt zumindest eine vage Ahnung worum es geht.

  11. @uwe hauptschueler

    Ich muss zugeben, du hast Recht. Berechnen kann man alles, aber ob es sinnvoll ist, steht in den Sternen. Ich denke nicht, dass die Berechnung von Odds Ratio bei diesem Beispiel sinnvoll ist. Ob man jetzt das relative Risiko oder das Odds Ratio bevorzugt, hängt sicher von der Studie ab. Ich denke, dass es sich bei diesem Beispiel um eine Kohortenstudie handelt und nicht um eine Fall-Kontroll Studie.
    Daher würde ich persönlich das relative Risiko, so wie du es gerechnet hast, bevorzugen, schon im Hinblick darauf, dass das positive Outcome, wie Kuhn schon bemerkte, relativ häufig ist.

    Es könnte sein, dass der Autor des Artikel in Sachen Statistik doch nicht so sattelfest ist, wie er vorgibt. 😉

  12. @ Karl-Heinz:

    Eine Kohortenstudie ist es eigentlich nicht, es wird ja nicht die Entwicklung eines Merkmals über die Zeit beobachtet. Man wird sie eher als Querschnittsstudie interpretieren müssen und das OR als „prevalence odds ratio“. Aber ob das hier sinnvoller ist als uwe hauptschuelers Prävalenz-Verhältnis müssten, wie gesagt, Leute mit mehr Methoden-Know-How als ich sagen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.