Was passiert, wenn Forscher Daten "bereinigen"?

Obwohl Forscher oft wenig Zeit für die Diskussion über die Datenaufbereitung aufwenden, kann diese die Ergebnisse einer bestimmten Studie massiv verändern. Um sicherzustellen, dass die Forschung nützlich bleibt, brauchen wir universelle Standards und eine bessere Dokumentation.

Die meisten Wirtschaftswissenschaftler haben wahrscheinlich schon viele Male einen alten Witz von Forschern außerhalb des Fachgebiets gehört. Er geht so: "Es gibt drei Wissenschaftler, die auf einer einsamen Insel gestrandet sind - ein Physiker, ein Chemiker und ein Wirtschaftswissenschaftler. Sie finden eine Konservendose, haben aber keine Möglichkeit, sie zu öffnen. Der Physiker schlägt vor, dass sie den Deckel der Dose mit einer Hebelwirkung öffnen sollten. Der Chemiker schlägt vor, ein Feuer zu machen und die Dose zu erhitzen, so dass der Deckel abspringt. Beide schauen den Wirtschaftswissenschaftler an, der sagt: 'Nehmen wir einen Dosenöffner an.'"

Bei der Arbeit mit nicht experimentell erhobenen Daten müssen Forscher häufig Annahmen darüber treffen, wie sie ihre Daten am besten verarbeiten, bereinigen und modellieren können. Der Statistiker Andrew Gelman bezeichnet diese Entscheidungspunkte, die zu jedem Zeitpunkt des Forschungsprozesses auftreten können, als einen "Garten von sich verzweigenden Pfaden".

FREIHEITSGRADE DES FORSCHERS

Bei der Arbeit mit nicht-experimentell erhobenen Daten müssen Forscher häufig Annahmen darüber treffen, wie sie ihre Daten am besten verarbeiten, bereinigen und modellieren können. Ein gängiger Begriff für diese expliziten oder impliziten Entscheidungen ist "Freiheitsgrade des Forschers". Diese Entscheidungen werden an vielen Stellen des Forschungsprozesses getroffen und bleiben meist unausgesprochen. Verschiedene Forscher könnten vernünftigerweise unterschiedliche Entscheidungswege wählen, wenn sie mit denselben Daten konfrontiert werden. Dieser Grad an Flexibilität kann jedoch dazu führen, dass mehrere Forscher mit identischen Daten zu Ergebnissen gelangen, die sich radikal voneinander unterscheiden.

Ausmaß der Diskrepanz

Ein gebräuchlicherer Begriff für die expliziten oder impliziten Entscheidungen, die beim Destillieren von Informationen in ein brauchbares Format getroffen werden, ist "Freiheitsgrade des Forschers". Diese Entscheidungen werden an vielen Stellen des Forschungsprozesses getroffen und bleiben meist unausgesprochen. Hinzu kommt, dass verschiedene Forscher vernünftigerweise unterschiedliche Entscheidungswege wählen könnten, wenn sie mit denselben Daten konfrontiert werden. Diese Flexibilität kann jedoch dazu führen, dass mehrere Forscher auf der Grundlage identischer Daten zu Ergebnissen kommen, die sich grundlegend voneinander unterscheiden.

Das Problem ist, dass die meisten Beobachtungsdaten zu viele verschiedene Entscheidungsmöglichkeiten bieten. Infolgedessen müssen die Forscher zu viele eigene Entscheidungen treffen, die oft voneinander isoliert sind. Unterschiede bei ein oder zwei Annahmen während der Datenverarbeitungs- oder Analysephasen der Forschung führen in der Regel nicht zu großen Diskrepanzen bei den Ergebnissen. Im großen Maßstab jedoch hat die schiere Anzahl von Entscheidungen, über die Forscher in der Regel nicht zweimal nachdenken und die sie kaum dokumentieren, die aktuelle Replikationskrise in den Sozialwissenschaften ausgelöst.

Die rasche Ausweitung des Zugangs zu allgemeinen Datenquellen (z. B. die Volkszählung, das Bureau of Labor Statistics, die Federal Reserve und andere) in den letzten 15 Jahren hat dieses Problem noch verschärft. Das Fehlen allgemeingültiger Best Practices für die Berichterstattung, Standardisierung und Aggregation von Daten hat dazu geführt, dass die empirische Forschung an Glaubwürdigkeit verloren hat. Ohne eine solide Anleitung müssen Forscher auf allen Ebenen des Forschungsprozesses so viele unabhängige Annahmen treffen, dass die Zahl der unterschiedlichen Ergebnisse schnell die verallgemeinerbaren empirischen Erkenntnisse übersteigt.

Das Problem formulieren

Nick Huntington-Klein und andere Forscher haben kürzlich herausgefunden, dass die Freiheitsgrade der Forscher zu radikal unterschiedlichen Schlussfolgerungen in empirischen Wirtschaftsanalysen führen. Darüber hinaus stellten sie fest, dass die meisten der von unabhängigen Forscherteams getroffenen Entscheidungen zur Datenaufbereitung und -analyse, die zu diesen unterschiedlichen Ergebnissen führten, in den Endergebnissen nie erwähnt worden wären.

Huntington-Klein und sein Team gaben Daten aus zwei zuvor veröffentlichten Wirtschaftsstudien an sieben verschiedene Replikatoren weiter. Das Team formulierte auch die Forschungsfragen, um sicherzustellen, dass die Replikatoren dieselben Fragen beantworten konnten, die in den veröffentlichten Arbeiten behandelt wurden, aber so, dass sie die veröffentlichten Studien anhand der Daten nicht erkennen würden.

Die Studie ergab, dass die Unterschiede in der Verarbeitung und Bereinigung der extern generierten Daten durch die Replikatoren zu großen Diskrepanzen bei den Ergebnissen führten. Keine zwei Replikatoren meldeten den gleichen Stichprobenumfang, die Schätzgrößen und Vorzeichen unterschieden sich von Replikator zu Replikator, und die Standardabweichung der Schätzungen der sieben Replikatoren war drei- bis viermal so groß wie der Standardfehler, den jeder Replikator einzeln hätte melden müssen. Das letzte Ergebnis deutet darauf hin, dass die Schwankungen bei den Entscheidungen der Forscher, die wahrscheinlich nicht dokumentiert wurden und daher den Peer-Reviewern nicht auffielen, die Ursache für diese enormen Schwankungen bei den Ergebnissen waren.

Ein anderes Team unter der Leitung von Uri Simonsohn schlug vor, dass die Freiheitsgrade der Forscher vor allem zwei Ursachen haben: Unklarheit bei den bewährten Verfahren zur Datenentscheidung und das Bestreben der Forscher, "statistisch signifikante" Ergebnisse zu veröffentlichen. Als Beispiel führen Simonsohn und seine Mitautoren 30 Arbeiten in derselben Psychologiezeitschrift an, die sich mit identischen und scheinbar einfachen Entscheidungen darüber befassten, welche Daten Ausreißer bei den Reaktionszeiten darstellen und wie Forscher mit ihnen umgehen sollten. Trotz ähnlicher Parameter wiesen die Artikel eine große Varianz zwischen den Studien auf.

Die Entscheidungen der einzelnen Forscher waren nicht falsch, aber die Unklarheit der Behandlung von Ausreißern führte zu radikal abweichenden Ergebnissen. Da jede Entscheidung scheinbar gerechtfertigt war, bestand für die Forscher ein direkter Anreiz, die Entscheidungen zu treffen, die zu den auffälligsten Ergebnissen führten.

Theoretische Varianz

Die Auswirkungen der Freiheitsgrade von Forschern beschränken sich nicht einmal auf den Bereich der Empirie. Vor einigen Jahren veröffentlichten zwei Forscher eine Arbeit, die angeblich zeigte, dass Ökonomen das Konzept der Opportunitätskosten (das Prinzip, dass die Kosten einer bestimmten Aktivität dem entgangenen Nutzen der nächstbesten Alternative entsprechen), ein grundlegendes und vermeintlich einfaches Konzept der wirtschaftlichen Entscheidungsfindung, nicht vollständig verstanden haben. Die Lehrbuchfrage, die die Forscher den 199 Ökonomen stellten, lautete wie folgt:

Bitte kreisen Sie die beste Antwort auf die folgende Frage ein:

Sie haben eine Freikarte für ein Eric Clapton-Konzert gewonnen (die keinen Wiederverkaufswert hat). Bob Dylan tritt am gleichen Abend auf und ist Ihre nächstbeste Alternative. Die Eintrittskarten für Dylan kosten $40. An einem beliebigen Tag wären Sie bereit, bis zu 50 $ zu zahlen, um Dylan zu sehen. Gehen Sie davon aus, dass es keine anderen Kosten gibt, um einen der beiden Künstler zu sehen. Wie hoch sind die Opportunitätskosten für ein Konzert mit Eric Clapton?

$0 B. $10 C. $40 D. $50

Die Antwort lautet gemäß der Lehrbuchdefinition $10. Der Nutzen von Dylan in Höhe von 50 $ abzüglich der Kosten von Dylan in Höhe von 40 $ sind die Opportunitätskosten des kostenlosen Besuchs von Clapton.

Wie in einem Gegenargument gezeigt wurde, gibt es jedoch keinen operativen Standard dafür, was "Opportunitätskosten" sind, so dass Definitionsunterschiede in Bezug auf Kosten und Nutzen in der obigen Frage dazu führen können, dass jede der vier Antwortmöglichkeiten plausibel ist.

Stellt der Preis für das Dylan-Ticket einen Nutzen dar, da es sich um 40 Dollar handelt, auf die nicht verzichtet wurde? Wie hoch ist der monetäre Wert der Clapton-Show? Die Mehrdeutigkeit der Opportunitätskostenrechnung bietet dem Befragten einen gewissen Spielraum für unterschiedliche, vertretbare Annahmen über den Konzertbesucher, was zu abweichenden Antworten führt.

Entschärfung der Ergebnisse

Da die meisten Abweichungen bei den Freiheitsgraden der Forscher auf Mehrdeutigkeiten in den Daten zurückzuführen sind, bestehen mögliche Lösungen darin, den Forschern diese Entscheidungen abzunehmen und von ihnen zu verlangen, dass sie bei den Entscheidungen, die sie treffen müssen, genau sind. Sowohl Huntington-Klein als auch Simonsohn schlagen vor, dass die Forscher Datenanhänge beifügen, die alle konstruierten Variablen dokumentieren, unabhängig davon, ob die Forscher sie verwendet haben oder nicht.

Forscher müssen in diesen Anhängen auch alle Entscheidungen dokumentieren, die sie darüber treffen, welche Daten sie ausschließen, Modellierungsentscheidungen, die zu Nicht-Ergebnissen führen, und alle fehlgeschlagenen Manipulationen von Daten bei der Verarbeitung. Mehr Transparenz in Bezug auf die Unordnung bei der Datenverarbeitung und -schätzung ist absolut notwendig, um sicherzustellen, dass sich die Forscher selbst über die Entscheidungen im Klaren sind, die sie während des Forschungsprozesses treffen, selbst wenn dies die ansonsten klaren Ergebnisse schmälert.

Eine weitere Lösung ist die Standardisierung von Datenverarbeitungsverfahren und Richtlinien für bewährte Praktiken. Wenn viele Forscher dieselben Datenquellen verwenden, was in der nicht-experimentellen Forschung häufig vorkommt, können durch eine Vorverarbeitung häufig verwendeter Daten oder einen Leitfaden für bewährte Praktiken bei der Verwendung gemeinsamer Daten potenzielle Quellen für die Entscheidungsfindung von Forschern minimiert werden.

Das standardisierte Zusammenführungsverfahren des National Bureau of Economic Research für die Merged Outgoing Rotation Group Files aus der Current Population Survey des Census Bureau ist ein gutes Beispiel für diese Art von Maßnahme. Indem das NBER den Prozess der Zusammenführung von Dateien und alle Annahmen vereinheitlicht hat, hat es die Varianz der Forscher bei der Zusammenführung von CPS-Daten wirksam gemildert. Dies hat zu einheitlicheren Ergebnissen geführt, da die Forscher, die CPS-Daten verwenden, nicht mehr unabhängig voneinander entscheiden müssen, wie sie unterschiedliche Dateien am besten kombinieren. Die Vorverarbeitung gemeinsamer Datenquellen durch Standardcode, Leitfäden oder beides sind hervorragende Methoden, mit denen Organisationen Unklarheiten bei der Datenverarbeitung ausschließen können.

Eine weitere Lösung, die dazu beitragen könnte, das Rauschen in der Schätzung, das sich aus dem Garten der Gabelungspfade ergibt, abzuschwächen, ist die Zusammenfassung unterschiedlicher Schätzungen, die dieselbe Frage unter Verwendung identischer Daten behandeln. Ensemble- oder Modell-Mittelungsmethoden können nützlich sein, um sicherzustellen, dass eine Schätzung, die sich aus mehreren unabhängigen Forschungssträngen ergibt, genauer ist als jeder einzelne Strang. Noch wichtiger ist, dass mehrere Quellen von Schätzungen aufzeigen können, wie viel Rauschen sich aus der Flexibilität der Forscher bei der Datenentscheidung ergibt.

Daniel Kahneman, Oliver Sibony und Cass Sunstein schlagen in ihrem Buch "Noise" vor, dass Organisationen, die sich um die Konsistenz ihrer Urteile und Entscheidungen sorgen, ein "Noise Audit" durchführen. Bei diesem Verfahren, das der Arbeit des Huntington-Klein-Teams sehr ähnlich ist, werden die Entscheidungen von sachkundigen Entscheidungsträgern zu einem zuvor ausgewählten Szenario mehrfach abgefragt. Bei der Prüfung wird getestet, wie sehr die durchschnittliche Entscheidung jedes Einzelnen dem Gesamtdurchschnitt aller Entscheidungsträger ähnelt. Außerdem wird festgestellt, wie ähnlich die individuellen Entscheidungen jedes Entscheidungsträgers dem eigenen Gesamtdurchschnitt sind. Mit anderen Worten: Trifft der Entscheidungsträger unter nahezu identischen Umständen die gleichen oder ähnliche Freiheitsgrade bei seinen Entscheidungen?

Wie Kahneman, Sibony und Sunstein feststellen, ist die Beurteilung schwierig, weil die Welt hochkomplex und unsicher ist". Dies gilt umso mehr für Daten, die aus unkontrollierten, realen Prozessen stammen. Glücklicherweise kommen die Autoren auch zu dem Schluss, dass Rauschen mit Hilfe von festgelegten Regeln und Leitlinien aufgedeckt und reduziert werden kann.

Diese Maxime gilt sicherlich auch für die empirische Forschung. Das Rauschen, das sich aus den verschiedenen Annahmen ergibt, die Forscher während des Forschungsprozesses treffen müssen, kann durch Transparenz, Standardisierung und, in geringerem Maße, Aggregation ausgeglichen werden. Die Forscher müssen sich darüber im Klaren sein, welche Auswirkungen die von ihnen getroffenen Annahmen auf ihre Endergebnisse haben können. Andernfalls, so warnen Kahneman, Sidley und Sunstein, "ist Rauschen Inkonsistenz, und Inkonsistenz schadet der Glaubwürdigkeit des Systems."