Nonsense Korrelation
Von einer "Nonsense Korrelation" spricht man dann, wenn beispielsweise zwei Zeitreihen unabhängig sind, aber eine hohe Korrelation mathematisch berechnet werden kann. Hierbei muss beachtet werden, dass eine Korrelation zunächst erst mal ein statistischer Begriff bzw. eine mathematische Methodik ist, der weder Kausalität impliziert noch von ihr impliziert wird. Als "Nonsense-Korrelationen" werden daher Korrelationen zwischen Zeitreihen bezeichnet, für welche keinerlei sinnhafte kausale Verknüpfung erkennbar ist.
Wenn genügend Daten vorhanden sind, ist es möglich, unsinnige Zusammenhänge zu finden, auch wenn diese kausal unsinnig sind. Diese Methode wird oft als "Data Dredging" bezeichnet. Data Dredging ist eine Technik, die verwendet wird, um etwas zu finden, das mit einer Variablen korreliert, indem es mit Hunderten von anderen Variablen verglichen wird.
So kann bei einer solchen Computer-basierten Korrelationen beispielsweise eine unerwartet hohe Korrelation berechnet werden, beispielsweise (basierend auf dem Scheinkorrealtion-Blog von Norman Zellmer):
- Höhe des Deutschen Meisters im Stabhochsprung bei den Deutschen Hallenmeisterschaften und Anzahl der für Versuche und andere wissenschaftliche Zwecke verwendeten Kaninchen: Korrelation: 0,9113
- Anzahl der McDonalds-Standorte und Patienten in Krankenhäusern: Korrelation: 0,9954
- Öffentliche Ausgaben für Kultur von Gemeinden und Zweckverbänden in Millionen Euro und Anteil der Weißweinsorten in Prozent an der gesamten bestockten Rebfläche in Deutschland: Korrelation: 1
Eine Sammlung von solchen Korrelationen, die keinerlei Kausalität aufweisen, sind hier zusammengefasst.
Bereits vor rund 100 Jahren von dem britischen Statistiker Udny Yule den Begriff der Nonsense correlation formuliert, da er als erster hohe Korrelationen zwischen nicht miteinander verbundenen, zeitlich variierenden Größen beobachtet hat.
Vertiefende Literatur:
Yule, G.U. (1926). Why do we Sometimes get Nonsense‐ Correlations between Time‐Series? A Study in Sampling and the Nature of Time‐Series. J. R. Stat. Soc. 89, 1–63.