Was lernen wir aus den Heinsberg-Protokollen?

"Es ist wichtig, die Öffentlichkeit transparent und schnell über die Zwischenschritte zu informieren.", so begründet der Bonner Virologe Hendrik Streeck seinen umstrittenen Zwischenbericht über die Erkenntnisse in Gangelt. Kritiker nennen diesen "unwissenschaftlich" und eine reine "PR-Aktion". Auslöser dieser harschen Reaktionen sind die so genannten "Heinsberg-Protokolle" – die mediale Vermarktung der Studie durch eine Berliner PR-Agentur. Erfreulicherweise war Streeck damit einer der wenigen Forscher, der den Wert repräsentativer Studien frühzeitig erkannt und entsprechend gehandelt hat – so wie wir es seit Wochen fordern. Aber hat Streeck mit seiner Studie wirklich den Königsweg beschritten?

Streeck zumindest widerspricht seinen Kritikern vehement: "Wir haben insgesamt 1.000 Leute aus 400 Haushalten untersucht – das sind viermal mehr, als im WHO-Protokoll vorgesehen. Also statistisch absolut repräsentativ."

Zu diesem Zitat ist anzumerken, dass Repräsentativität keine Frage der Stichprobengröße ist, sondern inwieweit die verwendete Stichprobe die Bevölkerung in ihren wesentlichen Merkmalen abbildet. Ein wichtiges Kennzeichen repräsentativer Stichproben ist ihre Konstruktion als "Random Selection", d.h. eine zufällige Ziehung aus einer Grundgesamtheit. Statistisch bedeutet dies, dass jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit haben muss, in die Stichprobe zu gelangen. Hierfür bieten Statistik und Stochastik viele Werkzeuge, die eine solche Zufallsauswahl ermöglichen. Am Rande sei erwähnt, dass unser Gehirn unfähig ist, zufällige Stichproben zu ziehen. Diese Erkenntnis ist für Statistiker und Risikomanager beispielsweise im Bereich der Betrugserkennung wichtig. Nur wenn eine Stichprobe repräsentativ ist, kann aus den Ergebnissen der statistischen Auswertung auf die Grundgesamtheit geschlossen werden, um so verallgemeinernde Aussagen treffen zu können.

Ist die Heinsberg-Stichprobe repräsentativ?

Im Zwischenbericht der Studie ist vermerkt, die Auswahl bilde die Haushalte in Gangelt ab und die Repräsentativität sei mit dem Markt- und Meinungsforschungsinstitut Forsa abgestimmt worden. Unklar ist jedoch, ob die Stichprobe repräsentativ für die Bevölkerung in Gangelt in wesentlichen Merkmalen ist, d.h. insbesondere, ob die besonders gefährdete Gruppe von Senioren in Alten- und Pflegeheimen repräsentativ erfasst wurde.

Der Zwischenbericht dokumentiert bis auf die Einwohnerzahl von Gangelt (12.559 Personen) weiterhin keine absoluten Zahlen. Stattdessen werden lediglich grob gerundete Angaben wiedergegeben. Die absoluten Fallzahlen zu veröffentlichen, wäre kein größeres Problem gewesen, wobei insbesondere eine Aufschlüsselung nach Altersgruppen von großer Bedeutung für die Interpretation der Ergebnissse gewesen wäre.

Darüber hinaus beinhaltet der Zwischenbericht die gerundete Zahl der bislang ausgewerteten Tests (rund 500) und prozentuale Angaben zur Testgüte und den Ergebnissen. Genannt ist die mit einer Spezifität von >99% erhobene Immunität von circa 14% gemäß Antikörpertest, die Quote akuter Infektionen von ca. 2% gemäß PCR-Test und die Summe von beiden als ca. 15%. Der Bericht spricht zwar von einer "Rate", da jedoch eine Betrachtung zu einem festen Zeitpunkt vorgenommen wurde, handelt es sich um eine "Quote". Die Letalität betrage damit ca. 0,37% und die Mortalität ca. 0,06%. In der "Ärztezeitung" findet sich der ergänzende Hinweis, dass der Zwischenbericht auf den Testergebnissen von 509 Personen beruht.

Durchschnittsberechnung ohne Berücksichtigung der Unsicherheit entspricht nicht den wissenschaftlichen Standards

Aus Mortalität und Einwohnerzahl lässt sich zumindest die Zahl der Verstorbenen auf 7 oder 8 Fälle (rechnerisch: 7,5) rekonstruieren, indem die Einwohnerzahl mit der Mortalität multipliziert wird. Bei 8 Fällen würden sich mit einer Letalität von rund 0,37% (0,365% bis < 0,375%) eine Gesamtzahl von 2.133 bis 2.192 temporär Immunen errechnen, wenn man diese Fälle durch die Letalität dividiert. Das entspräche einem Anteil von temporär Immunen (Immune + akut Infizierte) von 17,0% bis 17,5% in der Gesamtbevölkerung, was höher wäre als der angegebene Anteil von 15% im Zwischenbericht. Folglich muss die Zahl der Todesfälle geringer sein und bei 7 liegen. Daraus errechnet sich ein Anteil von 14,9% bis 15,3% temporär Immunen in der Bevölkerung. Dieser Bereich lässt sich weiter eingrenzen, da nur eine Summe von mindestens 15,0% eine Aufrundung der beiden Teilsummen Immuner bzw. Infizierter auf 14% bzw. 2% zulässt. Bestenfalls wurden in der Studie also 13,625% Immune und 1,625% Infizierte entdeckt. Dies entspricht bei 509 getesteten Personen ca. 8 Infizierten und ca. 69 Immunen.

Bei einer Spezifität von <100% wird die Zahl der Immunen jedoch überschätzt, da sogenannte "falsch positive" Testergebnisse vorliegen können. Die Zahl der gefundenen positiven Testergebnisse setzt sich bei einer (nicht angegebenen, aber zugunsten der Studie unterstellten) Sensitivität von 100% zusammen aus 100% der Personen, die tatsächlich infiziert sind, und weniger als 1% der Personen, die tatsächlich nicht infiziert sind (falsch Positive). Die tatsächlich infizierten Personen errechnen sich als:

(% positive Tests - % falsch Positive) / Spezifität.

Liegt die Spezifität also bei knapp über 99%, ergibt sich der Prozentsatz der tatsächlich Immunen nach Korrektur um die falsch Positiven als 12,8%, was einer Absolutzahl von 65 Fällen tatsächlich Immuner in der Stichprobe entspricht.

Nimmt man nun an, dass die Getesteten für die Bevölkerung von Gangelt repräsentativ sind, dass also besonders gefährdete Cluster wie die Bewohner von Alten- und Pflegeheimen mit in die Stichprobe einbezogen wurden, wäre eine Hochrechnung auf die Bevölkerung von Gangelt tatsächlich möglich. Allerdings entspricht eine Angabe des reinen Durchschnitts ohne Berücksichtigung der Unsicherheit (Konfidenzintervall) nicht den wissenschaftlichen Standards.

Stochastik kann mit Unsicherheit exzellent umgehen

An dieser Stelle wiederholen wir noch einmal unsere Aussage, dass stochastische Aussagen kein Zeichen von Schwäche sind, sondern eine Stärke wissenschaftlicher Erkenntnis.

Der Risikoforscher und Direktor des Instituts für Tranformative Nachhaltigkeitsforschung, Ortwin Renn, weist darauf hin, dass Stochastik aber auch bedeutet, dass wir die bequeme Sichtweise, wir müssten nur A tun, um B zu erhalten gegen eine wesentlich kompliziertere Sichtweise eintauschen müssen. In der Welt der Stochastik existieren stets mehrere Handlungsoptionen, die alle mit unterschiedlichen Wahrscheinlichkeiten und Unsicherheiten positive wie negative Auswirkungen haben können. Diese "Kultur der Abwägung" ist für viele Wissenschaftlicher und Politiker ein Fremdwort. Einfacher ist die Schaffung und Erfindung von uns gerade genehmen alternativen Fakten, so Ortwin Renn.

Bezogen auf die Heinsberg-Analyse lässt sich ein solches Konfidenzintervall mit Hilfe der Binomialverteilung (diese modelliert die Verteilung der Treffer in einer zufällig gezogenen Stichprobe) abschätzen. Die Binomialverteilung ist zwar nur eine Annäherung, da sie wiederholtes Testen einzelner Personen zulässt. Weiterhin kann bezweifelt werden, dass die in die Stichprobe aufgenommenen Personen unabhängig voneinander sind. Jedoch lässt sich mit dieser Annahme die ungefähre Dimension der Unsicherheit verdeutlichen: Finden sich unter 509 getesteten Personen 65 + 8 = 73 temporär Immune, so liegt die tatsächliche Quote in Gangelt mit einer Konfidenz von 95% zwischen 11,6% und 17,7%. Dies entspräche einer Letalität von 0,32% bis 0,49%. Diese liegt vollständig in dem Bereich, den Virologe Christian Drosten bereits Mitte März geschätzt hatte (0,3% bis 0,7%) und der in der "Unstatistik" vom 25.03.2020 rechnerisch nachvollzogen wurde (0,5% +/- 50%), allerdings im unteren Bereich der Schätzung.

Warum keine Aufschlüsselung nach Altersgruppen?

Diese Ergebnisse lassen jedoch nicht den Schluss zu, dass die Letalität (und die Mortalität) von SARS-CoV2 als geringer angenommen werden kann, als bisher vermutet wurde. Denn die Bevölkerung von Gangelt ist erheblich jünger als die deutsche Bevölkerung. So liegt der Anteil der über 65-Jährigen in Gangelt 9,4% unter dem Bundesdurchschnitt und der Anteil der über 75-jährigen ganze 17,3% darunter. Die Letalität ist in der Bevölkerungsgruppe der 70- bis 79-jährigen jedoch mehr als 5x so hoch wie im Durchschnitt und in der Gruppe der mindestens 80-jährigen mehr als 10x so hoch. Bei lediglich 7 Todesfällen, die oben rekonstruiert wurden, lässt sich nicht prüfen, ob in Gangelt andere Verhältnisse vorliegen. Es ist jedoch sehr plausibel anzunehmen, dass die Verstorbenen auch in Gangelt weit überwiegend höheren Alters waren.

Dennoch ist hier die Wissenschaft der Statistik nicht machtlos. Mit Hilfe einer Altersstandardisierung würde sich prinzipiell die Letalität auf die deutsche Bevölkerungsstruktur zumindest näherungsweise übertragen lassen. Geht man davon aus, dass sich Immunität und Todesfälle in Gangelt proportional zur Altersverteilung verhalten, d.h. dass insbesondere in jeder Altersgruppe eine gleich hohe temporäre Immunität (durchgemachte bzw. aktive Infektion) vorliegt, dann würde die tatsächliche Letalität in Deutschland lediglich aufgrund des höheren Alters ca. 10% höher liegen. Aus den publizierten Ergebnissen lässt sich jedoch nicht ableiten, ob die Immunität in den hohen Altersgruppen gleich hoch, höher oder geringer ist als im Durchschnitt von Gangelt. Wäre sie geringer, könnte dies bedeuten, dass die Senioren von Gangelt bislang für regionale Verhältnisse relativ gut geschützt waren und ihre tatsächliche Gefährdung somit durch die Studie unterschätzt wird.

Genau hier wäre echte Transparenz sehr zu wünschen gewesen. Eine Tabelle, die die positiv Getesteten nach Altersgruppen aufschlüsselt und entsprechende Quoten angibt, hätte den Wert des Zwischenberichts für die Öffentlichkeit, für die wissenschaftliche Diskussion und für die politische Entscheidungsfindung wesentlich erhöht. Warum ist dies nicht geschehen?

Eine wichtige Unsicherheit fällt in den "Heinsberg-Protokollen" völlig unter den Tisch

"Wenn wir einen sogenannten peer-review, eine in der Wissenschaft übliche Begutachtung durch weitere Experten, hätten durchführen lassen, bis hin zu einer schriftlichen Publikation, wären Monate vergangen." So rechtfertigt Hendrik Streeck die Schwächen seines Zwischenberichts. Allerdings gibt es durchaus Spielraum zwischen einer begutachteten Publikation und einem Dokument, das lediglich gerundete Ergebnisse ausweist und auf die Angabe wesentlicher Informationen verzichtet. Dazu zählen insbesondere absolute Fallzahlen, aufgeschlüsselt nach den Altersgruppen, und die Angabe von Konfidenzintervallen.

Doch selbst die spärlichen Angaben des Zwischenberichts lassen keine Entwarnung zu. In Deutschland sind Stand heute (14.04.) 2.969 COVID-19-Todesfälle registriert. Überträgt man die Letalität von 0,37% auf diese Zahl, so entspräche sie einer Gesamtzahl von rund 804.000 bereits bzw. aktuell Infizierten in Deutschland. Das ist ziemlich genau 1%. Bei angenommener höherer Letalität, wie sie oben mit der Altersstruktur von Gangelt begründet wurde, wäre die Quote der temporär Immunen in Deutschland noch geringer.

Eine gänzlich andere Quelle der Unsicherheit fällt in den "Heinsberg-Protokollen" jedoch völlig unter den Tisch: Die Frage, ob die Verstorbenen an oder mit SARS-CoV-2 gestorben sind. Hamburg als bislang einziges Bundesland führt nachträglich Obduktionen durch und kommt damit zu sehr erstaunlichen Ergebnissen. Während das RKI am 08.04.2020 in Hamburg 14 COVID-19-Todesfälle zählte, kamen die Hamburger Rechtsmediziner lediglich auf 8 – ein Unterschied von knapp 43% (95%-Konfidenzintervall von 17,7% bis 71,1%). Mit der gebotenen Unsicherheit bedeutet das: Letalität und Mortalität in Gangelt könnten erheblich überschätzt sein.

Das Medienecho auf die "Heinsberg-Protokolle" war enorm. Die Ergebnisse sind ernüchternd, denn sie bringen nur wenig Licht ins Dunkel. Nähme man sie für bare Münze, so würden 0,37% Letalität bei einer angestrebten "Durchseuchung" von 70% bedeuten, dass am Ende der Pandemie über 200.000 Menschen verstorben sein könnten, vielleicht auch 300.000. Somit bleibt nur zu hoffen, dass wir aus Gangelt möglichst wenig über SARS-CoV-2 lernen können.

Was wir aber jetzt bereits lernen können: Datenethik und Datenkompetenz (Data Literacy) ist bei vielen Wissenschaftlern, Politikern und auch Journalisten nicht besonders ausgeprägt – trotz der jahrelangen Diskussionen um Big Data und Data Analytics. Viele "Experten" scheinen vergessen zu haben, dass zu einem seriösen Umgang mit Unsicherheit vor allem die Fähigkeit zählt, Daten auf kritische Art und Weise zu sammeln, zu managen, zu bewerten und anzuwenden.

Quellenverzeichnis

Zitate von Hendrick Streeck aus dem Tagesspiegel, 12.04.2020,
Daten stammen aus dem Zwischenbericht vom 09.04.2020,
Statistische Angaben zur Bevölkerung von https://www.regionalstatistik.de/, Tabelle 12411-03-02-5
Schätzung von Christian Drosten
Unstatistik vom 25.03.2020
Ärztezeitung vom 09.04.2020
Fallzahlen des RKI
Obduktionen in Hamburg
Renn, O. (2019): Gefühlte Wahrheiten – Orientierung in Zeiten postfaktischer Verunsicherung, Opladen 2019 [vgl. Seite 39]

Autoren

Katharina Schüller, Studium der Psychologie an der TU Dresden, Studium der Statistik an der LMU München, Promotionsstudium an der TU Dortmund, Stipendiatin der Bayerischen EliteAkademie und des Nobelpreisträgerkomitees Lindau. Gründerin des STAT-UP Statistical Consulting & Data Science in München. Weitere Infos

Frank Romeike, Studium der Versicherungsmathematik, Ökonomie, Psychologie sowie exekutives Masterstudium in Risk Management. Gründer und geschäftsführender Gesellschafter der RiskNET GmbH, vormals Chief Risk Officer der IBM. Dozent an verschiedenen Hochschulen zum Thema Stochastik und Risk Management. Weitere Infos

[ Bildquelle Titelbild: Adobe Stock ]