Die Corona-Krise und der damit verbundene Lockdown haben große Teile der Welt in arge Bedrängnis gebracht. Nach wie vor ist fraglich, ob die verhängten Maßnahmen tatsächlich gerechtfertigt waren. Besonders im Fokus steht hier der für die Diagnose des Virus verwendete PCR‑Test. Oft werden beeindruckende Zahlen bezüglich der Verlässlichkeit von Corona-Tests angegeben, teilweise weit über 99 % [1]. Dennoch darf niemals die Häufigkeit einer Erkrankung in Bezug auf die Gesamtbevölkerung vergessen werden. Mit dem „Satz von Bayes“ kann unter Verwendung der Gesamtzahl von Erkrankten und den Kennzahlen des PCR-Tests abgeschätzt werden, wie groß die Zuverlässigkeit von solchen Tests wirklich ist [2,3]. In diesem Artikel wollen wir zunächst die aktuellen Daten der Corona-Krise unter Berücksichtigung der „Bayes-Statistik“ analysieren. Im zweiten Teil soll geprüft werden, inwiefern Korrelationen von Corona-Daten in Bezug auf Altersstruktur, Entwicklungsniveau, Bevölkerungsdichte, Wohlstand etc. bestehen. Am Ende gehen wir auf Maßnahmen ein, die jeder treffen kann, um seine Gesundheit bestmöglich zu fördern. Außerdem wollen wir überlegen, ob die Krise schon vorbei ist oder gerade erst begonnen hat.
Der Satz von Bayes & Corona-Tests
Der Satz des berühmten Mönches und Mathematikers Reverend Thomas Bayes (vermutlich 1701 bis 1761) bietet eine Möglichkeit Wahrscheinlichkeiten unter Berücksichtigung von Vorwissen zu ermitteln.
Abbildung 1 Neben Gauß wohl einer der bedeutensten Statistiker: Reverend Thomas Bayes. Ob das Bild tatsächlich ihn zeigt ist umstritten 😉. By Wikipedia. Public Domain. No copyright.
Diese Art der Statistik wird nicht nur von unserem Gehirn verwendet, um die vermeintliche Realität zu konstruieren [4]. Sie hat tatsächlich viele Anwendungsfälle [2–5]:
- Lotterien: Wie hoch ist Wahrscheinlichkeit, dass x Prozent aller Lose gewinnt, wenn bereits y Lose gewonnen haben.
- Katastrophenmanagement: Wie hoch ist die Wahrscheinlichkeit Vermisste an einem Ort zu finden, wenn die Suche an anderen Orten bereits erfolglos war.
- Unplausible Resultate durchschauen: 100 Männer haben eine Durchschnittsgröße von 210 cm, der Abgleich mit anderen Daten (Vorwissen!) lässt eine Korrektur zu.
Der Satz ist folgendermaßen definiert:

A wäre in dem Fall der Anteil positiver Tests und B der Anteil des Auftretens tatsächlicher Erkrankungen.
A: Test ist positiv, d.h. +
B: Patient ist tatsächlich krank, d.h. D = 1 (D steht für „Disease“)
Die Wahrscheinlichkeit, dass ein Patient tatsächlich krank und die Diagnose gleichzeitig positiv ist, wird auch als Sensitivität bezeichnet. Oder anders ausgedrückt der Anteil positiver Testergebnisse unter Kranken [2].
Die Spezifität hingegen ist, die Wahrscheinlichkeit, dass ein Patient nicht krank ist und ich auch tatsächlich keine Krankheit diagnostizieren kann, beziehungsweise der Anteil negativer Testergebnisse unter Gesunden [2].
Im Falle von Corona (ich verwende diesen Begriff hier für COVID-19 bzw. SARS-CoV-2) gehen wir von einer Spezifität und Sensitivität von 99% aus. Das heißt sollte ich im Labor den PCR-Test validieren und ein Ergebnis von 100 Tests positiv sein, obwohl ich statt dem Corona‑Virus einen anderen Erreger überprüft habe, dann habe ich eine Spezifität von 99% (1 in 100 hat versagt). Hingegen werde ich bei 99% Sensitivität nur einmal den Corona-Virus nicht detektiert haben, obwohl ich nur diesen Untersucht hatte (99 von 100 haben funktioniert). Nun gilt es noch die Gesamtbevölkerung miteinzubeziehen, in Deutschland sind dies 83803229 oder rund 84 Millionen Menschen. Insgesamt wurden 7418812 (oder rund 7,4 Millionen) Menschen überprüft, dies sind etwa 8,85% der Gesamtbevölkerung. Davon wurden 206741 (also rund 0,2 Millionen) Personen als Corona-positiv bewertet. Dies sind etwa 0,247% der Gesamtbevölkerung. 99,753% der Bevölkerung waren demnach „gesund“ (Stand 27.07.2020 vormittags).
Wir setzen nun alles nach und nach in den Satz von Bayes ein:
P(B|A) = Die Wahrscheinlichkeit, dass positiv getestet wurde und gleichzeitig auch eine Erkrankung vorlag
= Sensitivität
= Pr(+|D=1)
= 0,99
P(A) = Anteil der Erkrankung in der Bevölkerung = Pr(D=1) = 0,247/100 = 0,00247.
P(B) = Anteil tatsächlich positiv getesteter Personen in der Bevölkerung
= Sensitivität x Anteil Erkrankung in Bevölkerung + Anteil unspezifisch-getesteter Personen x Anteil Gesunder
= Pr(+|D=1) * Pr(D=1) + Pr(+|D=0) * Pr(D=0)
(Anmerkung: Pr(+|D=0) ist in dem Falle = 1 – Spezifität, weil positiv getestet wurde, aber die Person nicht krank ist)
Den Satz von Bayes kann man demnach in Bezug auf Corona-Tests auch so schreiben:

Eingesetzt in den Satz von Bayes ergibt sich somit für Deutschland:

Wenn alles richtig eingesetzt und ausgerechnet wurde, ergibt sich ein Wert von rund 0,197. Demnach liegt die Wahrscheinlichkeit, dass ein positiver Test auch tatsächlich eine Corona-Erkrankung anzeigt in Deutschland gegenwärtig (Stand 27.07.2020 vormittags) bei etwa 19,7%. Es ist somit davon auszugehen, dass über 80% der Tests in Deutschland falsch-positiv waren. Corona also diagnostiziert wurde, aber in Wahrheit keine Corona-Erkrankung vorlag.
Konsequenz der Bayes-Statistik für die Bewertung der Pandemie
Wie bereits oben erwähnt ist die Bayes-Statistik dafür geeignet unplausible Ergebnisse zu korrigieren. Wie oben errechnet ist allein in Deutschland davon auszugehen, dass ca. 80% falsch-positiv sind. Tatsächlich wurde vereinzelt berichtet, dass in Abhängigkeit vom Untersuchungsort teilweise mehr als 80% entweder milde oder gar keine Symptome zeigten [6]. Wir schauen uns aus diesem Grunde die Corona-Fälle, sowie Todesfälle an, welche offiziell (nicht Bayes-korrigiert) und Bayes-korrigiert errechnet werden können (Abbildung 1).
Abbildung 2 Corona-Tote nach Kontinent. „official estimate“ = offizielle Zahlen. „bayes-corrected“ = korrigierte Zahlen anhand des „Satzes von Bayes“. Insgesamt flossen die Daten von 188 Staaten in die Analyse ein. Australien und Ozeanien wurden entfernt, da nicht genug Werte zusammenkamen. Stand 27.07.2020. Made by Chapper – unrestricted use allowed.
In Abbildung 2 ist zu erkennen, dass die meisten Corona-Fälle in Nordamerika, Asien, Südamerika und Europa aufgetreten sind (Abbildung 2A). Nach Berücksichtigung falsch-positiver Resultate bilden Nord- und Südamerika die kritischsten Erdteile (Abbildung 2B). In Bezug auf Sterbefälle liegen Nordamerika und Europa an erster Stelle (Abbildung 2C). Die Korrektur führt dazu, dass Nordamerika der Kontinent mit den meisten Sterbefällen ist (Abbildung 2D). Interessant ist vor allem der starke Abfall an Zahlen in Asien nach Korrektur. Zusammengenommen wären daher weltweit „nur“ etwa 6,5 Millionen Menschen statt 16,4 Millionen Menschen an Corona erkrankt und statt 0,65 Millionen Menschen wären in etwa 0,245 Millionen Menschen an Corona gestorben.
Fraglich ist nun selbstverständlich was man tun kann, um den Anteil falsch-positiver Resultate zu verringern. Nur so kann eine klare Einschätzung der Lage vorgenommen werden. Natürlich käme eine Verbesserung der PCR-Tests in Betracht, wobei 99% Spezifität und Sensitivität schon sehr gut sind. Eine Erhöhung von 99% auf 99,9% würde den Anteil falsch-positiver Ergebnisse in Deutschland beispielsweise lediglich von etwa 80,3% auf 80,2% senken. Das heißt an den Tests kann man nur noch sehr wenig ändern. Eine andere Möglichkeit bestünde in der Erhöhung der Menge an Tests. Wir wollen aus diesem Grunde die Korrelation zwischen „Wahrscheinlichkeit richtig-positiver Ergebnisse“ und der „Gesamt-Testmenge in Prozent“ beziehungsweise der „Gesamt-Fallzahl“ überprüfen (Abbildung 3).
Abbildung 3 Korrelation der „Gesamtzahl an Tests in Prozent“ („Total Tests %“) (A) und „Gesamtzahl an Corona-Fällen in Prozent“ („Total Cases %“) (B) zur „Wahrscheinlichkeit eines richtig-positiven Ergebnisses“ („Probability True Positive %“). Korrelationskoeffizient (R2) in A = 0,627 und in B ≈ 1 (Methode: Spearman). Alle Länder mit Fallzahlen oder Testzahlen unter 0,001% wurden aus der Analyse entfernt. Sowohl die x- als auch y-Achse sind in log10 angegeben. Insgesamt flossen nur die Daten von 176 Staaten in die Analyse ein. Stand 27.07.2020. Made by Chapper – unrestricted use allowed.
Anhand von Abbildung 3 ist erkennbar, dass lediglich das Vorhandensein tatsächlicher Erkrankungen den Fehler in der Messung entscheidend senken kann. Die Korrelation höher Testanzahl zur „Wahrscheinlichkeit richtig-positiver Ergebnisse“ beträgt etwa 0,627, d.h. die Korrelation ist relativ schwach. Demgegenüber steht ein Korrelationskoeffizient (R2) von rund 1,0 im Falle tatsächlich hohen „Fallzahlen“ zur „Wahrscheinlichkeit eines richtig-positiven Ergebnisse“. Daraus folgt, dass vor allem Tests in konkreten Verdachtsfällen vorzunehmen sind. Abbildung 4 zeigt einen Überblick über die weltweite Situation.
Abbildung 4 Länder der Erde in denen Corona-Erkrankungen registriert wurden. Gezeigt ist die „Wahrscheinlichkeit richtig‑positiver Ergebnisse“, sowie die relative Sterberate (Größe der Punkte). Die rote Linie zeigt den „Cutoff“ von etwa 15%. Insgesamt flossen die Daten von 194 Staaten in die Analyse ein. Stand 27.07.2020. Made by Chapper – unrestricted use allowed.
In Abbildung 4 ist zu sehen, dass eine große Mehrheit von Staaten einen geringen Anteil vermeintlich richtig-positiver Ergebnisse aufweist ("Probability True Positive %"<15%). Nur 71 von 194 Staaten zeigen eine „Wahrscheinlich für ein richtig-positives Ergebnis“ von ≥15%. Staaten mit einer geringen „Wahrscheinlichkeit für ein richtig-positives Ergebnis“ befinden sich vor allem in Afrika, Asien, manchen lateinamerikanischen Staaten, aber auch in Europa.
Bei Ländern mit den verlässlichsten Zahlen in Bezug auf „Wahrscheinlichkeit eines richtig-positiven Ergebnisses“ handelt es sich vor allem um Kleinstaaten, um Staaten des Mittleren Ostens (insbesondere Golfstaaten), sowie um süd- und nordamerikanische Staaten (Tabelle1).
Tabelle 1 Top15-Staaten nach „Wahrscheinlichkeit für richtig-positives Ergebnisse“ (A, Probability), „Anzahl Corona-Fälle in %“ (B, Caserate), sowie „Anzahl an Corona-Fällen in % korrigiert“ (C, Caserate_corr). Stand 27.07.2020. Made by Chapper – unrestricted use allowed.

In den Top15 kommen somit nur drei europäische Länder vor, diese sind ausnahmslos Kleinstaaten (San Marino, Vatikan und Andorra). Weiterhin fällt auf, dass nur ein Industriestaat in den Top15 vorhanden ist, nämlich die USA. Die Reihenfolge ändert sich ein wenig, wenn man die Top15 der Staaten gemäß „Corona-Fällen in %“ betrachtet (Tabelle 1B). Unter Verwendung der errechneten „Wahrscheinlichkeit eines richtig-positiven Ergebnisses“ finden wir jedoch die Reihenfolge aus Tabelle 1A wieder (Tabelle 1C). Interessanterweise sind in der Betrachtung der höchsten Todesraten vor allem europäische Länder vorhanden (Tabelle 2).
Tabelle 2 Top15-Staaten nach „Wahrscheinlichkeit für richtig-positives Ergebnisse“ (A, Probability), „Anzahl Todesfälle in %“ (B, Deathrate), sowie „Anzahl an Todesfällen in % korrigiert“ (C, Deathrate_corr). Stand 27.07.2020. Made by Chapper – unrestricted use allowed.

Tabelle 2 zeigt deutlich, dass anhand der offiziellen Zahlen vor allem europäische Länder eine enorm hohe Sterberate ausweisen. Außerdem vertreten sind süd- und nordamerikanische Staaten. Dieser Zustand ändert sich auch nach Korrektur unwesentlich (vergleich Tabelle 2 B & C).
Zusammenfassung
Weltweit ist davon auszugehen, dass rund 40% der Corona-Fälle und Corona-Toten auch "korrekt" diagnostiziert wurden. Eine Erhöhung der Testhäufigkeit würde dieses Ergebnis nicht verbessern. Wichtig ist die Prädiagnostik. In Deutschland muss davon ausgegangen werden, dass etwa 20% aller Fälle "richtig" diagnostiziert wurden. Die genauste Diagnostik wurde vor allem in Kleinstaaten und Golfstaaten vorgenommen. Dennoch weisen auch nach Korrektur europäische Staaten (San Marino, Belgien, UK, Andorra, Spanien, Italien, Schweden…) die höchsten Sterberaten auf.
Wir wollen in der Folge untersuchen, woher diese Unterschiede rühren.
Fortsetzung folgt im zweiten Teil…
Daten & Methoden
Die verwendeten Staaten stammen von der Website https://www.worldometers.info/coronavirus/ und wurden mittels Webscraping in R & RStudio (Version 3.6.3) geladen:
R Core Team (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Folgende Packages habe ich zur Auswertung verwendet:
tidyverse, rvest, plyr, table1, corrplot, Hmisc, ggthemes, broom, ggrepel, ggpubr, factoextra, rstatix, gridExtra, scales, psych, kableExtra, knitr
Den Code stelle ich euch auf Anfrage gern zur Verfügung.
Literatur
[1] Mitteldeutsche Zeitung, Wie sicher sind Corona-Tests? https://www.mz-web.de/leben/wie-sicher-sind-corona-tests--36644226.
[2] Jürgen Heddrich & Lothar Sachs, Angewandte Statistik: Methodensammlung mit R, sixteenth ed., Springer Spektrum.
[3] Marc Dressler, Spektrum der Wissenschaft.
[4] Anil K. Seth, Spektrum der Wissenschaft.
[5] Dominik R. Bach, Spektrum der Wissenschaft.
[6] Nadja Podbregar, Corona: Bis zu 80 Prozent asymptomatische Fälle? https://www.scinexx.de/news/medizin/corona-bis-zu-80-prozent-asymptomatische-faelle/.
Posted from my blog with SteemPress : http://worldofchapper.de/rp295320-ovh/index.php/2020/07/27/corona-die-unendliche-pandemie-teil-1-das-problem-mit-den-tests/