Advertisement
Research Article| Volume 112, SUPPLEMENT 1, S16-S22, 2016

Download started.

Ok

Ist das Zeitalter der Kausalität vorbei?

  • Gerd Antes
    Correspondence
    Korrespondenzadresse: Prof. Dr. Gerd Antes, Cochrane Deutschland / Cochrane Germany, Universitaetsklinikum Freiburg, Berliner Allee 29, D-79110 Freiburg, Deutschland. Tel.: +49 (0)761 203-6706 (Sekr. -6715); F: -6712
    Affiliations
    Cochrane Deutschland, Freiburg, Deutschland
    Search for articles by this author

      Summary

      For the assessment of diagnostic and therapeutic interventions a sound scientific base has been developed during the last twenty years. Under the headline of Evidence-based Medicine nowadays a comprehensive set of tools is offered which can be used to assess the benefit and the risk of medical interventions. The overarching rule which evolved for the grading of evidence from studies is to maximize the protection against bias. Despite this coherent approach, there is still controversy that is regularly mainly sparked by the dominant position of randomized controlled trials. Observational studies and registries are deemed to be more relevant because they provide results that are produced under “everyday conditions”.
      These controversial discussions often show a lack of orientation, as they do without the explicit naming of scientific criteria for the evaluation and to a large extent rely on common sense. That the latter may not be a good guide for assessments in the medical field is known from numerous studies. For unbiased assessments the rigorous use of basic scientific principles is the only way. To express doubt and question these principles requires a scientific basis itself.
      The alternative is to move away from the established scientific foundation. The path to a “new” scientific paradigm is currently dominated by a discussion under the buzzword Big Data. Defined by the three V's of Variety, Velocity and Volume, a potential of the unlimited analysis of data is envisioned, for which there is currently no validation and whose logical foundations are extremely doubtful.
      The demand must be reaffirmed that instead of promises strict validation criteria be followed for the evaluation of all interventions in medicine, particularly in view of these developments.

      Zusammenfassung

      Die Bewertung diagnostischer und therapeutischer Interventionen hat in den letzten zwanzig Jahren ein wissenschaftliches Fundament erhalten, das unter dem Schlagwort Evidenzbasierte Medizin heute ein breites Instrumentarium anbietet, mit dem Nutzen und Risiko von medizinischen Maßnahmen eingeschätzt werden können. Als alles überragende Regel für die Bewertung von Evidenz aus den Ergebnissen von Studien hat sich der maximale Schutz vor systematischen Verzerrungen entwickelt. Trotz dieses in sich schlüssigen Konzepts gibt es weiterhin kontroverse Diskussionen, die sich vor allem regelmäßig an der dominanten Position von randomisierten kontrollierten Studien entzünden. Beobachtungsstudien und Registern wird mehr Relevanz attestiert, da sie Ergebnisse liefern, die unter „Alltagsbedingungen“ erzeugt werden.
      Diese kontroversen Diskussionen sind vielfach durch Orientierungslosigkeit gezeichnet, da sie auf die explizite Benennung von wissenschaftlichen Kriterien für die Bewertung verzichten und sich großenteils auf den gesunden Menschenverstand berufen. Dass letzterer für die Bewertungen in der Medizin kein guter Ratgeber sein kann, ist aus unzähligen Studien bekannt. Für unverzerrte Bewertungen ist der rigorose Gebrauch grundlegender wissenschaftlicher Prinzipien der einzige Weg. Daran zu zweifeln, bedarf selbst wissenschaftlicher Grundlagen.
      Die Alternative ist, sich von dem etablierten wissenschaftlichen Fundament zu verabschieden. Der Weg in eine „neue“ Wissenschaftlichkeit dominiert gegenwärtig die Diskussion unter dem Schlagwort Big Data. Definiert durch drei „V“s für unterschiedliche Beschaffenheit (Variety), Geschwindigkeit (Velocity) und Datenmenge (Volume), werden der unbeschränkten Auswertung von Daten Fähigkeiten zugewiesen, für die es bisher keine Validierung gibt und deren logische Grundlagen äußerst zweifelhaft sind.
      Gerade angesichts dieser Entwicklungen muss die Forderung verstärkt werden, Bewertungskriterien streng zu validieren, statt Versprechungen zu folgen.

      Schlüsselwörter

      Keywords

      Die wissenschaftliche Bewertung diagnostischer oder therapeutischer Interventionen hat zentrale Bedeutung in der modernen Medizin. Unter dem Schlagwort Evidenzbasierte Medizin wurde dazu ein methodischer und logistischer Apparat entwickelt, der heute in der Gesundheitsforschung und –versorgung mit ihren Institutionen und Akteuren nicht mehr wegzudenken ist, allerdings an vielen Stellen nicht mit dem notwendigen Qualitätsbewusstsein umgesetzt wird. Die Qualität der Evidenzbewertung ist jedoch von zentraler Bedeutung, führt doch jede Abweichung von optimaler oder zumindest hochwertiger Qualität zu fundamentalen Fehlern bei der Einführung oder auch Abschaffung von medizinischen Verfahren. Die unmittelbare Folge davon kann - abgesehen von den wirtschaftlichen Auswirkungen durch Verschwendung – die direkte Schädigung von Patienten sein.
      Damit rückt die Frage in den Mittelpunkt, was „wissenschaftlich belegt“ tatsächlich bedeutet und welche Methoden für den Nachweis geeignet sind. Kern der Frage – und damit zwingend auch zentrale Aussage der Antwort – ist, ob eine Intervention ursächlichen Einfluss auf einen klinischen Endpunkt hat, also ein kausaler Zusammenhang besteht. In jeder wissenschaftlich seriösen Bewertung von Verfahren geht es also um den Begriff der Kausalität und die Auswahl und Akzeptanz der Methoden für diesen Nachweis.
      Die Diskussion um die Validität des Nachweises eines kausalen Einflusses auf eine klinisch relevante Zielgröße hat eine lange Tradition und ist untrennbar mit dem Namen Bradford Hill verbunden [
      • Armitage P.
      Before and after Bradford Hill: Some trends in medical statistics.
      ,
      • Horton R.
      Common sense and figures: the rhetoric of validity in medicine (Bradford Hill Memorial Lecture 1999).
      ,
      • Morabia A.
      A history of epidemiologic methods and concepts.
      ]. In den letzten Jahren hat das Thema wieder verstärkt Aktualität erhalten. Damit verbunden ist jedoch nicht eine generelle Erhöhung des wissenschaftlichen Niveaus, sondern im Gegenteil oft sogar eine Missachtung selbst grundlegender wissenschaftlicher Standards. Zu beobachten ist eine verwirrende Sammlung von Argumenten, denen es sowohl bzgl. Terminologie wie auch bzgl. sachlogischer Begründungen vielfach an der notwendigen Sorgfalt fehlt oder die tatsächlich in Konflikt mit wissenschaftlichen Grundsätzen stehen. An den unterschiedlichsten Stellen fokussiert sich – gerade auch in jüngster Zeit - die Debatte immer wieder auf die Rolle von randomisierten kontrollierten Studien (RCT). Ihnen wird einerseits die Position eines Goldstandards eingeräumt, der allen anderen Studientypen bzgl. Vertrauen in die Ergebnisse überlegen ist. Andererseits sprechen „Experten“ RCTs in extremer Auslegung jede Bedeutung für die Entscheidungsfindung im klinischen Alltag ab, da sie als experimentelles Studiendesign unter artifiziellen Bedingungen durchgeführt werden und damit ihre Ergebnisse nicht auf andere Patienten „unter Alltagsbedingungen“ übertragen werden können. Die Gleichung Evidenzbasierung = randomisierte kontrollierte Studie (EbM = RCT) führt zu einem vielfach zu beobachtenden heillosen Durcheinander von Fragestellung, damit verbundenem geeigneten methodischen Ansatz und den adäquaten Werkzeugen. Die Ursache dafür liegt vor allem darin, dass das Verständnis für die Fehleranfälligkeit unterschiedlicher Studientypen vielfach fehlt oder aber deren Schwächen bewusst ignoriert werden und nicht zu einer Abwägung führen.

      Der wahre Goldstandard für die Bewertung von medizinischen Verfahren

      Die weit verbreitete Verwirrung bzgl. der Aussagekraft von Studienergebnissen ließe sich leicht reduzieren, würden die ursprünglichen Ziele jeder Verfahrensbewertung mehr Berücksichtigung finden. Am einfachsten gelingt das, wenn man die Entscheidungssituation des Patienten, nennen wir ihn hier Neumann, beleuchtet und dafür optimale Kriterien sucht. Wie in Abb. 1 symbolisiert, führt das Arzt-Patienten-Gespräch zu einem Therapievorschlag für den hilfesuchenden Patienten, dem dieser folgt. Nach einem angemessenen Zeitraum ist dieser Therapieversuch erfolgreich oder nicht. Spätestens zu dem Zeitpunkt stellt sich die Frage, ob der Therapieansatz der richtige war oder ob es nicht eine bessere Alternative gegeben hätte.
      Figure thumbnail gr1
      Abb. 1a: Gleichzeitige Erfahrung eines Patienten unter zwei Behandlungen. b: Ersatz des Patienten durch zwei Gruppen unter jeweils einer Behandlung
      Für diese Überprüfung gibt es offensichtlich nur einen aussagekräftigen Weg: Neumann muss gleichzeitig und unter identischen Bedingungen mit einer Hälfte der Empfehlung folgen und mit der anderen Hälfte einer alternativen Behandlung. Auf diese Weise kann am Ende des Zeitraums festgestellt werden, welche der beiden Therapieoptionen für Neumann die bessere ist. Diese konzeptionelle Betrachtung ist offensichtlich aus zweierlei Gründen fiktiv: Einmal hat Neumann keinen Reißverschluss und zum zweiten ist das Ergebnis des Vergleichs für ihn nicht von Nutzen, da es erst nachträglich erzielt wird.
      Es ist unmittelbar einleuchtend, dass der einzig wahre Goldstandard für die optimale Therapiewahl der Vergleich der zeitgleich erzielten Ergebnisse in einem Menschen ist, was prinzipiell nicht möglich ist [
      • Morabia A.
      A history of epidemiologic methods and concepts.
      ] (S. 72). Es bleibt also nur, diesen unbekannten und nicht zu realisierenden Goldstandard so gut wie möglich zu approximieren. Der dafür geeignete praktische Weg ist der Ersatz der beiden Hälften Neumanns durch geeignete Gruppen, so dass der Vergleich ihrer Ergebnisse dem Unterschied zwischen Neumanns alternativen Behandlungen möglichst nahe kommt (siehe Abb. 1a und 1b). Wie man das möglichst fehlerfrei schafft, haben Jahrzehnte intensiver methodische Forschung gezeigt. Das Ergebnis ist die Klassifizierung der Glaubwürdigkeit von Studienergebnissen anhand ihres Potentials bzw. Risikos, verzerrt zu sein, also mit systematischen Fehlern (Bias) behaftet zu sein. Das alles überragende Ziel muss also sein, den Bewertungsapparat für medizinische Maßnahmen so wenig fehleranfällig wie möglich zu gestalten, um damit die Wahrscheinlichkeit falscher Aussagen zu minimieren [
      • Buchberger B.
      • von Elm E.
      • Gartlehner G.
      • Huppertz H.
      • Antes G.
      • Wasem J.
      • et al.
      Bewertung des Risikos für Bias in kontrollierten Studien.
      ,
      • Meerpohl J.
      • Langer G.
      • Perleth M.
      • Gartlehner G.
      • Kaminski-Hartenthaler A.
      • Schünemann H.
      GRADE-Leitlinien: 4. Bewertung der Qualität der Evidenz - Studienlimitationen (Risiko für Bias). Zeitschrift für Evidenz.
      ]. Sehr wichtig: Die Ursachen zu eliminieren ist unmöglich.

      Studien: Kriterien für Validität und Qualität

      Das Gedankenexperiment mit dem Patienten Neumann, also die Überlegung „Was wäre, wenn ich das Gegenteil täte...“ ist in englischer Sprache als „Counterfactual Model“ geläufig (im Deutschen „kontrafaktuell“, weniger üblich) und ist in seinen Ursprüngen bis auf den Philosophen Hume zurückzuverfolgen. In neuerer Zeit haben tiefgehende Betrachtungen zum Verhältnis von Empirie zu Theorie zu entsprechenden komplexen mathematischen Behandlungen geführt, so z. B. [
      • Menzies P.
      Counterfactual Theories of Causation.
      ] und [

      Pearl J. The Logic of Counterfactuals in Causal Inference (discussion of ‘causal inference without counterfactuals’ by a.p. dawid). 2000.

      ]. In diesem Artikel wird nicht weiter auf die Berührungspunkte mit den wissenschaftstheoretischen und philosophischen Hintergründen des Kausalitätsbegriffs eingegangen, sondern die Frage nach der Kausalität auf die pragmatische Ebene „Knowing what works“ oder ähnliche Formulierungen beschränkt, also auf die pragmatische Betrachtung von Ursache-Wirkungs-Beziehung (What works?). Gleichbedeutend damit wird, auch ohne das weiter zu problematisieren, die Frage nach der Kausalität auf den empirische Nachweis mit geeigneten statistischen Werkzeugen, wie er heute für die Bewertung von Verfahren etabliert ist, beschränkt.
      Die einfache Veranschaulichung anhand des Patienten Neumann führt unmittelbar zu den Anforderungen an interne Validität, die als Basis für Kausalität unverzichtbar ist [
      • Windeler J.
      External validity.
      ]. Einmal ist klar, dass damit Einzelfällen und auch Fallserien für die Kausalität keine Bedeutung zukommt [

      Five reasons why anecdotes are totally worthless. Posted to the Blog. http://thelogicofscience.com/2016/02/10/5-reasons-why-anecdotes-are-totally-worthless/.

      ]. Dass die Gleichheit der beiden Behandlungsgruppen und die neutrale, unbeeinflusste Beurteilung der Ergebnisse unverzichtbare Qualitätsbausteine sind, folgt auf natürliche Weise. Realisiert werden sie durch Randomisierung und ausreichende Verblindung (Patient, Behandler und Bewerter/Auswerter, soweit möglich). Nicht so logisch stringent lassen sich die Anforderungen an die Auswertung ableiten, die z. B. für Studienabbrecher oder Behandlungswechsler angemessen sind, um den interessierenden Therapieeffekt möglichst verzerrungsfrei zu schätzen (Realisierung durch Intention-to-treat-Analyse).

      Eine Studie ist keine Studie: Die Wissensmaschinerie braucht alle Studien

      Der Bedarf an belastbaren Aussagen zur Wirksamkeit und zum Risiko von medizinischen Verfahren hat über die letzten 50 Jahre einerseits zu einem enormen Wachstum empirischer und theoretischer Studien zu Stärken und Schwächen einzelner Studientypen und -designs geführt, andererseits auch die Anzahl durchgeführter kontrollierter Studien enorm in die Höhe schnellen lassen. Die Cochrane Library weist bereits in einer heute nicht mehr weiter aktualisierten Bibliographie die Zahl von über 15000 methodischen Artikeln zu diesem Themenkreis aus. Bei der Anzahl jährlich berichteter Studienreports über RCTs, die in Medline erfasst und damit ohne Aufwand auffindbar sind, steht der jährliche Zuwachs gegenwärtig bei über 20000 Studien weltweit (siehe Abb. 2).
      Figure thumbnail gr2
      Abb. 2Zuwachs an randomisierten kontrollierten Studien in der Literaturdatenbank Medline (Stand April 2016)
      Damit ist auch ohne aufwendige Empirie unmittelbar einleuchtend, dass es eher die Regel als die Ausnahme ist, dass zu einer Fragestellung mehr als eine Studie durchgeführt wurde. In einer Analyse der systematischen Übersichtsarbeiten in der Cochrane Library wurde eine mediane Anzahl von sechs eingeschlossenen Studien je Cochrane Review ermittelt [
      • Mallett S.
      • Clarke M.
      The typical Cochrane review. How many trials?. How many participants?.
      ]. Diese große Anzahl an Studien ermöglicht also, dass durch die gezielte Auswahl von Studien mit „gewünschten“ Ergebnissen in vielen Fällen jede mögliche Aussage unterstützt werden kann – was in narrativen Zusammenfassungen ja übliche Praxis ist. Die Entwicklung hin zur gegenwärtigen Praxis, Studien zur gleichen Frage in prospektiv geplanten, systematischen Übersichtsarbeiten zusammenzufassen, enthält deswegen die grundsätzliche Forderung, alle relevanten Studien zu identifizieren und von diesen nach geeigneter Qualitätsbewertung die hochwertigen Studien zusammenzufassen [
      • Antes G.
      • Blümle A.
      • Lang B.
      Medizinisches Wissen–Entstehung, Aufbereitung, Nutzung.
      ,
      • Kunz R.
      • Khan K.S.
      • Kleijnen J.
      • Antes G.
      Systematische Übersichtsarbeiten und Meta-Analysen.
      ,
      • Töws I.
      • Antes G.
      Wie glaubwürdig ist die Evidenz?.
      ].
      Für randomisierte Studien ist dieses Vorgehen seit einigen Jahren akzeptiert und etabliert. Ein historischer Schritt war nach jahrelangen intensiven Diskussionen die Publikation von „Knowing what works: The principles of SRs“ durch das Institute of Medicine (IOM) der USA, dem man die Rolle eines Think Tanks für die Welt zusprechen kann. Nachdem HTA-Agenturen, Leitlinienautoren und universitäre Institutionen diese Methodik seit Jahren angewendet und weiterentwickelt hatten, folgten institutionelle und strukturelle Unterstützung für die Verarbeitung des Wissens. Als Beispiel sei hier nur die Webseite „What works? Clinical Effectiveness“ der US National Library of Medicine (Institutionelle Basis von PubMed) [] sowie „The Norwegian Knowledge Centre for the Health Services“ [

      The Norwegian Knowledge Centre for the Health Services. http://www.kunnskapssenteret.no/en/frontpage.

      ] genannt. Dort werden systematische Übersichtsarbeiten über klinische Studien beschrieben, wie sie Antworten auf die Frage „What works?“ liefern (inzwischen über 25000 in PubMed) und damit die Schlüsseltechnologie für den „Kausalnachweis“ bilden.
      Wie neu publizierte Studien global erfasst und Nutzern gezielt zur Verfügung gestellt werden, lässt sich insbesondere an der Arbeit der McMaster Universität in Hamilton (Kanada) [
      • Haynes R.B.
      • Cotoi C.
      • Holland J.
      • Walters L.
      • Wilczynski N.
      • Jedraszewski D.
      • et al.
      Second-order peer review of the medical literature for clinical practitioners.
      ,
      • Haynes R.B.
      • Holland J.
      • Cotoi C.
      • McKinlay R.J.
      • Wilczynski N.L.
      • Walters L.A.
      • et al.
      McMaster PLUS: a cluster randomized clinical trial of an intervention to accelerate clinical use of evidence-based information from digital libraries.
      ,
      • Straus S.E.
      • Richardson W.S.
      • Glasziou P.
      • Haynes R.B.
      Acquiring the Evidence: How to find current best evidence and have current best evidence find us.
      ] und dem Norwegian Knowledge Centre for the Health Services [

      The Norwegian Knowledge Centre for the Health Services. http://www.kunnskapssenteret.no/en/frontpage.

      ] zeigen. Die Zusammenhänge der globalen Wissensproduktion und -nutzung werden ausführlich beschrieben in Antes et al. [
      • Antes G.
      • Blümle A.
      • Lang B.
      Medizinisches Wissen–Entstehung, Aufbereitung, Nutzung.
      ] und Töws et al. [
      • Töws I.
      • Antes G.
      Wie glaubwürdig ist die Evidenz?.
      ].

      Der Body of Evidence als Fundament für Kausalität

      Die Beschränkung der systematischen Übersichtsarbeiten auf RCTs hat methodische und ökonomische Gründe. Zum einen lässt sich zeigen, dass die Meta-Analyse von hochwertigen einzelnen RCTs die Information aus den Studien ausschöpft und nicht viel gewonnen wird, wenn man z. B. auf die Individualdaten der einzelnen Studien zurückgeht (Individual-Patient-Data Analysis, IPD) und eine solche IPD-Analyse durchführt [
      • Stewart L.A.
      • Tierney J.F.
      To IPD or not to IPD?.: Advantages and Disadvantages of Systematic Reviews Using Individual Patient Data.
      ]. Das gilt jedoch nicht mehr bei minderer Studienqualität und starker Heterogenität. Prinzipiell wäre der sichere Weg, jeweils auf die Einzeldaten der Studien zurückzugreifen oder aber zum Beispiel den völlig anderen Weg zu gehen, nur auf die Studienberichte bei den Zulassungsbehörden zuzugreifen und die wissenschaftliche Literatur völlig zu missachten. Diese Forderungen sind aufgrund der massiven Defizite im wissenschaftlichen Publikationsprozess berechtigt, führen jedoch selbst wiederum zu anderen Einschränkungen, so dass daraus keine realisierbare Alternative erwächst. In Einzelfällen sind diese Wege jedoch gegangen worden und haben zu Erkenntnissen geführt, die mit der üblichen Zusammenfassung von Literaturdaten nicht erreicht worden wären.
      Die Einschränkungen sind sofort einsehbar: Die Berichte oder Daten bei den Zulassungsbehörden sind nur für medikamentöse Verfahren (oder mit Einschränkung auch für Medizingeräte) verfügbar, womit ca. die Hälfte der vorhandenen Studien nicht mit der Methodik bearbeitet werden könnte, da sie sich nicht auf Arzneimittel beziehen. Die IPD-Analyse ist um Größenordnungen aufwendiger, da allein die Zusammenführung und Standardisierung der Daten einen Aufwand bedeutet, der eine solche Analyse mehrere Jahre beansprucht [
      • Stewart L.A.
      • Tierney J.F.
      To IPD or not to IPD?.: Advantages and Disadvantages of Systematic Reviews Using Individual Patient Data.
      ]. Diese Diskussion ist z. B. in der Cochrane Collaboration vor ca. 15 – 20 Jahren geführt worden und hat zu der pragmatischen Entscheidung geführt, die gesamte Architektur der Cochrane Arbeit beim literaturbasierten Ansatz zu belassen. Nur so war die Entwicklung der Cochrane Library auf heute über 9000 SRs (davon ca. 2500 noch im Protokoll-Stadium) möglich. Jedes andere Vorgehen hätte punktuell bessere Qualität bei einzelnen Reviews bedeutet, dafür jedoch eine dramatisch geringere Produktion zur Folge gehabt. Gleichzeitig ist das System nicht restriktiv auf RCTs beschränkt, sondern lässt auch auf andere Daten gestützte SRs zu wie IPD – Analysen oder die Zusammenfassung von Daten oder Berichten von den Zulassungsbehörden. Dafür gibt es jedoch keine entsprechende EDV-Unterstützung wie für die literaturgestützten Arbeiten.
      Die oben begründete Beschränkung auf RCTs ist eine stete Quelle von Kritik, die sich in den letzten Jahren in Deutschland vor allem auch durch die Entwicklung der Versorgungsforschung verstärkt hat. Daten, die nicht unter Studien-, sondern unter Alltagsbedingungen generiert wurden, wird dabei generell ein höherer Informationsgehalt attestiert und damit u. a. die Forderung verbunden, die Hierarchie der Evidenz zu modifizieren und RCTs nicht die höchste Aussagekraft zuzuschreiben. Dazu lässt sich jedoch nur nüchtern feststellen, dass diese Forderungen fast ausschließlich „theoriefrei“ formuliert werden und vor allem das Konstruktionsprinzip der Evidenzhierarchie, nämlich die Robustheit gegenüber systematischen Verzerrungen (Bias), missachten. Insbesondere wird bei der Diskussion um Daten „aus dem Versorgungsalltag“ die Notwendigkeit der Berücksichtigung aller geeigneten Studien ignoriert wie auch die damit verbundenen methodischen Hürden. Würde die Suche, Bewertung und Synthese für Daten aus Beobachtungsstudien, Registern und anderen Datensammlungen auf dem methodischen Niveau wie bei RCTs bewertet, würde die entstandene Polarisierung sehr schnell verschwinden. Voraussetzung dafür ist der Konsens, dass es nur eine methodische Grundlage für die Verfahrensbewertung gibt, die sich an der einheitlichen Basis korrekten wissenschaftlichen Vorgehens und der Logik empirischer Forschung orientiert.
      Das Ergebnis ist ein „Body of Evidence“, der sich grundsätzlich aus sehr unterschiedlichen Studientypen zusammensetzen kann, für die Synthese jedoch genau an dem Diskussionsstand ansetzen muss, den wir heute haben. Einheitlicher Maßstab ist das Risiko von systematischen Fehlern (Risk of Bias) [
      • Buchberger B.
      • von Elm E.
      • Gartlehner G.
      • Huppertz H.
      • Antes G.
      • Wasem J.
      • et al.
      Bewertung des Risikos für Bias in kontrollierten Studien.
      ,
      • Meerpohl J.
      • Langer G.
      • Perleth M.
      • Gartlehner G.
      • Kaminski-Hartenthaler A.
      • Schünemann H.
      GRADE-Leitlinien: 4. Bewertung der Qualität der Evidenz - Studienlimitationen (Risiko für Bias). Zeitschrift für Evidenz.
      ]. Für die Synthese von Beobachtungstudien würde das aufgrund unterschiedlicher Adjustierung und Kovariablenstruktur zwingend IPD-Analysen bedeuten [
      • Blettner M.
      • Sauerbrei W.
      • Schlehofer B.
      • Scheuchenpflug T.
      • Friedenreich C.
      Traditional reviews, meta-analyses and pooled analyses in epidemiology.
      ]. Noch schwieriger ist die Synthese von Studien unterschiedlichen Typs zu leisten. Das diese Fragen seit Jahren auf dem Tisch sind und auch Lösungsvorschläge existieren, lässt sich z. B. an dieser Arbeit zeigen [
      • Robinson K.A.
      • Chou R.
      • Berkman N.D.
      • Newberry S.J.
      • Fu R.
      • Hartling L.
      • et al.
      AHRQ Methods for Effective Health Care. Integrating Bodies of Evidence: Existing Systematic Reviews and Primary Studies.
      ].
      Für die Begründung von Kausalität steht also ein ernüchternd lückenhaftes Methodenspektrum wie auch unvollständiges Studienrepertoire zur Verfügung. Andererseits haben die vielen Tausende empirischen Arbeiten der letzten Jahrzehnte bis heute in bisher nie dagewesenem Maß Einsicht in Studiengeschehen und Wissensverarbeitung gebracht, so dass die Schritte zur Verbesserung der Lage klar sind.

      Die neue Welt, Big Data und Innovation: Etablierte wissenschaftliche Qualitätskriterien und logische Grundregeln nicht mehr nötig?

      Die oben beschriebene Welt der Wissensgenerierung, -synthese und -dissemination ist durchsetzt von Defiziten und Missständen, orientiert sich jedoch grundsätzlich am logischen und wissenschaftlichen Fundament von Theoriebildung und Empirie, wie es in den letzten einhundert Jahren in moderner Form entstanden ist. Neben dieser orthodoxen Welt ist in den letzten Jahren eine mächtige Bewegung entstanden, die diese alten Werte von Wissenschaftlichkeit in Frage stellt: Big Data. Die Diskrepanz zu bekanntem Vorgehen beginnt bei der Definition, die in engerem Sinne keine ist. Die drei großen „V“ für Volume, Velocity und Variety stehen für eine Definition, die in keiner Beziehung greifbar ist. Insbesondere der letzte Begriff steht für den Anspruch, die Nutzung auf soziale Netzwerke, Fotos, Videos, MP3-Dateien, Blogs, Suchmaschinen, Tweets, Emails, Internet-Telefonie oder auch Sensoren intelligenter Geräte zu erstrecken. Auch die wissenschaftlichen Dienste des Deutschen Bundestags stellen fest, dass es bei Big Data nicht um eine einzelne neue Technologie, sondern um ein Bündel neu entwickelter Methoden und Technologien geht, die die Erfassung, Speicherung und Analyse eines großen und beliebig erweiterbaren Volumens unterschiedlich strukturierter Daten ermöglicht [
      • Horvath S.
      Aktueller Begriff-Big Data.
      ].
      Die unter der Überschrift Big Data angekündigten Möglichkeiten der neuen Welt missachten die üblichen Eckpfeiler von Wissenschaftlichkeit fast völlig. Es wird verkündet, dass das Zeitalter der Kausalität vorüber sei und nun nur noch Korrelationen wichtig seien. Auf Theoriebildung könne verzichtet werden, ausreichend Daten sind der Rohstoff und die Methode [

      Mayer-Schönberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think: Houghton Mifflin Harcourt; 2013.

      ]. Schwierigkeiten gibt es nicht, und wenn doch, können sie problemlos durch mehr Daten gelöst werden. Besonders auffällig ist der Kontrast bzgl. des Verzichts auf den Beginn mit einer Fragestellung, wie sie in der Methodik der Evidenzbasierung als PICO-Frage gefordert wird [

      Deutsches Cochrane-Zentrum, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften- Institut für Medizinisches Wissensmanagement, Ärztliches Zentrum für Qualität in der Medizin. „Manual Systematische Literaturrecherche für die Erstellung von Leitlinien“. 1. Auflage 2013. Verfügbar: DCZ: http://www.cochrane.de/de/webliographie-litsuche; AWMF: http://www.awmf.org/leitlinien/awmf-regelwerk/ll-entwicklung.html; ÄZQ: http://www.aezq.de/aezq/publikationen/kooperation. DOI: 10.6094/UNIFR/2013/2, http://www.freidok.uni-freiburg.de/volltexte/9020/.

      ]. Viele der jahrzehntelang diskutierten fundamentalen Fehler werden gegenwärtig mit teils großer Naivität wieder in die Diskussion gebracht. „Beweise“ für das Funktionieren von Big Data erfolgen vor allem anekdotisch [

      Five reasons why anecdotes are totally worthless. Posted to the Blog. http://thelogicofscience.com/2016/02/10/5-reasons-why-anecdotes-are-totally-worthless/.

      ], in Zusammenhang mit der individualisierten Medizin werden wieder Studien am einzelnen Menschen gefordert [
      • Schork N.J.
      Personalized medicine: Time for one-person trials.
      ]. Die Begriffe Qualität und Validierung scheinen tabu zu sein. Eben so wenig werden Unsicherheit, Fehler und notwendige Studiengrößen und die Power von Studien diskutiert, die im Studiengeschehen unverzichtbar sind und als unverzichtbare Qualitätsparameter für Studien gelten.
      Die Radikalität des Bruchs mit Qualitätskriterien von Wissenschaftlichkeit überrascht nicht mehr, wenn man die Herkunft und den Antrieb dieser Entwicklung betrachtet. Es ist vor allem ein Geschäftsmodell, das von den großen Internetfirmen betrieben wird und deswegen auch unter dem Acronym GAFAM (Google, Apple, Facebook, Amazon, Microsoft) kursiert. Entsprechend kompromisslos wird darin gefordert, dass der Besitz der Daten vom Eigentümer auf die Nutzer übergehen müsse. Dass sei kein Anlass zur Sorge, da die Nutzer sicherlich verantwortungsbewusst damit umgingen.
      Für stilgerechte, individualisierte Angebote von Kleidung mag diese Logik akzeptiert werden. Nachdenklich stimmen muss jedoch, mit welcher Kritiklosigkeit auch weite Kreise der Wissenschaft die Versprechungen der Internetkonzerne übernehmen und darauf verzichten, die wissenschaftlichen Qualitätskriterien auch bei den Erfolgsversprechungen von Big Data anzuwenden [
      • Raghupathi W.
      • Raghupathi V.
      Big data analytics in healthcare: promise and potential.
      ]. Insbesondere gilt das für die versprochene Gleichung Korrelation gleich Kausalität. Die Zukunft scheint ein Weg in eine große Suchmaschine für Korrelationen zu sein. Dass das vor allem die Zunahme von falsch Positiven bedeutet, ist eine Erkenntnis schlichter wissenschaftlicher Logik.

      Fazit

      Die Wissenschaft insgesamt und speziell auch die wissenschaftliche Bewertung von Verfahren befinden sich in polarisierter Gegenüberstellung. Auf der einen Seite das intensive Bemühen, die bekannten Schwachstellen im Wissenschaftsprozess durch verstärktes Bemühen um mehr Qualität abzustellen. Das Verständnis der Defizite ist durch die methodische Forschung sehr stark gewachsen und hat zu diversen Forderungen und Gegenmaßnahmen geführt, die jedoch – nüchtern betrachtet – allesamt weit davon entfernt sind, die Situation nachhaltig zu verbessern.
      Auf der anderen Seite gibt es Ansätze unter den Schlagworten Big Data, individualisierte/personalisierte Medizin oder innovative Verfahren, die teils implizit, oft aber auch explizit auf die üblichen Qualitätsforderungen an Forschung und Wissenschaft verzichten.
      Während die um Qualität bemühte Wissenschaft sich gerade auch der Frage nach Kausalität sehr vorsichtig nähert und immer wieder aus wissenschaftstheoretischen und philosophischen Perspektive betrachtet, findet diese Problematisierung bei Big Data nicht statt. Kausalität ist einfach da, die Macht der Daten ist ausreichend. Ob damit der Anspruch an wissenschaftlich valide Kausalitätsbetrachtungen nicht mehr gilt und ob daraus die versprochene goldene Zukunft folgt, wird man in ein paar Jahren beurteilen können [
      • Elliott J.H.
      • Grimshaw J.
      • Altman R.
      • Bero L.
      • Goodman S.N.
      • Henry D.
      • et al.
      Informatics: Make sense of health data.
      ].

      Literatur

        • Armitage P.
        Before and after Bradford Hill: Some trends in medical statistics.
        Journal of the Royal Statistical Society Series A (Statistics in Society). 1995; : 143-153
        • Horton R.
        Common sense and figures: the rhetoric of validity in medicine (Bradford Hill Memorial Lecture 1999).
        Statistics in medicine. 2000; 19: 3149-3164
        • Morabia A.
        A history of epidemiologic methods and concepts.
        Springer Basel AG, Birkhäuser2013
        • Buchberger B.
        • von Elm E.
        • Gartlehner G.
        • Huppertz H.
        • Antes G.
        • Wasem J.
        • et al.
        Bewertung des Risikos für Bias in kontrollierten Studien.
        Bundesgesundheitsblatt-Gesundheitsforschung-Gesundheitsschutz. 2014; 57: 1432-1438
        • Meerpohl J.
        • Langer G.
        • Perleth M.
        • Gartlehner G.
        • Kaminski-Hartenthaler A.
        • Schünemann H.
        GRADE-Leitlinien: 4. Bewertung der Qualität der Evidenz - Studienlimitationen (Risiko für Bias). Zeitschrift für Evidenz.
        Fortbildung und Qualität im Gesundheitswesen. 2012; 106: 457-469
        • Menzies P.
        Counterfactual Theories of Causation.
        in: Zalta E N. The Stanford Encyclopedia of Philosophy. 2014
      1. Pearl J. The Logic of Counterfactuals in Causal Inference (discussion of ‘causal inference without counterfactuals’ by a.p. dawid). 2000.

        • Windeler J.
        External validity.
        Z Evid Fortbild Qual Gesundhwes. 2008; 102: 253-259
      2. Five reasons why anecdotes are totally worthless. Posted to the Blog. http://thelogicofscience.com/2016/02/10/5-reasons-why-anecdotes-are-totally-worthless/.

        • Mallett S.
        • Clarke M.
        The typical Cochrane review. How many trials?. How many participants?.
        Int J Technol Assess Health Care. 2002; 18: 820-823
        • Antes G.
        • Blümle A.
        • Lang B.
        Medizinisches Wissen–Entstehung, Aufbereitung, Nutzung.
        Wissensmanagement in Gesundheitssystemen: Vom Wissen zum Handeln medhochzwei, Heidelberg2014: 29-49
        • Kunz R.
        • Khan K.S.
        • Kleijnen J.
        • Antes G.
        Systematische Übersichtsarbeiten und Meta-Analysen.
        Einführung in Instrumente der evidenzbasierten Medizin für Ärzte, klinische Forscher und Experten im Gesundheitswesen. 2009: 2
        • Töws I.
        • Antes G.
        Wie glaubwürdig ist die Evidenz?.
        Swiss Medical Forum - Schweizerisches Medizin-Forum. 2015; 15 (www.medicalforum.ch/docs/smf/2015/38/de/smf-02405.pdf): 832-839
      3. What works? Clinical effectiveness. http://www.ncbi.nlm.nih.gov/pubmedhealth.

      4. The Norwegian Knowledge Centre for the Health Services. http://www.kunnskapssenteret.no/en/frontpage.

        • Haynes R.B.
        • Cotoi C.
        • Holland J.
        • Walters L.
        • Wilczynski N.
        • Jedraszewski D.
        • et al.
        Second-order peer review of the medical literature for clinical practitioners.
        JAMA. 2006; 295: 1801-1808
        • Haynes R.B.
        • Holland J.
        • Cotoi C.
        • McKinlay R.J.
        • Wilczynski N.L.
        • Walters L.A.
        • et al.
        McMaster PLUS: a cluster randomized clinical trial of an intervention to accelerate clinical use of evidence-based information from digital libraries.
        J Am Med Inform Assoc. 2006; 13: 593-600
        • Straus S.E.
        • Richardson W.S.
        • Glasziou P.
        • Haynes R.B.
        Acquiring the Evidence: How to find current best evidence and have current best evidence find us.
        Evidence-based medicine: how to practice and teach EBM. 4th ed. Elsevier, London2011
        • Stewart L.A.
        • Tierney J.F.
        To IPD or not to IPD?.: Advantages and Disadvantages of Systematic Reviews Using Individual Patient Data.
        Evaluation & the Health Professions. 2002; 25: 76-97
        • Blettner M.
        • Sauerbrei W.
        • Schlehofer B.
        • Scheuchenpflug T.
        • Friedenreich C.
        Traditional reviews, meta-analyses and pooled analyses in epidemiology.
        Int J Epidemiol. 1999; 28: 1-9
        • Robinson K.A.
        • Chou R.
        • Berkman N.D.
        • Newberry S.J.
        • Fu R.
        • Hartling L.
        • et al.
        AHRQ Methods for Effective Health Care. Integrating Bodies of Evidence: Existing Systematic Reviews and Primary Studies.
        Methods Guide for Effectiveness and Comparative Effectiveness Reviews. Agency for Healthcare Research and Quality (US), Rockville (MD)2008
        • Horvath S.
        Aktueller Begriff-Big Data.
        Wissenschaftliche Dienste des Deutschen Bundestages. 2013; 37: 13
      5. Mayer-Schönberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think: Houghton Mifflin Harcourt; 2013.

      6. Deutsches Cochrane-Zentrum, Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften- Institut für Medizinisches Wissensmanagement, Ärztliches Zentrum für Qualität in der Medizin. „Manual Systematische Literaturrecherche für die Erstellung von Leitlinien“. 1. Auflage 2013. Verfügbar: DCZ: http://www.cochrane.de/de/webliographie-litsuche; AWMF: http://www.awmf.org/leitlinien/awmf-regelwerk/ll-entwicklung.html; ÄZQ: http://www.aezq.de/aezq/publikationen/kooperation. DOI: 10.6094/UNIFR/2013/2, http://www.freidok.uni-freiburg.de/volltexte/9020/.

        • Schork N.J.
        Personalized medicine: Time for one-person trials.
        Nature. 2015; 520: 609-611
        • Raghupathi W.
        • Raghupathi V.
        Big data analytics in healthcare: promise and potential.
        Health Inf Sci Syst. 2014; 2: 3
        • Elliott J.H.
        • Grimshaw J.
        • Altman R.
        • Bero L.
        • Goodman S.N.
        • Henry D.
        • et al.
        Informatics: Make sense of health data.
        Nature. 2015; 527: 31-32