If you don't remember your password, you can reset it by entering your email address and clicking the Reset Password button. You will then receive an email that contains a secure link for resetting your password
If the address matches a valid account an email will be sent to __email__ with instructions for resetting your password
Korrespondenzadresse: PD Dr. med. Stefan Lange, Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), Im Mediapark 8, 50670 Köln, Deutschland
Until May 31, 2015 the German Institute for Quality and Efficiency in Health Care (IQWiG) conducted 108 assessments for various diseases on the basis of 103 dossiers within the scope of the early benefit assessment of drugs pursuant to the Act on the Reform of the Market for Medicinal Products (AMNOG). 29 of these assessments (28 dossiers) referred to advanced stages of oncologic (including neoplastic-hematologic) diseases. In 21 of these 29 assessments (72 %), IQWiG found an added benefit for at least one subpopulation or subgroup, compared to 33 % with non-oncologic diseases. For oncologic diseases, the extent of benefit was classified as “major” in six assessments (21 %), compared to 5 % for non-oncologic disorders. In contrast, the conclusions of the oncologic studies were less certain: only one assessment provided proof (of an added benefit); for non-oncologic diseases, this was the case in eight assessments. A distinctive methodological feature of the available oncologic studies is that, as a rule, treatment switching was planned in the event of progression (normally on the basis of imaging or laboratory findings) and that shortly afterwards the follow-up of important endpoints (adverse events and patient-reported outcomes) was normally discontinued. In particular, the pre-specified option in the study protocol allowing the control group to switch treatment to the experimental intervention after progression (“protocol-permitted treatment switches”) makes it extremely difficult to interpret the results beyond the outcome “progression” (or progression-free survival). This treatment switching is mostly justified by reference to ethical necessity. This, however, alleges that the experimental intervention (i. e., the new drug) is superior to the control intervention, which means that circular reasoning is unavoidable. But despite this, oncologic studies are better than their reputation. Hence, so far the results of the early benefit assessment of new drugs (regarding the existence and extent of an added benefit) are clearly better than expected. In this context, the IQWiG methods have not been shown to be extremely conservative. On the contrary: in all cases where IQWiG rated the extent of benefit as “major” for the oncologic indications, the Federal Joint Committee (G-BA) has so far not shared this assessment, and instead rated the extent of benefit to be smaller.
Zusammenfassung
Bis zum 31.05.2015 wurden 108 Bewertungen für unterschiedliche Erkrankungen auf Basis von 103 Dossiers vom IQWiG (Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen) im Rahmen der frühen Nutzenbewertung von Arzneimitteln nach dem Arzneimittelmarktneuordnungsgesetz (AMNOG) durchgeführt. Davon entfielen 29 Bewertungen (28 Dossiers) auf onkologische (einschließlich neoplastisch-hämatologische) Erkrankungen. Alle Dossiers zu den onkologischen Indikationen bezogen sich auf fortgeschrittene Krebserkrankungen. In 21 dieser 29 Bewertungen (72 %) wurde mindestens für eine Teilpopulation oder eine Subgruppe ein Zusatznutzen durch das IQWiG attestiert. Bei den nicht-onkologischen Indikationen war dies lediglich bei 33 % der Fall. Bei den onkologischen Erkrankungen wurde sechsmal ein erhebliches Ausmaß konstatiert (21 %), bei den nicht-onkologischen Erkrankungen in nur 5 %. Dagegen war die Aussagesicherheit der Studien in den onkologischen Indikationen schwächer: Nur bei einer Bewertung resultierte ein Beleg (für einen Zusatznutzen), bei den nicht-onkologischen Indikationen traf das immerhin achtmal zu. Eine methodische Besonderheit der vorliegenden Studien in den onkologischen Indikationen besteht in dem regelhaft vorgesehenen Behandlungswechsel bei Progression (in der Regel auf Basis von Bildgebung oder Laborwerten) und dem in der Regel nach kurzer Zeit darauf folgenden Abbruch der Beobachtung wichtiger Endpunkte (unerwünschte Ereignisse und Patienten-berichtete Endpunkte). Insbesondere das bereits im Studienprotokoll von Anfang an angelegte Einräumen der Möglichkeit eines Wechsels nach Progression in der Kontrollgruppe auf die zu prüfende Intervention („erlaubter“ Behandlungswechsel) erschwert die Interpretation jenseits des Endpunkts „Progression“ (bzw. progressionsfreies Überleben) vollends. Dies wird zumeist mit einem Hinweis auf ethische Notwendigkeiten begründet. Da dabei allerdings unterstellt wird, dass die zu prüfende Intervention, das neue Arzneimittel also, der Kontrollbehandlung überlegen sei, muss das zu einem argumentativen Zirkelschluss führen. Davon unberührt zeigt sich in der Gesamtschau, dass die onkologischen Studien besser als ihr Ruf und damit die Ergebnisse bei der frühen Nutzenbewertung (was das Vorliegen und das Ausmaß eines Zusatznutzens angeht) bisher deutlich besser ausgefallen sind als erwartet. Dabei erweist sich die IQWiG-Methodik nicht als hyper-konservativ. Im Gegenteil: In allen Fällen, bei denen das IQWiG in den onkologischen Indikationen das Ausmaß „erheblich“ vergeben hat, ist der Gemeinsame Bundesausschuss bislang dieser Bewertung nicht gefolgt, sondern hat das Ausmaß schwächer eingestuft.
Vor nunmehr fast 4½ Jahren trat das „Gesetz zur Neuordnung des Arzneimittelmarktes in der gesetzlichen Krankenversicherung“ (kurz: Arzneimittelmarktneuordnungsgesetz, oder noch kürzer: AMNOG) in Kraft. Damals herrschten zunächst Zurückhaltung und große Skepsis, im Besonderen aufseiten der pharmazeutischen Industrie, ob denn die in dem Gesetz verankerte sogenannte frühe Nutzenbewertung von Arzneimitteln realistisch sei und zu vernünftigen Ergebnissen führen könnte. So wurde bezweifelt, dass Qualität mit dem neuen Verfahren wirklich zu ermitteln sei, es handele sich um „nur eine Notlösung“, die Nutzenbewertung fuße lediglich auf der Basis erster Studien und Prognosen. Das sei „so aussagekräftig wie die Zehn-Kilometer-Zwischenzeit beim Marathon“ [
]. Interessanter Weise gibt es beim Marathon – wie bei anderen Ausdauerleistungen auch – eine nahezu perfekte Korrelation zwischen der gelaufenen Zeit und der zurückgelegten Wegstrecke [
], sodass die geäußerte Befürchtung eigentlich hoffnungsfroh hinsichtlich der Aussagekraft hätte stimmen müssen. Andererseits deuteten zahlreiche Untersuchungen darauf hin, dass bei lediglich 10 % bis maximal knapp 40 % der neuen Arzneimittel mit einem tatsächlichen Vorteil gegenüber etablierten Standardtherapien zu rechnen sei [
Relative efficacy and effectiveness assessment of new pharmaceuticals in three EU member states: current practices and outcome agreement between Belgium, the Netherlands and France.
Inzwischen hat das IQWiG (Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen) mehr als 100 Bewertungen innerhalb des gesetzlichen Rahmens des AMNOG („Dossierbewertungen“) abgeschlossen und dem Gemeinsamen Bundesausschuss (G-BA), bei dem die frühe Nutzenbewertung angesiedelt ist, übermittelt. Erste Erfahrungsberichte und Bilanzierungen wurden unternommen, erst jüngst vorgestellt von der Deutschen Gesellschaft für Hämatologie und Onkologie (DGHO) in Zusammenarbeit mit anderen wissenschaftlichen medizinischen Fachgesellschaften. Deren Bilanz fiel zurückhaltend positiv aus: Die frühe Nutzenbewertung habe sich als Bestandteil des deutschen Gesundheitssystems etabliert, über das Ziel von Einsparungen bei den Arzneimittelausgaben hinaus könne sie zusätzliche Transparenz zum Nutzen-Risiko-Verhältnis neuer Medikamente bewirken. Es seien Stärken und Schwächen des Verfahrens erkennbar, zu dessen Weiterentwicklung ein intensiver Diskurs notwendig sei [
Deutsche Gesellschaft für Hämatologie und Onkologie. Frühe Nutzenbewertung neuer Arzneimittel in Deutschland 2011–2014. 6. Band der Gesundheitspolitischen Schriftenreihe der DGHO [online]. 01.04.2015 [Zugriff: 14.06.2015]. URL: http://www.dgho.de/informationen/gesundheitspolitische-schriftenreihe/band-6.
Auch wenn das Verfahren der frühen Nutzenbewertung weithin bekannt sein sollte, erscheint es dennoch sinnvoll und angezeigt, ein paar grundsätzliche Eckpunkte darzulegen, weil es doch immer wieder zu Missverständnissen kommt:
-
Die frühe Nutzenbewertung basiert auf einem Dossier des pharmazeutischen Herstellers, das dieser zum Zeitpunkt des Markteintritts des Arzneimittels mit neuem Wirkstoff (bzw. spätestens 4 Wochen nach Zulassung eines neuen Anwendungsgebiets eines ab 2011 zugelassenen Arzneimittels) dem G-BA zu übermitteln hat. Die Beweislast liegt also beim Hersteller, der G-BA hat keine Amtsermittlungspflicht. Der Hersteller kann sich zuvor durch den G-BA beraten lassen, insbesondere zu den vorzulegenden Unterlagen und Studien sowie zur zweckmäßigen Vergleichstherapie. In der Regel bilden die vom Hersteller durchgeführten Zulassungsstudien der Phase 3 die Grundlage des Dossiers, vor allem aber der nachfolgenden Bewertung.
-
Bei der frühen Nutzenbewertung wird – entgegen der Bezeichnung – nicht der Nutzen (und schon gar nicht die Wirksamkeit) eines Arzneimittels (gegenüber einer alleinigen Placebo-Behandlung bzw. gegenüber einem „Nichtstun“), sondern der Zusatznutzen gegenüber dem Therapiestandard in Deutschland, der zweckmäßigen Vergleichstherapie, bewertet.
-
Der Begriff „Nutzen“ wird in der Arzneimittel-Nutzenbewertungsverordnung (AM-NutzenV) in §2 Abs. 3 recht eindeutig definiert als patientenrelevanter therapeutischer Effekt insbesondere hinsichtlich der Verbesserung des Gesundheitszustands, der Verkürzung der Krankheitsdauer, der Verlängerung des Überlebens, der Verringerung von Nebenwirkungen oder einer Verbesserung der Lebensqualität [
Verordnung über die Nutzenbewertung von Arzneimitteln nach § 35a Absatz 1 SGB V für Erstattungsvereinbarungen nach § 130b SGB V (Arzneimittel-Nutzenbewertungsverordnung - AM-NutzenV). Bundesgesetzblatt 2010; Teil I(68): 2324–2328.
]. Es sollen also – kurzgefasst – (patientenrelevante) Aspekte von Mortalität, Morbidität oder Lebensqualität erfasst werden. Die Verwendung des Begriffs „Effekt“ impliziert einen kausalen Zusammenhang. Grundsätzlich können auch Effekte auf Surrogate und indirekte Vergleiche für die frühe Nutzenbewertung herangezogen werden, solange daraus Schlussfolgerungen auf Effekte auf patientenrelevante Endpunkte abgeleitet werden können.
-
Bei der Festlegung der zweckmäßigen Vergleichstherapie durch den G-BA existiert – entgegen manch anderslautender Behauptungen – wenig Spielraum, da Maßstäbe heranzuziehen sind, die sich aus den internationalen Standards der evidenzbasierten Medizin ergeben und vorzugsweise Therapien zu wählen sind, für die Endpunktstudien vorliegen und die sich in der praktischen Anwendung bewährt haben [
Verordnung über die Nutzenbewertung von Arzneimitteln nach § 35a Absatz 1 SGB V für Erstattungsvereinbarungen nach § 130b SGB V (Arzneimittel-Nutzenbewertungsverordnung - AM-NutzenV). Bundesgesetzblatt 2010; Teil I(68): 2324–2328.
]. Darüber hinaus muss bei Arzneimitteln als zweckmäßiger Vergleichstherapie grundsätzlich eine Zulassung für das Anwendungsgebiet bestehen, bei einer nichtmedikamentösen Behandlung muss diese im Rahmen der gesetzlichen Krankenversicherung erbringbar sein [
]. Wirtschaftlichkeitsaspekte dürfen bei dieser Festlegung nach einer Gesetzesänderung im Jahr 2013 keine Rolle (mehr) spielen, d. h. bei Vorliegen mehrerer gleichwertiger Alternativen kann sich der Hersteller eine aussuchen [
Bei der frühen Nutzenbewertung soll sowohl dargelegt und geprüft werden, mit welcher Wahrscheinlichkeit als auch in welchem Ausmaß ein Zusatznutzen vorliegt. Für das Ausmaß werden in der Arzneimittel-Nutzenbewertungsverordnung 6 Kategorien vorgegeben und mit Beispielen versehen: erheblicher, beträchtlicher oder geringer Zusatznutzen, nicht quantifizierbarer Zusatznutzen, kein Zusatznutzen belegt, geringerer Nutzen (Tabelle 1). Bemerkenswert ist, dass es für einen geringen Zusatznutzen mehr als nur einer geringfügigen Verbesserung des therapierelevanten Nutzens bedarf. Vorgaben für die „Wahrscheinlichkeit“ (des Vorliegens eines Zusatznutzens) werden in der Verordnung nicht gemacht, hier hat sich allerdings eine 3-stufige Bewertung etabliert: Anhaltspunkt, Hinweis und Beleg (in aufsteigender Reihenfolge der Stärke der Aussage). Für die Feststellung „kein Zusatznutzen belegt“ wird keine Wahrscheinlichkeitsaussage getroffen, sodass insgesamt 16 Kombinationsmöglichkeiten aus Ausmaß und Wahrscheinlichkeit resultieren. Dabei offenbart sich eine sprachliche Unschärfe: Anstelle von „kein Zusatznutzen belegt“ müsste es eigentlich präziser „kein Anhaltspunkt für einen Zusatznutzen“ heißen, da der nicht vorhandene Beleg im Grundsatz schwächere Wahrscheinlichkeitsaussagen nicht ausschließt. Es sollte darüber hinaus betont werden, dass sich das Ausmaß „nicht quantifizierbar“ nicht in die Rangfolge der Kategorien einordnen lässt, insbesondere ist es nicht schwächer als die Kategorie „gering“.
Tabelle 1Ausmaß des Zusatznutzens gemäß AM-NutzenV (§ 5 Abs. 7).
Ausmaßkategorie
Beschreibung gemäß AM-NutzenV (§ 5 Abs. 7)
Erheblicher Zusatznutzen
Nachhaltige und gegenüber der zweckmäßigen Vergleichstherapie bisher nicht erreichte große Verbesserung des therapierelevanten Nutzens …, insbesondere eine Heilung der Erkrankung, eine erhebliche Verlängerung der Überlebensdauer, eine langfristige Freiheit von schwerwiegenden Symptomen oder die weitgehende Vermeidung schwerwiegender Nebenwirkungen
Beträchtlicher Zusatznutzen
Eine gegenüber der zweckmäßigen Vergleichstherapie bisher nicht erreichte deutliche Verbesserung des therapierelevanten Nutzens …, insbesondere eine Abschwächung schwerwiegender Symptome, eine moderate Verlängerung der Lebensdauer, eine für die Patientinnen und Patienten spürbare Linderung der Erkrankung, eine relevante Vermeidung schwerwiegender Nebenwirkungen oder eine bedeutsame Vermeidung anderer Nebenwirkungen
Geringer Zusatznutzen
Eine gegenüber der zweckmäßigen Vergleichstherapie bisher nicht erreichte moderate und nicht nur geringfügige Verbesserung des therapierelevanten Nutzens, insbesondere eine Verringerung von nicht schwerwiegenden Symptomen der Erkrankung oder eine relevante Vermeidung von Nebenwirkungen
: Für diese Ausmaßkategorie wird keine Wahrscheinlichkeitsaussage getroffen.
Es ist kein Zusatznutzen belegt
Geringerer Nutzen
Der Nutzen des zu bewertenden Arzneimittels ist geringer als der Nutzen der zweckmäßigen Vergleichstherapie
a : Die Position entspricht nicht einer Rangierung; „nicht quantifizierbar“ kann grundsätzlich alle Ausmaßkategorien von gering bis erheblich umfassen.
b : Für diese Ausmaßkategorie wird keine Wahrscheinlichkeitsaussage getroffen.
Für die Bestimmung des Ausmaßes des Zusatznutzens hat das IQWiG ausgehend von der AM-NutzenV eine Operationalisierung für seine Bewertungen entwickelt, da bis dato keine entsprechenden Vorschläge bzw. Übereinkünfte in der Literatur verfügbar waren [
]. Dabei wurden in Abhängigkeit von der Schwere der zu betrachtenden Endpunkte und der Ausmaßkategorie Schwellenwerte für (pessimistische) Konfidenzgrenzen von Effektschätzungen festgelegt, die unterschritten werden müssen. Der G-BA folgt dieser Operationalisierung explizit nicht, sondern entscheidet von Fall zu Fall auf Grundlage der Ausführungen in der AM-NutzenV. Die Wahrscheinlichkeitsaussagen in den IQWiG-Bewertungen basieren im Wesentlichen auf Analysen zum endpunktspezifischen Verzerrungspotenzial. Aus einer Einzel-Studie können in der Regel maximal Hinweise abgeleitet werden [
Onkologische Indikationen bei der frühen Nutzenbewertung
Bis zum Stichtag 31.05.2015 wurden 28 Dossiers zu onkologischen (einschließlich neoplastisch-hämatologischen) Erkrankungen beim IQWiG einer Bewertung unterzogen. In einem Dossier (zum Wirkstoff Idealisib) wurden 2 Erkrankungen adressiert, sodass im Prinzip 29 Bewertungen resultieren. Dossiers zu sogenannten Orphan Drugs mit einem jährlichen Umsatzvolumen von weniger als 50 Mio. € werden vom IQWiG nicht bewertet, da bei ihnen der Zusatznutzen qua Gesetz als belegt gilt.
In 10 Fällen wurden zu den (28) Dossiers (36 %) zusätzliche Auswertungen oder Daten eingereicht, die vom IQWiG in einem Addendum ergänzend bewertet wurden. Dies führte viermal zu einer Änderung des Bewertungsergebnisses. Die hier vorgestellten und diskutierten Ergebnisse beziehen diese ergänzenden Bewertungen mit ein. Bei den nicht-onkologischen Erkrankungen wurde in 25 % (19 von 75 Dossiers) ein Addendum vom G-BA beauftragt, wobei sich ebenfalls viermal das Bewertungsergebnis änderte.
Unter den 28 Dossiers befinden sich 2, bei denen eine erneute Bewertung des gleichen Arzneimittels in der gleichen Indikation erfolgte, einmal aufgrund einer Befristung des ursprünglichen Beschlusses durch den G-BA (Vemurafenib), das andere Mal auf Antrag des Herstellers bei initial (inhaltlich) nicht vollständig eingereichten Unterlagen (Vandetanib). In beiden Fällen beruhte die erneute Bewertung auf der jeweils gleichen Studie, sodass 26 Dossiers mit unterschiedlichen Studien verbleiben. Insgesamt wurden 22 verschiedene Arzneimittel bewertet, da in 4 Dossiers Zulassungserweiterungen Gegenstand der Bewertung waren (einmal in Kombination mit einer Befristung des Beschlusses zur ersten Bewertung [Eribulin]).
Zunächst fällt auf, dass sich alle Dossiers auf fortgeschrittene Stadien der Krebserkrankung beziehen, umgekehrt also kein einziges Arzneimittel mit einem neuen Wirkstoff (und ohne Orphan Drug Designation) seit 2011, immerhin in einem Zeitraum von gut 4 Jahren, für eine adjuvante oder neoadjuvante Therapie bzw. eine vergleichbare Therapiesituation zugelassen wurde (Tabelle 2). In den Tabellen und im weiteren Text erfolgt eine Referenzierung anhand der IQWiG-Projektnummern (nach denen ggf. auch auf den IQWiG-Internetseiten recherchiert werden kann).
Tabelle 2Übersicht über die Bewertungen (Anwendungsgebiete).
Projekt
Wirkstoff
Anwendungsgebiet (Erkrankung)
A15-01
Nintedanib
Lokal fortgeschrittenes oder metastasiertes nicht-kleinzelliges Adenokarzinom der Lunge
Nur in 8 von 29 Bewertungen (7 von 28 Dossiers) wurde weder für eine Teilpopulation noch für eine Subgruppe ein Zusatznutzen durch das IQWiG attestiert, das entspricht 28 % (25 % auf Basis von Dossiers, Tabelle 3). Das ist ein bemerkenswerter Unterschied zu den 79 Bewertungen (75 Dossiers) im gleichen Zeitraum zu nicht-onkologischen Indikationen, bei denen in 53 (67 %) bzw. 48 (64 %, auf Basis von Dossiers) Fällen kein Zusatznutzen festgestellt werden konnte.
Tabelle 3Ausmaß des Zusatznutzens (in mindestens einer Teilpopulation bzw. Subgruppe) und Wahrscheinlichkeit.
: kein Zusatznutzen, da keine getrennten Daten für unerwünschte Ereignisse für interessierende Teilpopulation vorlagen und damit keine Möglichkeit der Abwägung.
-
A11-24
Cabazitaxel
beträchtlich
Hinweis
A11-20
Abirateron
beträchtlich
Hinweis
ZE: Zulassungserweiterung.
a : und nach Befristung.
b : nach Befristung.
c : nach Antrag durch Hersteller.
d : kein Zusatznutzen, da keine getrennten Daten für unerwünschte Ereignisse für interessierende Teilpopulation vorlagen und damit keine Möglichkeit der Abwägung.
Ergebnisse zum Zusatznutzen bei den onkologischen Indikationen
Unter den 8 Bewertungen ohne Zusatznutzen befanden sich 6 ohne geeignete Daten bzw. Vergleiche für die Nutzenbewertung, entweder aufgrund des Studiendesigns (2 Fälle, jeweils einarmige Studien: Vismodegib [A13-27] und Ipilimumab [Zulassungserweiterung, A13-44]), wegen nicht zulassungsgemäßer Anwendung von Arzneimitteln in der Kontrollgruppe bzw. nicht sachgerechter Umsetzung der zweckmäßigen Vergleichstherapie (Pixantron [A12-17] und die beiden Bewertungen innerhalb eines Dossiers zu Idealisib [A14-35]) oder wegen inhaltlicher Unvollständigkeit (Erstbewertung von Vandetanib [A12-09]). Bei der Bewertung von Eribulin zur ersten Indikation [A11-26] wurden im Dossier die Daten zu unerwünschten Ereignissen nicht getrennt für die für die Bewertung relevante Teilpopulation ausgewiesen, sodass letztlich keine Abwägung erfolgen und damit in der Gesamtschau kein Zusatznutzen attestiert werden konnte. Somit verbleibt lediglich eine Bewertung, in der die vorgelegten und im Prinzip geeigneten Daten keine überzeugenden Erkenntnisse für einen tatsächlichen Zusatznutzen boten (Dabrafenib [A13-35]).
Für fast alle Bewertungen standen in den Dossiers Daten aus RCTs zur Verfügung (Tabelle 4). In lediglich 2 Fällen wurden nur einarmige Studien vorgelegt. Dies betraf Vismodegib zur Behandlung des metastasierten oder lokal fortgeschrittenen Basalzellkarzinoms [A13-27] sowie die Zulassungserweiterung von Ipilimumab zur Erstlinientherapie bei nicht resezierbarem oder metastasiertem malignem Melanom [A13-44]. In Ausnahmefällen lässt sich zwar auch aus einarmigen Studien ein Zusatznutzen ableiten, nämlich dann, wenn die Ergebnisse so große („dramatische“) Unterschiede zum bisher bekannten („natürlichen“) Verlauf aus historischen Kontrollen aufweisen, dass diese Unterschiede mit großer Wahrscheinlichkeit nicht mehr allein auf einer Verzerrung beruhen können [
]. Im Fall von Vismodegib hatte der Hersteller allerdings im Dossier überhaupt keine Vergleichsdaten präsentiert, und bei der Zulassungserweiterung von Ipilimumab war der angestellte Vergleich aufgrund methodischer Unsicherheiten nicht interpretierbar.
Von den 24 Dossiers mit RCTs als (wesentlicher) Grundlage der Bewertung und ohne erneute Bewertung auf Basis der gleichen Studie beruhte diese in 22 Fällen auf nur einer pivotalen Studie, in einem Dossier auf 2 und in einem weiteren Dossier auf 3 RCTs (Tabelle 4). Die Patientenzahlen in den insgesamt 27 RCTs schwankten zwischen minimal 140 und maximal 1717 (im Median 755), wobei in einigen Fällen nur die Ergebnisse eines Teils der eingeschlossenen Patienten für die Bewertung herangezogen werden konnten (Median der Anzahl geeigneter Patienten: 605). Davon ausgehend, dass für den Nachweis eines Effekts eine Replikation oder zumindest eine genügend große Studie (die eine ausreichend sichere Konsistenzprüfung ermöglicht) erforderlich ist, verwundert es nicht, dass bei nur einer Bewertung die höchste Wahrscheinlichkeitskategorie für den Zusatznutzen, nämlich ein Beleg, vergeben wurde (Eribulin, Zulassungserweiterung und nach Befristung [A14-25], s. Tabelle 2). Das kontrastiert zu den nicht-onkologischen Erkrankungen, bei denen sich immerhin achtmal ein Beleg für einen Zusatznutzen ergab. Ein umgekehrtes Bild zeigt sich beim Ausmaß: Bei den onkologischen Erkrankungen wurde 6mal ein erhebliches Ausmaß konstatiert (21 % aller 29 Bewertungen), bei den nicht-onkologischen Erkrankungen in nur 5 % (4 von 79 Bewertungen). In den 6 Fällen mit erheblichem Ausmaß beruhte dies 5mal im Wesentlichen (aber zumeist nicht ausschließlich) auf einer Verlängerung des Gesamtüberlebens; bei Trastuzumab-Emtansin [A14-01] waren für das erhebliche Ausmaß Vorteile bei einzelnen unerwünschten Ereignissen (Diarrhö und Hand-Fuß-Syndrom) höheren Schweregrades maßgeblich, wenngleich auch hier eine Verbesserung des Gesamtüberlebens (Ausmaß: beträchtlich) konstatiert wurde.
Von den 27 RCTs wurden 11 (41 %) offen durchgeführt, was die Ergebnissicherheit für eine Reihe von Endpunkten bei den entsprechenden Bewertungen ebenfalls einschränkt. Die Studien mit doppel-blindem Design waren zumeist Placebo-kontrolliert, wobei dann häufig eine sogenannte Best Supportive Care (BSC) als Sockeltherapie in beiden Gruppen beschrieben wurde. Umgekehrt war die Vergleichstherapie bei den offenen Studien in der Regel aktiv kontrolliert.
In 15 RCTs (56 %) war das Gesamtüberleben als primärer Endpunkt definiert, ggf. gemeinsam mit dem progressionsfreien Überleben (PFS), in den restlichen 12 Studien zehnmal das PFS (auf Basis von Bildgebung oder Laborwerten) und zweimal das Ansprechen (Tabelle 4). Darüber hinaus wurden in nahezu allen Studien Daten zu Symptomen der Grunderkrankung oder zu der gesundheitsbezogenen Lebensqualität, zusammen (neben anderen) auch als Patient Reported Outcomes (PRO) bezeichnet [
Tabelle 5 stellt die Ergebnisse zum Zusatznutzen auf Endpunktebene für alle Bewertungen mit geeigneten Studien als Grundlage (und ohne die erneute Vemurafenib-Bewertung) dar. Dabei zeigt sich, dass in nur 4 der 22 Bewertungen kein Zusatznutzen für das Gesamtüberleben festgestellt wurde. Bei den verbleibenden 18 Bewertungen mit Zusatznutzen war das Ausmaß achtmal erheblich, fünfmal beträchtlich, zweimal gering und dreimal nicht quantifizierbar. Bei den Fällen mit erheblichem Zusatznutzen bzgl. des Gesamtüberlebens wurde in den Studien eine Mortalitätsreduktion im Beobachtungszeitraum von 33 % bis 45 % beobachtet. Darüber hinaus konnte in genau der Hälfte der Fälle für einen patientenberichteten Endpunkt (PRO) ein Zusatznutzen attestiert werden.
Tabelle 5Zusatznutzen auf Endpunktebene (maximal); nur Bewertungen mit geeigneten Studien.
: ohne Idealisib (A14-35a, A14-35b), Ipilimumab (ZE, A13-44), Vismodegib (A13-37) und Pixantron (A12-27). Für Vemurafenib nur Erstbewertung, für Vandetanib nur erneute Bewertung. Somit 7 Bewertungen nicht berücksichtigt.
HR: Hazard Ratio. o-KI-95%: obere Grenze des 95%-Konfidenzintervalls. nq: nicht quantifizierbar. OS: Overall Survival. ZE: Zulassungserweiterung. ZN: Zusatznutzen.
a : ohne Idealisib (A14-35a, A14-35b), Ipilimumab (ZE, A13-44), Vismodegib (A13-37) und Pixantron (A12-27). Für Vemurafenib nur Erstbewertung, für Vandetanib nur erneute Bewertung. Somit 7 Bewertungen nicht berücksichtigt.
b : und nach Befristung.
c : nach Antrag durch Hersteller.
d : Schätzer nicht interpretierbar.
e : kein eindeutiger Schätzer.
f : Schätzer aus dem 3. Datenschnitt (ohne Zensierung nach Cross-over von Kontrollgruppe nach Vemurafenib) – HR aus 1. Datenschnitt: 0,37 (0,55).
g : Ergebnis 2er Studienarme ohne Möglichkeit des Poolens (o-KI-95 jedoch sicher < 0,85).
h : in Subgruppen aber auch überwiegend Nachteile.
i : Zusatznutzen allein aufgrund von Vorteilen bei unerwünschten Ereignissen.
Methodische Besonderheiten bei den Studien zu den onkologischen Indikationen
Bei nahezu allen Studien wurde die Behandlung mit den zu prüfenden Therapien bzw. der Kontrollbehandlung nur bis zu einem Progress der Grunderkrankung fortgeführt (daneben ist der Abbruch einer Studienbehandlung selbstverständlich auch aufgrund des Auftretens von unerwünschten Ereignissen oder auch auf Wunsch der Patienten möglich). Die Progression wurde dabei in der Regel anhand von bildgebenden Verfahren oder Laborparametern festgestellt. Danach konnte sich bei den betroffenen Patienten eine Postprogressionstherapie anschließen. Dabei wurde regelhaft die Beobachtung zu unerwünschten Ereignissen und zu PROs über einen nur noch sehr begrenzten Zeitraum (zumeist 4 Wochen) fortgeführt. Dies ist bei Zulassungsstudien ein durchaus übliches Vorgehen und hat auch eine gewisse Rationale, da durch die Postprogressionstherapie mögliche Unterschiede zwischen den Gruppen verwässert, ggf. aber auch akzentuiert werden können. Eventuelle Unterschiede oder das Ausbleiben von Unterschieden können dann nicht mehr unmittelbar dem zu prüfenden Arzneimittel zugeordnet werden. Die Studie wird also im Verlauf zunehmend zu einem Vergleich von Strategien: Einerseits eine Strategie, bei der in einer Sequenz von Therapieoptionen mit dem zu prüfenden Arzneimittel begonnen wird; andererseits die Strategie, mit der Kontrollbehandlung zu beginnen. Für den Endpunkt, der zum Wechsel der Behandlung führt, hier also das progressionsfreie Überleben, kann dagegen der Effekt unverzerrt geschätzt und auf das zu prüfende Arzneimittel unmittelbar bezogen werden.
Wenn, wie in den bisher bei der frühen Nutzenbewertung untersuchten Indikationen, eine fortgeschrittene Krebserkrankung betrachtet wird, hat das jedoch zur Folge, dass bei den meisten Patienten bereits nach kurzer Zeit (wenige Wochen bis Monate) eine Progression eintritt und dabei die Beobachtungszeit für die unerwünschten Ereignisse und zu PROs ebenfalls vergleichsweise kurz ist. Nutzenbewertung und in einem weiteren Sinne Health Technology Assessment (HTA) sind aber vorwiegend an mittel- und langfristigen Auswirkungen der Anwendung einer medizinischen Intervention interessiert und dabei auch eher als Strategie, d.h. als Einbettung einer neuen Intervention in das bereits existierende Versorgungsgeschehen. Insofern ist der oben beschriebene Verzerrungsmechanismus aufgrund einer Postprogressionstherapie für die Nutzenbewertung nur bedingt als interpretatorisches Problem zu sehen, und zwar im Wesentlichen nur dann, wenn es in einem größeren Ausmaß zu einem Behandlungswechsel in der Kontrollgruppe auf die neue Intervention kommt (s.u.).
Methodisch und interpretatorisch schwierig wird die Situation zusätzlich, wenn die mediane Beobachtungszeit für diese Endpunkte zwischen den Gruppen (deutlich) unterschiedlich ist. Dies ist der Fall, wenn das zu prüfende Arzneimittel einen mehr oder weniger markanten Effekt auf das progressionsfreie Überleben hat. Denn dann ist auch die Zeit „unter Risiko“, z. B. ein unerwünschtes (aber ggf. auch ein wünschenswertes) Ereignis zu erleiden (bzw. zu erleben) für die Gruppen unterschiedlich. Das ist insbesondere dann ein Problem, wenn die beobachteten Ereignisse im Einzelfall nicht klar ursächlich auf das Arzneimittel bezogen werden können. Das ist aber häufig der Fall, weil z. B. unerwünschte Ereignisse auch dem „normalen“ (Lebens-)Risiko zuzuordnen sind oder weil diese Ereignisse auch Ausdruck der Grunderkrankung sein oder ggf. auch auf Begleitmedikationen zurückgeführt werden können („Hintergrundrauschen“). Das ist der Grund, warum in klinischen Studien eben zumeist nicht von Nebenwirkungen, sondern von unerwünschten Ereignissen die Rede ist.
Bislang war es Usus, das Auftreten von unerwünschten Ereignissen statistisch mithilfe von simplen Auftretenshäufigkeiten pro Gruppe innerhalb des Beobachtungszeitraums darzustellen und auszuwerten. Wenn jedoch die Beobachtungszeiten unterschiedlich sind, ist ein solches Vorgehen methodisch nicht mehr adäquat, und es kann zu einem unfairen Vergleich führen. Vom IQWiG wurde diese Problematik erstmals bei der Nutzenbewertung zu Axitinib [A12-14] adressiert und seitdem bei mehreren Veranstaltungen im Rahmen von Vorträgen thematisiert [
Bender R. Probleme bei der Analyse unerwünschter Ereignisse im Rahmen der Nutzenbewertung von Arzneimitteln [online]. In: GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie; Workshop ”Methodische Aspekte bei der Nutzenbewertung von Arzneimitteln"; 07.-10.09.2014; Göttingen, Deutschland. 10.09.2014 [Zugriff: 14.06.2015]. URL: http://www.gmds.de/tagungen/2014/downloads/Workshops/ID14_Workshop_Nutzenbewertung_Hauschke.pdf.
Bender RL, S. Analyse unerwünschter Ereignisse im Rahmen der Nutzenbewertung von Arzneimitteln [online]. In: Biometrisches Kolloquium des Instituts für Medizinische Biometrie und Medizinische Informatik (IMBI) Freiburg; 28.04.2014; Freiburg, Deutschland. 28.04.2014 [Zugriff: 14.06.2015]. URL: http://portal.uni-freiburg.de/imbi/dateien/biometrie/pdfs/kolloq/archiv/2011-2015/bender.
]. Inzwischen ist auch die europäische Zulassungsbehörde EMA (European Medicines Agency) auf das Problem aufmerksam geworden und hat jüngst ein „Concept paper on the need to revise the ‘Guideline on the evaluation of anticancer medicinal products in man‘ in order to provide guidance on the reporting of safety data from clinical trials“ veröffentlicht [
Doch auch wenn statistisch-methodisch angemessenere Methoden für die Auswertung von solchen Daten eingesetzt werden, bleibt in der beschriebenen Situation ein weiteres Problem: Diese Methoden setzen voraus, dass die Unterschiede in den Beobachtungszeiten zwischen den Patienten, vor allem aber zwischen den Gruppen zufällig entstehen. Genau das ist aber nicht der Fall, wenn das Eintreten einer Progression für die unterschiedlich langen Beobachtungszeiten verantwortlich und ein Zusammenhang zwischen dem (frühzeitige[re]n) Eintreten der Progression und dem Risiko für das Erleiden von (anderen) unerwünschten Ereignissen nicht unwahrscheinlich ist. Die Interpretation solcher Analysen hängt dann von starken Annahmen ab, die letztlich darauf hinauslaufen, dass ein solcher Zusammenhang eben nicht existiert. Der einfachste Ausweg aus dem Dilemma besteht darin, gerade nicht die Beobachtung nach der Beendigung der Studienbehandlung einzustellen, sondern – wie regelhaft für das Gesamtüberleben auch – bis zum tatsächlichen Studienende fortzuführen. Das ermöglicht dann wenigstens einen fairen Vergleich von Strategien. In dem oben genannten Konzept-Papier der EMA findet sich implizit ein ähnlicher Vorschlag, wenngleich mit dem Fokus auf die Möglichkeit eines Vergleichs zwischen verschiedenen Studien, was im Zusammenhang mit dem zunehmenden Interesse an indirekten Vergleichen ebenfalls durchaus vernünftig ist.
Verkompliziert wird die Situation vollends, wenn es zwischen den Behandlungsgruppen zu einem Wechsel kommen kann, vor allem einen Wechsel in der Kontrollgruppe auf die zu prüfende Intervention. Sofern das bereits in einem Studienprotokoll explizit oder auch implizit (auf Basis von geplanten Zwischenauswertungen) angelegt ist, spricht man auch von einem „erlaubten“ Behandlungswechsel. Der Begriff Cross-over sollte besser vermieden werden, weil Cross-over-Studien im eigentlichen Sinn eine gänzlich andere Zielrichtung haben, nämlich den intraindividuellen Vergleich von Interventionen (um die Effizienz der statistischen Auswertung zu steigern).
Besonders das bereits im Studienprotokoll von Anfang an angelegte Einräumen der Möglichkeit eines Wechsels nach Progression in der Kontrollgruppe auf die zu prüfende Intervention wird zumeist mit einem Hinweis auf ethische Notwendigkeiten begründet. Dabei wird vermutlich unterstellt, die zu prüfende Intervention, das neue Arzneimittel, sei der Kontrollbehandlung in dieser Situation überlegen. Eine solche Argumentation führt zwangsläufig zu einem gewissen Widerspruch: Es ist ja gerade Ziel der Studie, die Überlegenheit nachzuweisen. Wenn jedoch bereits bei Studienanlage bzw. zu Studienbeginn diese Überlegenheit unterstellt wird, darf aus ethischen Gesichtspunkten die Studie überhaupt nicht durchgeführt werden (jedenfalls in den hier betrachteten Indikationen). Der eigentliche Grund für eine solche Anlage im Studiendesign wird demnach eher in der (wahrscheinlich durchaus berechtigten) Hoffnung auf eine einfachere Rekrutierung von Patienten (ggf. auch von Prüfärzten) liegen.
Ein derartiges Konzept wurde bei den bisher in der frühen Nutzenbewertung eingeschlossenen Studien in 4 Fällen verfolgt (Tabelle 6, Zelle 1, Grundlage sind hier die 22 Bewertungen mit geeigneten Studien und ohne Doppelzählung). In allen diesen Fällen wurde kein Zusatznutzen im Hinblick auf das Gesamtüberleben festgestellt; bei 3 Bewertungen waren jedoch wenigstens Daten zu PRO verwertbar, aus denen ein Zusatznutzen abgeleitet wurde, teilweise allerdings erst im Rahmen von Addenda (Ruxolitinib [A14-17], erneute Bewertung von Vandetanib [A13-09] und Crizotinib [A12-15]). Hinzu kommt eine Bewertung (Tabelle 6, Zelle 6), bei der der Behandlungswechsel im Studienprotokoll der zugrunde liegenden Studien grundsätzlich in beide Richtungen angelegt war (Sipuleucel-T, [A14-38]). Dies führte dazu, dass der in den Studien beobachtete Vorteil beim Gesamtüberleben als nicht quantifizierbar eingeordnet wurde.
Tabelle 6Vorzeitiges Studienende und „erlaubter“ (geplanter) Behandlungswechsel, nur Bewertungen mit geeigneten Studien.
Tabelle 6Vorzeitiges Studienende und „erlaubter“ (geplanter) Behandlungswechsel, nur Bewertungen mit geeigneten Studien.
a: Wechsel auf die Therapie der jeweils anderen Gruppe (zumeist Wechsel in der Kontrollgruppe auf die experimentelle Therapie). b: ohne Idealisib (A14-35a, A14-35b), Ipilimumab (ZE, A13-44), Vismodegib (A13-37) und Pixantron (A12-27). Für Vemurafenib nur Erstbewertung, für Vandetanib nur erneute Bewertung. Somit 7 Bewertungen nicht berücksichtigt.
In der Tabelle sind die Design-Elemente (geplante) Zwischenauswertung (und ggf. darauf basierendes vorzeitiges Studienende) und „erlaubter“ Behandlungswechsel (ggf. aufgrund unterschiedlicher Regeln) in einer Kontingenztafel einander gegenübergestellt. Es resultieren für die bisherigen Bewertungen 5 unterschiedliche Konstellationen (Zellen Z1, Z3, Z4, Z6 und Z8).
Bei 9 Bewertungen (Tabelle 6, Zelle 8) führten statistisch signifikante Unterschiede beim Gesamtüberleben zugunsten des neuen Arzneimittels in Zwischenanalysen zum Entschluss, bei den Patienten aus der Kontrollgruppe die Studienbehandlung zu beenden und ihnen eine Weiterbehandlung mit dem neuen Arzneimittel anzubieten. In einer solchen Situation ist das Argument der ethischen Notwendigkeit überzeugender und entspricht üblichen methodischen Gepflogenheiten in klinischen Studien. Damit Zwischenanalysen zu einem entsprechenden Abbruch der Studienbehandlung in der Kontrollgruppe und damit letztlich zu einem vorzeitigen Studienende führen können, ist die statistische Analysemethodik in der Regel so ausgelegt, dass erst große beobachtete Unterschiede einen formal korrekten (adjustierten) statistisch signifikanten Unterschied zeigen. Dementsprechend wurde das Ausmaß des Zusatznutzens für den Endpunkt Gesamtüberleben auch in 5 dieser Fälle als erheblich, dreimal als beträchtlich und nur einmal als gering eingestuft.
Es ist bekannt, dass Zwischenauswertungen mit statistisch signifikanten Unterschieden zur Überschätzung von Effekten auf der Basis dieser beobachteten Unterschiede führen [
]. Dem kann nur entgegengewirkt werden, indem nicht der Punktschätzer für eine Bewertung herangezogen wird, sondern die (pessimistischen) Grenzen von (für die Durchführung von mehreren [multiplen] Auswertungen) adjustierten Konfidenzintervallen. Wenngleich die Methodik des IQWiG nicht den Punktschätzer für die Ausmaßfestlegung vorsieht, sondern eben die (pessimistischen) Konfidenzintervallgrenzen, so sind diese nicht adjustiert [
]. In der Methodik des IQWiG ist zwar eine Adjustierung des statistischen Irrtumsniveaus aufgrund des Multiplizitätsproblems grundsätzlich möglich, wurde aber in der Vergangenheit nicht angewendet. Hauptgrund ist, dass in Nutzenbewertungen das Multiplizitätsproblem inhärent ist: Der Fokus liegt auf mehreren Endpunkten, deren Ausgestaltung in den Studien bei der Planung der Bewertung nicht bekannt ist und auch nicht beeinflusst werden kann. Zudem fehlen suffiziente statistische Verfahren, um auf Basis von aggregierten Daten Adjustierungen vornehmen zu können, die sich nicht hyper-konservativ auswirken. Insofern muss die Ausmaßfeststellung zum Gesamtüberleben in den genannten 9 Fällen als optimistisch, womöglich als zu optimistisch angesehen werden.
Bei zwei Bewertungen (Afatinib [A13-41] und Ipilimumab, Bewertung zur ersten Indikation [A12-07]), war in den herangezogenen Studien keine Zwischenanalyse geplant, und es wurde auch keine ungeplant durchgeführt (Tabelle 6, Zelle 1). Ein „erlaubter“ Behandlungswechsel in der Kontrollgruppe auf das zu prüfende Arzneimittel (nach Progression) war im Verlauf der Studien nicht erkennbar. Interessanter Weise wurde das Ausmaß des Zusatznutzens für den Endpunkt Gesamtüberleben in beiden Fällen als erheblich eingeordnet.
Bei den verbleibenden sechs Bewertungen führte eine geplante Zwischenauswertung in den Studien nicht zu einem vorzeitigen Studienende, und auch ein „erlaubter“ Behandlungswechsel im obigen Sinne war nicht vorgesehen (Tabelle 6, Zelle 4). Dementsprechend heterogen fielen hier die Ausmaßfeststellungen zum Gesamtüberleben aus: zweimal beträchtlich und je einmal gering, erheblich und nicht quantifizierbar sowie ebenfalls einmal kein Zusatznutzen.
(weitere) Diskussion
Ende der 1950er/Anfang der 1960er Jahre wurden einige der ersten randomisierten kontrollierten Studien im Bereich der Onkologie publiziert. Schon damals waren die Initiatoren mit den gleichen Problemen konfrontiert, wie sie sich auch heute stellen: Was sind geeignete Endpunkte? Ist es erlaubt, auf Therapien (in Kontrollgruppen) zu verzichten, bei denen man aus nicht-kontrollierten Studien die Überzeugung einer Wirksamkeit bzw. eines Nutzens gezogen hat? Soll man Patienten in einer Kontrollgruppe im Verlauf den Wechsel auf die Therapie der anderen Gruppe ermöglichen [
Das siebte IQWiG-Herbstsymposium im Jahr 2012 widmete sich nun rund 50 Jahre später der Frage, ob bei Krebs denn grundsätzlich alles anders sei und ob im Speziellen andere Maßstäbe an die Bewertung medizinischer Interventionen bei Krebserkrankungen zu stellen seien [
]. Das Ergebnis war durchaus gemischt. Während der Diagnose „Krebs“ nicht selten ungerechtfertigt ein baldiger Tod und großes Leid(en) beigemessen wird, wird die Diagnose anderer chronischer Erkrankungen teils sogar eher mit Erleichterung aufgenommen (weil es eben kein „Krebs“ ist), obschon die Prognose nicht besser, mitunter sogar schlechter ist [
]. Insofern, könnte man argumentieren, gibt es keinen objektiven Grund für das Besondere von Krebs. Andererseits waren und sind die therapeutischen Maßnahmen, die gegen Krebserkrankungen eingesetzt werden, häufig besonders – im wahrsten Sinne des Wortes – einschneidend, früher gar heroisch: aufwendige chirurgische Resektionen, Chemotherapien und Bestrahlungen mithilfe imposanter Apparaturen. Und zumeist hinterlassen sie spür- und sichtbare Veränderungen, die das Selbstwertgefühl und die Lebensqualität der Betroffenen einschränken können. Letzteres kann dann zu Herausforderungen bei der Nutzen-Risiko-Abwägung führen, insbesondere in einer palliativen Therapiesituation, wenn also nicht mehr davon ausgegangen werden darf, die Erkrankung zum Verschwinden bringen zu können.
Nun zeigen sich in der vorliegenden, natürlich noch sehr vorläufigen Auswertung der bisher vorgenommenen Bewertungen zu Onkologika tatsächlich einige Besonderheiten im Vergleich zu den nicht-onkologischen Indikationen. An erster Stelle sind die klar besseren Ergebnisse zu nennen, die hauptsächlich, aber nicht allein, durch mehr oder weniger deutliche Effekte auf das Gesamtüberleben zustande kommen. Dies hängt vermutlich mit der speziellen Situation der bisher alleinig betrachteten fortgeschrittenen Krebserkrankungen zusammen. Wenn die Ausgangssituation besonders schlecht ist, dann ist es einfacher, einen Fortschritt zu zeigen und zu erkennen. Das ist allein schon eine statistische Zwangsläufigkeit (Regression-to-the-mean) bzw. eine schlichte Lebensweisheit. Dennoch gehen die positiven Ergebnisse über diese und andere Erwartungen hinaus.
Dass in praktisch allen Studien Endpunkte zu Symptomen oder zur gesundheitsbezogenen Lebensqualität erhoben wurden, dass bei den meisten Studien diese Daten grundsätzlich verwertbar waren, und dass bei 50 % (der Fälle mit grundsätzlich für die Nutzenbewertung geeigneten Studien) ein Zusatznutzen für solche Endpunkte attestiert werden konnte, ist schon überraschend. Und es steht auch in einem gewissen Kontrast zu früheren Analysen von Zulassungsstudien von Onkologika durch die Arzneimittelkommission der deutschen Ärzteschaft (AkdÄ) aus dem Jahr 2011 bzw. 2013 [
Neue Arzneimittel in der Onkologie: Merkmale klinischer Zulassungsstudien und Argumente für die rasche Durchführung unabhängiger klinischer Studien nach der Zulassung.
]. Es fanden sich dort jeweils in der Mehrzahl der Studien keine Hinweise, dass auch Daten zu Symptomen oder zur gesundheitsbezogenen Lebensqualität erhoben wurden. Allerdings beruhten die AkdÄ-Analysen auf den öffentlich zugänglichen Berichten (European Public Assessment Report [EPAR]) der Europäischen Zulassungsbehörde (European Medicines Agency [EMA]), und das IQWiG-Arbeitspapier betrachtete (Erst-)Publikationen in medizinischen Fachzeitschriften. In der Vergangenheit wurde gezeigt, dass der Informationsgehalt von AMNOG-Dossiers den von sonst öffentlich verfügbaren Publikationen bei weitem übertrifft [
Impact of document type on reporting quality of clinical drug trials: a comparison of registry reports, clinical study reports, and journal publications.
Information on new drugs at market entry: retrospective analysis of health technology assessment reports versus regulatory reports, journal publications, and registry reports.
Eine umgekehrte Besonderheit der Dossiers zu den onkologischen Studien betrifft die eingeschränkte(re) Ergebnissicherheit. Lediglich in 2 Dossiers stand mehr als eine (relevante) Studie für die Bewertung zur Verfügung und keine Studie war so konzipiert, dass aus ihr allein ein Beleg für einen Effekt hätte abgeleitet werden können. Dies entspricht dem Ergebnis der AkdÄ-Analysen. Das in der Wissenschaft als Grundsatz allgemein akzeptierte Replikationserfordernis, das sich auch in entsprechenden allgemeinen Regularien z. B. der Zulassungsbehörden widerspiegelt [
], wird bei den Zulassungen von Medikamenten für fortgeschrittene Krebserkrankungen somit regelhaft nicht erfüllt. Dabei bedeutet „Replikation“ nicht eine 100%ig identische Kopie einer Studie und deren Ergebnisse. Übrigens: Die Anforderungen, die das IQWiG in seinen Methoden an einen „Beleg“ stellt, sind vergleichsweise schwach, da nicht zwei Einzelstudien mit jeweils statistisch signifikantem Unterschied gefordert werden, sondern lediglich (mindestens) zwei Einzelstudien, bei denen ein Zusammenfassen ihrer Ergebnisse im Sinne einer Meta-Analyse zu einem statistisch signifikantem Unterschied führt. Das heißt, die Einzelstudien müssen für sich allein genommen dann noch nicht einmal ein statistisch signifikantes Ergebnis liefern. Das setzt natürlich voraus, dass die Studien sinnhaft zusammengefasst werden können und z. B. keine auffällige Heterogenität zwischen den Ergebnissen existiert. Außerdem dürfen die Studien nicht möglichen Verzerrungen unterliegen, die ihre Ergebnissicherheit diesbezüglich einschränken [
Wenn für lebensbedrohliche Erkrankungen argumentiert wird, eine Replikation von (insbesondere im Hinblick auf das Gesamtüberleben oder irreversible schwerwiegende Morbidität positiven) Studienergebnissen sei aus individual-ethischen Gründen nicht zu rechtfertigen (Patienten in einer solchen Situation dürfe kein Nutzen-stiftendes Medikament nur aus Studienzwecken vorenthalten werden), so kann dem zumindest entgegengehalten werden, dass solche Studien ja nicht zwangsläufig sequenziell, sondern auch parallel durchgeführt werden könnten. Das mag dann zwar einen durchaus höheren Aufwand für die pharmazeutischen Hersteller bedeuten, der sich aber in Grenzen halten könnte, wenn die Power so gestaltet würde, dass nur das zusammengefasste Ergebnis zweier solcher Studien zu einem statistisch signifikanten Unterschied führt. Im Übrigen kann dem individual-ethischen Argument entgegengehalten werden, dass die Unsicherheit aus den Ergebnissen einer Einzelstudie, die bei großen Unterschieden paradoxer Weise besonders groß ist [
Gartlehner G, Dobrescu A, Evans TS, Thaler K, Nussbaumer B, Sommer I, et al. Average effect estimates remain similar as evidence evolves from single trials to high-quality bodies of evidence: a meta-epidemiologic study. J Clin Epidemiol 05.04.2015 [Epub ahead of print].
Eine methodische Besonderheit der vorliegenden Studien in den onkologischen Indikationen ist der nahezu immer vorgesehene Behandlungswechsel bei Progression und der zumeist nach kurzer Zeit darauf folgende Abbruch der Beobachtung wichtiger Endpunkte (unerwünschte Ereignisse und PRO). Dieser bisher von den Zulassungsbehörden offenbar nicht angemahnte Beobachtungsabbruch könnte aber womöglich bald der Vergangenheit angehören, wenn die jüngst erfolgte Initiative der EMA dazu auf fruchtbaren Boden fallen sollte [
]. Interpretatorisch besonders schwierig wird die Situation, wenn ein Behandlungswechsel auf die Therapie der jeweilig anderen Gruppe, zumeist der Verumgruppe, „erlaubt“ wird, und zwar entweder nach Zwischenauswertung zum PFS mit (adjustiert) statistisch signifikantem Ergebnis oder gar bereits im Studienprotokoll angelegt. Wenngleich in den bislang vorliegenden Bewertungen (mit verwertbaren Studien und Daten) eine solche Situation nur in 5 Fällen vorlag, so muss doch davon ausgegangen werden, dass ein solcher „erlaubter“ Behandlungswechsel in Studien bei Patienten mit fortgeschrittenen Krebserkrankungen zunehmen wird. Ein Grund für diese Annahme ist, dass sowohl die EMA als auch die FDA immer weitere Prozesse und Initiativen auflegen, um bei lebensbedrohlichen Erkrankungen eine beschleunigte Zeit bis zur Zulassung zu erwirken und sich dabei auch auf nicht eindeutig validierte Surrogat-Parameter wie z. B. das PFS oder das Ansprechen stützen wollen [
]. Dabei sollen dann insbesondere Studien nach der Zulassung im Rahmen von mit der Zulassung verbundenen Auflagen zu weiteren Erkenntnissen führen. Dazu muss allerdings gesagt werden, dass in der Vergangenheit die Erfahrungen mit solchen bedingten Zulassungen unbefriedigend ausgefallen sind, weil die Firmen häufig entweder ihren Verpflichtungen nicht oder nur mit großem Zeitverzug nachgekommen sind, die Zulassungsbehörden ihrerseits dann aber nur selten Konsequenzen im Sinne eines Aufhebens der Zulassung gezogen haben, selbst dann, wenn in Studien nach der Zulassung die Wirksamkeit nicht belegt wurde [
Development times, clinical testing, postmarket follow-up, and safety risks for the new drugs approved by the US food and drug administration: the class of 2008.
]. Darüber hinaus wurden in solchen Post-Zulassungsstudien oftmals wieder nur Surrogate als (primäre) Endpunkte betrachtet, wie PFS oder Ansprechrate [
Gegenwärtig werden einige statistische Verfahren diskutiert, die bei Studien mit „erlaubtem“ Behandlungswechsel zum Einsatz kommen und eine interpretierbare Analyse ermöglichen sollen [
Adjusting survival time estimates to account for treatment switching in randomized controlled trials--an economic evaluation context: methods, limitations, and recommendations.
]. Da sie aber alle letztlich auf Annahmen beruhen (müssen), die die interpretatorischen Schwierigkeiten ignorieren (keine statistische Methode kann ohne [strenge] Annahmen nicht erhobene oder verloren gegangene Informationen ersetzen), stellen sie keine wirkliche Lösung für das Problem dar. Falls also davon ausgegangen wird, ein solches Design sei grundsätzlich unumgänglich, dann wäre die bessere Empfehlung, anstatt mithilfe solcher Verfahren die statistische Analyse „retten“ zu wollen, eine Modifikation zu wählen, bei der das Ereignis, das zum Behandlungswechsel führt, patientenrelevant gestaltet wird, z. B. als symptomatische Progression. Dann stünde wenigstens ein patientenrelevanter Endpunkt für eine unverzerrte Auswertung zur Verfügung. Alternativ oder ergänzend könnte unter Abschätzung der Zahl möglicher Behandlungswechsel die Fallzahl erhöht werden, um trotz Kontamination noch ausreichend Power für die Feststellung eventueller Unterschiede bei patientenrelevanten Endpunkten (wie z. B. dem Gesamtüberleben) zu erzielen.
In diesem Zusammenhang sollte noch beachtet werden, dass innerhalb der onkologischen Indikationen bei fortgeschrittenen Stadien ein äußerst heterogenes Bild im Hinblick auf den „erlaubten“ Behandlungswechsel bzw. den Zeitpunkt eines solchen Wechsels besteht, was das dafür angeführte ethische Argument ebenfalls fraglich erscheinen lässt: So wurde die Zulassungsstudie zu Trastuzumab-Emtansin bei fortgeschrittenem oder metastasiertem Mammakarzinom auf den primären Endpunkt Gesamtüberleben hin ausgerichtet. Bei einer ersten Zwischenanalyse zu diesem Endpunkt wurde immerhin ein Therapieeffekt einer relativen Mortalitätsreduktion von 38 % geschätzt (HR 0,62 mit 95 %-KI von 0,48-0,82 und p = 0,0005). Trotz dieses auf den ersten Blick beeindruckenden Unterschieds wurde die Studie unverändert fortgesetzt, da eine statistische Adjustierung für diese Zwischenanalyse vorgesehen war und der p-Wert dieses adjustierte Niveau (0,0003) nicht erreichte [
]. Umgekehrt war die Zulassungsstudie zu Crizotinib beim fortgeschrittenen oder metastasierten nicht-kleinzelligen Karzinom der Lunge protokollgemäß von Beginn an so ausgerichtet, dass die Patienten der Kontrollgruppe bei einem Progress auf Crizotinib wechseln konnten. Zudem wurde das PFS als primärer Endpunkt gewählt. Erwartungsgemäß konnte kein Unterschied im Gesamtüberleben beobachtet werden [
]. Die unterschiedliche Konzeption der beiden Studien ist deshalb besonders bemerkenswert, weil die Prognose der jeweils betroffenen Patienten durchaus vergleichbar ist und die Studien in ähnlichen Zeiträumen und jeweils multi-kontinental durchgeführt wurden. Ethische Notwendigkeiten können sich eigentlich bei sonst vergleichbaren Bedingungen nicht an der Indikation orientieren.
Die in der vorliegenden Arbeit berichteten positiven Ergebnisse bei onkologischen Studien stehen in einem gewissen Kontrast zu aktuellen Auswertungen von in den letzten Jahren durch die FDA (Federal Drug Administration) in den USA zugelassenen Medikamenten. Downing et al. 2014 (Zulassungen zwischen 2005 und 2012) beispielsweise bemängelten die geringere Qualität der zugrunde liegenden Studien in der Onkologie im Vergleich zu anderen Indikationen: So seien diese deutlich seltener randomisiert (47,3 % vs. 92,5 %) – hier im Wesentlichen gleichbedeutend mit unkontrolliert – und doppel-blind (27,3 % vs. 86,8 %) durchgeführt. Auch sei wesentlich häufiger ein Surrogat als primärer Endpunkt der Studie gewählt worden (83,6 % vs. 48,9 %) [
]. Eine andere Analyse von für solide Tumore zugelassenen Arzneimitteln der Jahre 2002 bis 2014 kommt zu dem Schluss, dass nur bei 42 % eine klinisch bedeutsame Verbesserung zu erkennen sei [
Unintended consequences of expensive cancer therapeutics-the pursuit of marginal indications and a me-too mentality that stifles innovation and creativity: the John Conley Lecture.
JAMA Otolaryngol Head Neck Surg.2014; 140: 1225-1236
]. Dieser Kontrast lässt sich allerdings recht leicht auflösen: So ist bei der ersten Analyse die Mehrzahl der bisherigen IQWiG-Bewertungen nicht enthalten (18 von 29), und ein großer Teil der von Downing et al. analysierten Zulassungen beziehen sich auf Orphan Drugs, die sich wie erwähnt – bis auf bislang eine Ausnahme – einer Bewertung des Zusatznutzens hierzulande entziehen dürfen. Bei der zweiten Analyse kommt zum Tragen, dass dort als wesentliches Bewertungskriterium die Differenz der medianen Überlebenszeiten (für Gesamt- und progressionsfreies Überleben) herangezogen wurde. Bei einigen Bewertungen waren mediane Überlebenszeiten allerdings noch nicht schätzbar (z. B. Vemurafenib [A12-08] oder Pertuzumab [A13-10]). Darüber hinaus beruht die vorliegende Auswertung der IQWiG-Bewertungen auf dem maximalen Zusatznutzen, d. h. zum Teil auf Subgruppen, wenn Effektmodifikationen identifiziert wurden (z. B. Afatinib [A13-41] oder Radium-223 [A14-02]). Gerade Letzteres lässt die zuweilen von interessierten Kreisen vorgebrachte Kritik an vom G-BA oder auch dem IQWiG „gebildeten“ Subgruppen (z. B. [
]) etwas schal erscheinen, erhöht sich doch dadurch die Chance, ein größeres Ausmaß des Zusatznutzens für eben solche Subgruppen zu entdecken, was übrigens offenbar durchaus im Interesse des Gesetzgebers lag. In § 35a Abs. 1 Satz 3 SGB V (der §35a regelt die „Bewertung des Nutzens von Arzneimitteln mit neuen Wirkstoffen“) ist zu lesen, dass das Dossier des pharmazeutischen Unternehmers u.a. Angaben zur „Anzahl der Patienten und Patientengruppen, für die ein therapeutisch bedeutsamer Zusatznutzen besteht“ enthalten muss. Das impliziert, dass das Anwendungsgebiet auch Patienten und Patientengruppen enthält, für die das nicht zutrifft. In der AM-NutzenV wird in § 7 Abs. 2 Satz 7 die Differenzierungsnotwendigkeit noch deutlicher formuliert, nämlich dass bei der Nutzenbewertung geprüft wird, „… welcher Zusatznutzen für welche Patientengruppen in welchem Ausmaß belegt ist …“.
Zuletzt sei darauf hingewiesen, dass ganz aktuell von der Europäischen und der Amerikanischen (onkologischen) Fachgesellschaft zwei Vorschläge zur Bewertung des „Ausmaßes des klinischen Nutzens“ (ESMO, European Society for Medical Oncology) bzw. zur Bewertung des „Wertes von Behandlungsoptionen bei Krebserkrankungen“ (ASCO, American Society of Clinical Oncology) veröffentlicht wurden [
A standardised, generic, validated approach to stratify the magnitude of clinical benefit that can be anticipated from anti-cancer therapies: the European Society for Medical Oncology Magnitude of Clinical Benefit Scale (ESMO-MCBS).
]. Eine weitergehende, vergleichende Analyse dieser beiden Vorschläge, die u. a. Empfehlungen für zu erreichende Schwellenwerte von Effektschätzungen für bestimmte Endpunkte (z. B. Gesamtüberleben) enthalten, mit der Operationalisierung des IQWiG zur Bewertung des Ausmaßes des Zusatznutzens hätte den Rahmen der vorliegenden Arbeit gesprengt. Erfreulich ist jedenfalls, dass damit die Basis für einen konstruktiven Diskurs auf Basis konkreter Vorschläge gelegt ist.
Fazit
Zusammenfassend kann festgestellt werden, dass die onkologischen Studien besser als ihr Ruf und damit die Ergebnisse bei der frühen Nutzenbewertung (was das Vorliegen und das Ausmaß eines Zusatznutzens angeht) bisher deutlich besser ausgefallen sind als erwartet und als die Ergebnisse bei anderen Indikationen. Demgegenüber muss die dünne Datenbasis gesehen werden, auf denen die Bewertungen beruhen und die in fast allen Fällen zu einer eingeschränkten Sicherheit der Aussagen geführt hat. Entgegen manch anderslautender Behauptungen ist die IQWiG-Methodik nicht hyper-konservativ. Im Gegenteil: In allen Fällen, bei denen das IQWiG in den onkologischen Indikationen das Ausmaß „erheblich“ vergeben hat, ist der G-BA bislang dieser Bewertung nicht gefolgt, sondern hat das Ausmaß schwächer eingestuft.
Danksagung
Der Autor dankt Frau Anette Minarzyk und Herrn Helmut Hörn aus dem IQWiG für die hilfreiche Aufarbeitung der Dossierbewertungen. Außerdem wird 2 anonymen Reviewern für wertvolle fachliche Hinweise gedankt, die wesentlich zur Verbesserung des Manuskripts beigetragen haben.
Interessenkonflikt
Der Autor ist Mitarbeiter des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen. Er erklärt, dass er im Zusammenhang mit den Inhalten seiner Arbeit keinerlei finanzielle Interessenkonflikte hat. Eine finanzielle Unterstützung durch Dritte erfolgte nicht.
Relative efficacy and effectiveness assessment of new pharmaceuticals in three EU member states: current practices and outcome agreement between Belgium, the Netherlands and France.
Deutsche Gesellschaft für Hämatologie und Onkologie. Frühe Nutzenbewertung neuer Arzneimittel in Deutschland 2011–2014. 6. Band der Gesundheitspolitischen Schriftenreihe der DGHO [online]. 01.04.2015 [Zugriff: 14.06.2015]. URL: http://www.dgho.de/informationen/gesundheitspolitische-schriftenreihe/band-6.
Verordnung über die Nutzenbewertung von Arzneimitteln nach § 35a Absatz 1 SGB V für Erstattungsvereinbarungen nach § 130b SGB V (Arzneimittel-Nutzenbewertungsverordnung - AM-NutzenV). Bundesgesetzblatt 2010; Teil I(68): 2324–2328.
Bender R. Probleme bei der Analyse unerwünschter Ereignisse im Rahmen der Nutzenbewertung von Arzneimitteln [online]. In: GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie; Workshop ”Methodische Aspekte bei der Nutzenbewertung von Arzneimitteln"; 07.-10.09.2014; Göttingen, Deutschland. 10.09.2014 [Zugriff: 14.06.2015]. URL: http://www.gmds.de/tagungen/2014/downloads/Workshops/ID14_Workshop_Nutzenbewertung_Hauschke.pdf.
Bender RL, S. Analyse unerwünschter Ereignisse im Rahmen der Nutzenbewertung von Arzneimitteln [online]. In: Biometrisches Kolloquium des Instituts für Medizinische Biometrie und Medizinische Informatik (IMBI) Freiburg; 28.04.2014; Freiburg, Deutschland. 28.04.2014 [Zugriff: 14.06.2015]. URL: http://portal.uni-freiburg.de/imbi/dateien/biometrie/pdfs/kolloq/archiv/2011-2015/bender.
Neue Arzneimittel in der Onkologie: Merkmale klinischer Zulassungsstudien und Argumente für die rasche Durchführung unabhängiger klinischer Studien nach der Zulassung.
Impact of document type on reporting quality of clinical drug trials: a comparison of registry reports, clinical study reports, and journal publications.
Information on new drugs at market entry: retrospective analysis of health technology assessment reports versus regulatory reports, journal publications, and registry reports.
Gartlehner G, Dobrescu A, Evans TS, Thaler K, Nussbaumer B, Sommer I, et al. Average effect estimates remain similar as evidence evolves from single trials to high-quality bodies of evidence: a meta-epidemiologic study. J Clin Epidemiol 05.04.2015 [Epub ahead of print].
Development times, clinical testing, postmarket follow-up, and safety risks for the new drugs approved by the US food and drug administration: the class of 2008.
Adjusting survival time estimates to account for treatment switching in randomized controlled trials--an economic evaluation context: methods, limitations, and recommendations.
Unintended consequences of expensive cancer therapeutics-the pursuit of marginal indications and a me-too mentality that stifles innovation and creativity: the John Conley Lecture.
JAMA Otolaryngol Head Neck Surg.2014; 140: 1225-1236
A standardised, generic, validated approach to stratify the magnitude of clinical benefit that can be anticipated from anti-cancer therapies: the European Society for Medical Oncology Magnitude of Clinical Benefit Scale (ESMO-MCBS).