LiSA 7: 558-563, 2000
目 次
AHAガイドラインの歴史的背景
新しいガイドライン:G-2000の方法論
Evidence Based Medicine
Domineering Expert Syndrome
G-2000の具体的検証過程
言うは易し、行うは難し
方法論としてのG2000の意義
参考文献
AHAガイドラインの歴史的背景
■広がっていったCPRの概念
1956年には電気的ショックによるVFの治療が報告されており、さらに、1957年の口対口呼気吹き込み人工呼吸法、1960年の閉胸式心マッサージなどの登場によって、CPRが現実的なものとして浮かび上がってきていた時期である。このような背景の下、会議では、CPRのスタンダードを決定した上で、主に医療従事者に対する啓蒙を主眼とした報告書が作成された。
NAS-NRCの報告書をうけたAHAは、その後、NAS-NRCや米国赤十字社などと協力しながら医療従事者への教育・啓蒙活動を行う一方、1973年にはCPRとECCに関する第2回目の会議をNAS-NRCと共同で開催する。ここでは、CPRの概念をBasic Life Support (BLS:一次救命処置)のみならず、Advanced Life Support (ALS:二次救命処置)にまで拡大し、さらにBLSに関しては一般市民に対する教育の必要性などが協議された。その結果を受けて1974年、AHAがJAMA誌上で公表したのが、AHAにとって初めての公式な指針:Standards for cardiopulmonary resuscitation (CPR) and emergency cardiac care (ECC)3)である。
■AHA新ガイドラインが遅れたわけ
AHAの発行する心肺蘇生の指針は、1974年以後、その名称を Standardsから Guidelinesへと変更しながら、1980年4)、1986年5)、1992年6)と、6年ごとの改訂を経てきた。この流れから考えれば、1998年には最終の改訂が行われていたはずである。この改訂作業が2000年にまでずれ込んだ理由は定かではないが、無視できない要因の一つとしてILCORの影響がある。
別項でも述べているように、ILCORは1992年に結成されたが、その公式文書たる ILCOR Advisory Statements が完成したのは1997年である。AHA は人的にも経済的にも ILCORの主体であり、ILCOR文書の完成からわずか1年の間に新しいガイドラインを策定する作業が困難であろうことは容易に想像できる。また、後に述べるように、今回のガイドライン策定にあたっては度重なる会議と膨大な資料が必要であり、そのための国際協力も欠かせないという事情もあった。
これについて、ILCORの Co-Chairman、Peter Steenは至極簡単にコメントしている。いわく:The North American members were not ready when all the other resuscitation council published new guidelines in 1998.
例えば、投与する薬剤の効果は動物実験や臨床研究で確認しているし、PTCAを行えばそれまで閉塞していた冠動脈が再開通するのは見た目にも明らかである。良心的な医師なら誰でも、こう言うであろう:「今まで、根拠もなしに医療行為を行ったことなど一度もない!」
では、EBMは「いわずもがなのヘ理屈」なのか、というと必ずしもそうではない。なぜなら、EBMの主張する "Evidence" とは、われわれが従来考えてきた「根拠」とは異なるからである。そもそも、EBMという言葉は、1991年に Gordon H. Guyattという疫学研究者が初めて使用したと言われている。したがって、EBMの主張する Evidenceとは、疫学としての Evidenceであり、ある治療法に効果があるか否かの判断の根拠(研究のEnd-point)は、原則として患者の転帰に設定されるべきなのである。
患者の転帰の主なものとしては、死亡(Death)、疾患(Disease)、不快(Discomfort)、能力障害(Disability)、不満足(Dissatisfaction)があり、これらを転帰の5Dsと呼んでいる7)。
従来、われわれが治療法の根拠として信じてきた文献には「転帰」以外のものを end-pointとして用いたものが多い。例えば、ある薬剤を投与した結果、術後の肝逸脱酵素の値が低下したとか、VPCが消失した、などである。これらの「結果」は、中間変数と呼ばれる指標に過ぎない。中間変数としての指標が改善されれば、おそらく患者の転帰も好転するに違いないと予測することは可能だが、これはあくまでも予測にすぎず、EBMの主張する evidence とは言えないのである。
EBMの主張によれば、「中間変数に基づいた判断は時にわれわれを誤った治療法に導く」のである。例を挙げよう。
高コレステロール血症は虚血性心疾患による死亡の危険因子である。このことは、いくつかの臨床研究で確認されており、事実と言ってよい。一方、fibric acidの誘導体である clofibrateは、血中のコレステロール濃度を低下させる。この効果も実証済みである。この二つの「明らかな事実」から、三段論法的に「clofibrateは高コレステロール血症を伴う虚血性心疾患の死亡率を低下させる」と判断することには何の問題もないように見える。実際、clofibrateは、わが国でも昭和40年代から虚血性心疾患患者に対して使用されてきた。ところが、この判断は誤っていたのである。
1970年代に WHOが行った大規模な無作為比較対照試験8)によれば、クロフィブレートを投与された患者群の死亡率は対照群の死亡率を25%も上回っていたからである。投与群で死亡率が有意に高かった原因は明らかではないが、この調査結果は、医療における三段論法的推論には慎重でなければならないことを示している(コラム1)。この例以外にも、VPCの発生頻度を低下させることから心筋梗塞後の突然死を減少させると信じられていた lidocaine9) や flecainede, moricizine10) は実際には患者の死亡率を高めることが明らかになるなど、従来われわれが信じてきた中間変数が必ずしも頼りにならないことを示す例は多い。このような、「意外な結末」が、EBM登場の布石になったと言える。
このようにEBMとは、「患者の最終的転帰を指標とした治療法の評価である」、と言い換えることもできる。したがって、EBMに基づいたガイドラインの作成を謳う限りは、種々の治療法が患者の生存率に与えるデータを集め、それらを総合的に評価するという膨大な作業が必要である。
既に述べたように、この作業量が今回のガイドライン改訂作業を遅らせている一因であったことも十分に理解できる。
「クロフィブラートはやっぱり有効なんだ!」と研究者が奮い立った
(The Coronary Drug Project. Influence of adherence to treatment
Domineering Expert Syndrome とは、いわゆる権威者と評される研究者や豊富な経験を有する臨床家(Domineering Expert)の意見が過度に尊重される結果、客観的なデータの検証過程が障害される現象である。
例えば、Williamson らが一般臨床医や「権威者」を対象に、最近の知見についての知識を調査したところ、対象者の1/5から1/2がその知見を全く知らないか、あるいは知っていてもその方法を活用していなかった11)。
例え権威者といえども、最新の医学的知見が広く浸透するには長い時間が必要なことを示している。だからこそ、AHA は "Show me your data!" と叫ぶのである。
この中で、おそらく最も重要なのが「推奨提案の公募」である。推奨案の提出は、その気さえあれば誰でも出来る。原則として公募である。提案者は、その推奨案の根拠を AHAが準備した Worksheetに記載、提出する。
この Worksheet は、文献検索の方法、各文献の証拠能力、総合判断としての推奨の是非について、推奨提案者が提出すべき詳細な情報が網羅されるように定型化したもので、一般的なメタアナリシスの手法を踏襲している。記載項目を順を追って詳細に見てみよう。 図1.G-2000の具体的検証過程
図2.International Evidence Evaluation Conference の会場風景(Dallas, 1999年9月)
図3.G-2000 Conference 懇親会
文献を検索する最も一般的な方法は、Medlineなど、電子化されたデータベースを利用する方法である。この場合には、使用したデータベース名、検索に用いたキーワードなどの情報を記載する。
いわゆる「孫引き」のように手作業で行う検索や、未公表のデータ、研究者からの聞き取り調査、なども正当な文献として認められている(コラム2)。ただし、すべての検索について、最終的な絞込みの条件(臨床的研究のみ、nが一定数を上回る研究のみ、総説は除外する、あるいは含める、など)は、検索前にあらかじめ決めておかねばならない。
残念ながら、Publication Bias を防ぐ有効な手段は少ない。未公表の
表1、2に示すように、方法論(Level)と質(Quality)との両面から各文献の証拠能力を評価・分類する。無作為化比較対照試験が最も高いLevelを与えられているのは当然であろう。動物実験のLevelが低いのは少し意外かも知れない。症例報告の Qualityは "unacceptable" である。
表1.文献の証拠能力
Level 1 無作為比較対照試験で、その結果から予測される効果の統計学的信頼区間が臨床的に有意義であるとされる最低基準を上回る
Level 2 無作為比較対照試験で、その結果から予測される効果の統計学的信頼区間が臨床的に有意義であるとされる最低基準に重なる
Level 3 前向き研究。対照群はあるが、無作為化がなされていない
Level 4 後ろ向き研究のうち、コホート研究やケースコントロール研究など
Level 5 ケースシリーズ
Level 6 動物実験
Level 7 過去のデータを組み合わせた推論、生理・病理学的考察など
Level 8 従来、慣習的に行われてきた方法や一般常識 表2.研究デザインと方法の評価
各文献のうち、そのQualityが "Poor" または "Unacceptable" とされた文献は除外される。これらの文献には証拠能力が認められないのである。後は、文献のLevelに応じて、総合判断としての推奨の強さが、「Class」として分類される。
表2を見てもわかるように、文献の分類やクラス分類は、完全に「客観的」に行われているとは言いがたい。Level分類はともかくとして、Quality や Classに関しては多少の主観が入る可能性を否定できない。とはいうものの、文献の証拠能力分類を具体的に公開した点は大いに評価されるべきであろう。
EBM といえるだけのガイドラインを作成するには、生存率を End-point とした無作為化比較対照試験が必須である。ところが、そもそも、そのような研究の数は限られている。この傾向は心肺蘇生や Emergency Cardiac Careの領域ではいっそう顕著である。それどころか、臨床研究そのものが存在しないテーマさえある。
例えば、心肺停止の患者には、心マッサージ5回ごとに人工呼吸1回を行うことになっている。この5:1の比率の根拠となった文献を読めば、とても EBM と呼べる代物ではないことは明らかである。だからといって、このようなテーマには触れず、あくまでも EBM に固執して作成したガイドラインでは実際の使用に耐えないものになってしまうのも、また明らかである。これが "Decision Paralysis" である(コラム3)。
このような現実と理想のギャップを埋めるための方法の一つが、すでに述べた推奨内容の Class 分類である。各 Class の定義(表3)を見ればわかるように、厳密な意味で EBM と呼べるのは Class I だけである。データは存在するが、その証拠能力に欠けるものはすべて、Class II 以下に分類される。このようにして、それぞれの推奨内容について、Evidence の有無を明確にすること(Evidence欠如の Full Disclosure)は AHA が従来から用いてきた手法であり、今回の改訂においても踏襲される。
データが欠如しているか、または、ほとんど存在しない場合には、先に述べた Class Indeterminate に分類されることになる。これには、将来的に有望な方法だけでなく、従来から伝統的に用いられてきた方法についても、明らかに害があるとの新たなデータがない限り、これを既得権的に認める方法(Grandfathered Recommendations)が採用された。
これら「EBM にもとづかない」医療をすべて排除してしまえば、招来 表3.推奨のクラス分け
8月に完成するガイドライン自体もさることながら、この方法論もまた、ガイドライン策定のあるべき姿を示唆していると思われる。
参考文献
参考文献
新しいガイドライン:Guidelines 2000の方法論
Evidence Based Medicine: 単なる「根拠」ではない
クロフィブラートの臨床的優位性を否定するもう1つの無作為化比較
対照試験、The coronary Drug Project (CDP) の結果は実に興味深い。
CDPが、クロフィブラート投与群(1,103人)と対照(偽薬)群(2,789人)
とで虚血性心疾患患者の5年間死亡率を比較したところ、両群とも約20
で有意差はなかった。すなわち、クロフィブラートの効果はなかった。
ところが、投与群をよく調べてみたところ、なかには指示された服用を
怠った患者がいることがわかった。そこで、実際に指示どうりの服用を
行った患者だけに限定して死亡率を再計算してみたところ、その5年間
死亡率は 15.0%で、指示に従わなかった患者の死亡率、24.6%に比較し
て有意に低率であった。
かどうかは定かではないが、念のため、対照群についても薬物の服用状
況を調べてみたところ、投与群と同様、指示された服薬を怠った患者が
いることがわかった。そして、これらの患者を除外して死亡率を再計算
した結果は、研究者を落胆させるに十分であった。すなわち、対照群の
患者のうち、指示通りの服薬(もちろん、偽薬を!)をしていた患者の
死亡率は 15.1%で、指示に従わなかった患者の死亡率、28.3%に比べて
有意に低率だったのである。この研究から導き出される皮肉な結論は、
「クロフィブラートでも偽薬でも、医師の指示通りに服用する患者は5
年間死亡率が有意に低くなる。」 信ずる者は救われる? 正直者に幸
あれ?
and response of cholesterol on mortality in the coronary drug
project. N Engl J Med 1980; 303: 1038-41.)
Domineering Expert Syndrome
G-2000の具体的検証過程
推奨提案の公募
↓
小委員会
↓
全体会議での検討
International Evidence Evaluation Conference
(E2 Conference)
↓
小委員会
↓
全体会議での検討
International ECC Guideline Conference
(G-2000 Conference)
↓
小委員会
Dr. Nicholas G Bircher(University of Pittsburgh)と著者(Dallas, 2000年 2月)
一般に、研究群と対照群の間に期待したような有意差を証明できなか
った場合、その研究は価値がない、と考えてしまうことが多い。その結
果、「有意差のない」研究は論文として日の目を見る機会が少なくなり、
公表された研究結果の多くが「有意差がある」という内容に偏ってしま
う。このような結果として生じるバイアスを Publication Bias と呼ぶ。
また、有意差のない研究が研究者のファイルに死蔵される現象を
"Drawers(引き出し)Syndrome" と呼んだりもする。読者のなかにも、
引き出しの中に膨大な「有意差のないデータ」をしまい込んでいる研究
者がいるのではないだろうか。
データの収集に努力するか、できるだけ大規模な調査だけを信頼する、
といった程度である。後者の作戦が有効な理由は、大規模な調査の場合
にはそれだけ多大な労力と予算がかかっており、たとえ結果が、「有意
差なし」でも公表・出版される可能性が大きいからである。
▼文献の証拠能力
Level of Evidence
Quality A. Excellent B. Good C. Fair D. Poor E. Unacceptable Example design assessments 標本抽出、モデル、無作為化、対象群などが極めて適切に設定されている。 研究デザインが適切でバイアスの入り込む余地は極めて小さい
研究のデザインが適切だが、多少のバイアスを否定できない
症例数が少ない、あるいは、明らかにバイアスがかかっている
症例報告、Endo-pointが不適切など Example methods assessments
データの収集、評価などの具体的手法が極めて正確に設定されている
具体的手法の正確性が平均以上
具体的手法の正確性が許容範囲
具体的手法に疑問の余地がある 具体手法がまったく許容できない
▼総合判断: Class 分類言うは易し、行うは難し
EBM は患者の転帰を見極めたうえで医療の是非を判断する。判断の方
法としては最も安全で保守的であり、医療を行ううえでの1つの理想で
はある。しかし、「EBM でなければ医療でない」とする姿勢は正しくな
い。実際、新しい治療法や診断法には、その有効性を証明する evidence
がないことがほとんどである。だからと言って、これらの方法が「誤っ
ている」と判断するのは早計である。
の進歩は臨めない。少なくとも、「EBM がないこと=役に立たない医療」
であると判断するのは危険である。EBM にもとづかない医療であっても、
その時点で手に入れ得る最良のデータにもとづいて医療を行うこと、そ
して、最終的に EBMに至るまでは、「必ずしも正しい医療ではない可能
性がある」という認識を忘れない姿勢こそが重要なのである。
CLASS 臨床的意義
必要なLEVEL Class I 絶対的推奨 文献の証拠能力は極めて高い ・常に安全で、絶対的に有用である。
・有効性が証明されている。
・適応がある場合には、積極的に施行すべき方法。
・1件以上の Level-1 研究がある。
・研究結果のすべてが支持している。Class II 推奨できる、安全である
・推奨できる、安全である。
・臨床的に有用である。
・有効性が完全に証明されたわけではない。
・ほとんどの文献が支持している。
・Level-1 研究に欠ける、または、Level-1 研究の結果がまちまち。
・有害である、との報告はない。
(Class IIa) 推奨できる、安全である。良質の証拠がある ・推奨できる、安全である。
・臨床的に有用である。
・第一選択の治療法として用いてよい。
・一般的に十分な証拠がある。
・研究結果のすべてが支持している (Class IIb) 推奨できる、安全である。許容できる証拠がある ・推奨できる、安全である。
・臨床的に有用である。
・代替的治療法として用いてよい。
・一般的な証拠は十分とは言えない。
・研究結果のほとんどが支持している。Class III 推奨できない、有用ではない、有害である可能性がある ・推奨できない。
・臨床的に有用とは言えない。
・害を及ぼす可能性がある。
・十分な根拠がない。
・研究結果の一部が有害である可能性を示している。Indeterminate 判断保留 ・ようやく研究が始まった段階である。
・今後の研究課題である。
・さらにデータが集まるまで推奨しない。
・証拠となるべき文献がほとんどない。
・高い Levelの研究が現在進行中。
・文献により結果がまちまちである。
・強い示唆を与える研究がない。方法論としてのG2000の意義