「芦田の毎日」について twitter 私の推薦商品 今日のニュース 写真ブログ 芦田へメールする

 まだまだあの「ベータフェロン」論文は怪しい ― 大森さんの(Xさんのコメントを踏まえた)再見解が提示されました。 2009年11月15日

私の重大な過失で、大森さんの再批判のコメントを見落としていました。11月12日のXさんの大森さんの見解(http://www.ashida.info/blog/2009/11/_from_1bms.html#more)についての、大森さん自身の見解です。

不掲載については、私自身の単純な(ブログ管理画面の)見落としです。他意はありません。大森さん、申し訳ありません。お忙しい中、ご協力いただいているのに失礼なことをしてしまいました。全文掲載させていただきます。

なお私自身のこの間のやりとりについての見解は、今(勉強しながら)まとめています。しばらくお待ち下さい。おそらくは学会トップレベルのやりとりでしょうから、私も慎重にならざるを得ません(苦笑)。

ただし私はこの間のみなさんのやりとりで、1年半前に書いた以下の考えはますます確信できるようになっています。

「私なら、こんな“古びた”論文は、10年以上かけて書いたとしても破り捨てます。そんなこ
とは「研究者」であればざらに起こることです。自然科学であればなおさらのことでしょう。

結局、この日本人研究者たちの論文(私には諸悪の根源とも思える)は、あなたも「推察」されているように1993年のヨーロッパでの研究をなぞっただけのものにすぎない。それを公表まで12年もかけて発表したにすぎない。その間に、現在、あるいは将来のMS研究・治療の方向性を示す論文がいくつも発表されていたにも関わらず。

結局2005年2月の治験結果は、12年前のヨーロッパモデルを日本的な実証性を装いながら反復しただけのものと言えませんか」。

やはり、この論文は怪しいということです。以下が大森さんのその見解です。

----------------------------

From 大森(2009-11-14 08:04:49)

芦田さん

私信です。

前回の投稿から、4度ほど投稿しましたが、掲載されないようです。芦田さんの目だけに触れるものになってもかまわないと思っていたのですが、XさんとPさんの議論を読んでいても、(私が思う)大切なポイントについての言及はないようですので、ぜひ、掲載していただければと思います。

あるいは、せめて、Xさん(http://www.ashida.info/blog/2009/11/_from_1bms.html#more)に転送していただければありがたいと思います。

Xさんは基礎の研究者とのことですので、人を対象とする治療の効果を、人を対象として検討する臨床研究には、その実施や報告のあり方に、厳密な国際的なとりきめや制度があること、取り決めや制度の内容、そしてとりきめが研究者にも医学雑誌にも往々にして守られておらず問題になっていることをあまりご存じではなかったようです。

もちろん、こういった臨床研究をどう実施し、どう報告し、どう評価するかという分野は比較的若い分野ですし、ましてや基礎の研究者であるXさんがこれらの取り決めやルールをご存じなかったことについて何か思う気持ちは全くありません。ただ、臨床研究のルールについて(少なくとも、ルールがある、ということについて)知っていただければ、Xさんのこの研究に対する見方が少し変わるのではないかと思います(変わらないかもしれませんが、よって立つところは、少し変わると思います)。

すでに投稿しているのは
サンプルサイズについての短いコメント(すでにコメント欄に掲載:芦田註)、
Pさんの一番最初のコメントについての短いコメント(すでにコメント欄に掲載:芦田註)、
Xさんの一番最初のコメントについての長すぎるコメント(今回この記事に掲載:芦田註)、
Xさんの二番目のコメントについての短いコメント(今回この記事に掲載:芦田註)、
です。

このうち、Pさんの一番最初のコメントについてのコメントは、Xさんのコメントとかなり似ています。重複になりますので、掲載してもらわなくてもいいです(もちろん、してもらってもいいです)。

これらのコメントは、前回同様、感想欄に記入したのですが、もし届いていないようでしたら、教えて(つぶやいて)ください。再送します。

また芦田さんご自身のご感想はないようですが、疑問点は整理されましたでしょうか。ツイッターのほうでも、意見を求められていましたので気にしています。この論文の評価について私が芦田さんの役にたてることがあれば、そうしたいと思っています。


From 大森(2009-11-12 17:38:55)

もう一人の別の研究者の方(芦田さんにならって、Xさんとお呼びしますね)のコメントについて、コメントしたいと思います。

一部、Xさんの意見に反論しているように見えるところもありますが、目的は反論というよりも、芦田さんの理解が深まればいいなあと思って書いています。Xさん、どうか気を悪くしないで下さい。

以下、この研究、あるいはこの論文とは、「インターフェロンベータ1bは日本人の再発寛解型MS患者において有効である:ランダム化された多施設研究」そのもの、あるいは発表された論文を指すことにします。


■「まず要旨の以下の部分についてですが」から、その数行後の「という読み方にも無理があります」までの部分と、【疑問点2】について、について述べます。(赤文字部分はXさんの当該コメント)


------------------------------

まず要旨の以下の部分についてですが
Subgroup analyses suggested that the magnitude and direction of treatment effect in patients with OS-MS and C-MS was similar, albeit not significant due to small sample size.

ここの部分で「similar」なのは「OS-MSグループにおける治療効果の傾向」と「C-MSグループにおける治療効果の傾向」です。

ただし、どちらもサンプルサイズが小さい(≒患者数が少ない)ので、治療効果の有意性を示すほどではなかった、という内容に私には読めます。

大森さんのコメントにある「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が“異なる”ことが示唆された」という読み方も「OSMS とCMSとでは、治療効果がちがっていた。この違いが統計学的に有意かどうかを調べるために検定したが、残念ながら有意差はなかった。これはサンプルサイズが小さいためと考えることが出来る」という読み方にも無理があります。


【疑問点2】について
サブグループ解析とは、例えば250μG 投与群の中でのOS-MS例が18例 (19.4%)、50μG 投与群の中でのOS-MS例が22 (23.2%)例あり、それらについて解析を行ったものになります。これらの残りがC-MS例です。

さすがに、このくらいの例数(サンプルサイズ)になると、動物実験と異なり、遺伝的背景も経験もばらばらな被検者のデータで、有意差が付くような統計結果が得られることは希ですが、それは分かった上で、せっかく患者さんのご協力のもとに得られた貴重なデータなので、サブグループに分けた解析も行ってみた、ということだと思われます。

で、上述のように250μG 投与群の方が再発率に対する有効性が高かったのですが、その効果は、C-MS例(0.746)とOS-MS例(0.608)では同様の傾向。ただし、例数が少ないので有意差は付きません。

したがって、「要旨には「OSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」なんて書いてありますが、そんな比較検討なんてはじめからしていないのです。」という大森さんの主張は間違っています。

-------------------------(Xさんのコメント終わり)

まず、確認しておきたいのですが、「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が“異なる”ことが示唆された」、あるいは「OSMS とCMSとでは、治療効果がちがっていた。この違いが統計学的に有意かどうかを調べるために検定したが、残念ながら有意差はなかった。これはサンプルサイズが小さいためと考えることが出来る」という私の文章は、

Subgroup analyses suggested that the magnitude and direction of treatment effect in patients with OS-MS and C-MS was similar, albeit not significant due to small sample size
(Pさんの訳では「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」。以下、部分Aと略します)

という文章の解釈(読み方)を書いたわけではありません。

この読み方には「無理」がある、どころか、100%間違っています。

私が言いたかったのは、部分Aが、薬の効果を比較した臨床研究の要旨としては不自然な文章であるということです。

「サンプルサイズが小さかったから有意にはならなかったけれど、治療の効果が同等であることが示唆された」のだとすれば、「サンプルサイズを大きくすれば治療の効果が同等であると統計学的に有意に言える」のでしょうか? どういう検定を使って???

もちろん、論文の著者が言いたかったことは本文を読めば分かります。

Xさんの言うとおりで、「どちらもサンプルサイズが小さいので、治療効果の有意性を示すほどではなかった」です。なるほど、グラフを見れば、これが言いたかったのだなって分かります。でも、部分Aにはそうは書いていない。

いちゃもんかな? あるいは、有意差や検定の意味に敏感(過敏かな)でなければ気にせずスルーしてしまうのかもしれませんね。

さてここからが大事なのですが、サブグループ解析において、この研究がやった検定(の結果とその解釈)は、

1.OSMSの患者さんについて、50μg群と250μg群の再発率を比較した。250μg群のほうが再発率は低かった。検定をしたらP値は0.093で、有意差とは言えなかった。解釈として、サンプルサイズが小さいからと考えた。

2.CMSの患者さんについて、50μg群と250μg群の再発率を比較した。P値は0.106で有意差とは言えなかった。この解釈として、サンプルサイズが小さいからと考えた。
の二つだけです。

もちろん、グラフを見るとわかりますが、OSMSの患者さんでも、CMSの患者さんでも、250μg群のほうが再発率は低くなっています。グラフの見た目は確かに効果が似通っています。

では、ここで、見た目だけではなくて、統計学的にも本当に似通っていると言えるのか検討しているのか? 

効果が似通っていることの検定はやっていないのです。

同等性の検定、あるいは非劣性性の検定という検定の方法がありますが、私は詳しく知りませんし、この研究のデザインでは出来ないのではないかと思います。

サンプルサイズが大きい、小さいの話は、50μg群と250μg群の再発率の比較についての話なのです。OSMS群とCMS群の比較についての話ではないのです。

部分Aにも、本文にも、「サブグループ解析では、OSMS群とCMS群のどちらにおいても、再発率が低かったが、サンプルサイズが小さい統計学的に有意ではなかった」とだけ書いてあれば、誤解がないのです。

ところが、インターフェロンがCMSに効くのと“同じくらい“ OSMSにも効くのだと思わせるような書き方をしているのが問題だと思います。

あるいは「検定はしていないし、グラフを視覚的に見ての判断だが、OSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」と書いてあるならいいかな。

え?細かすぎるって? うーん、そうかもしれません。自分でもいちゃもんのような気がしてきた。この問題についてはこれ以上難癖をつける?のはやめにしますね。

■【疑問点1】について、について(赤字部分はXさんの当該コメント)

--------------------

【疑問点1】について
まずFig.1に示されるように、スタートの治験患者数が208人で、安全性について解析できた方が192名、それらを2つのサブグループに分けて効果を解析し、最後まで追跡できた人数が50μG 投与群93名、250μG 投与群95名
という例数(サンプルサイズ)です。

【疑問点1】についての「大森さん」の主張は概ね納得ができます。

どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです。

なお、検定方法の問題については、生物統計の専門家ではないので、
今回の解析手法の妥当性については意見できません。

ただし、その他の点について、再発期間の中間値に関して、250μG 投与群で7.11日、50μG 投与群で16.43日となっていて、p=0.030で有意差があることが示されています。

再発しなかった方は250μG 投与群が44.2%、50μG 投与群で34.4%で前者が多いですが、これは有意差が付いていません。(この部分は【疑問点3】に含まれますが)

-------------------------(Xさんのコメント終わり)

この部分については、おおむね納得していただけたようで安心しました。 

p値について、追加説明させてください。きっとXさんは全ておわかりになっているのだと思います。ちゃんと説明するとあまりにも長くなるので、ごく簡単な説明にとどめておられるのだと思います。ですから、Xさんへの反論ではなくて、あくまで芦田さんのための追加の説明です。

「どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです」のところです。

この説明だけだと、1年前の私のような初学者は誤解してしまうかもしれないので補足します。

p値は、大まかに言うと、治療効果の差の大きさだけではなくて、サンプルサイズ、効果の指標によっては、効果のばらつきに規定されます。効果のばらつきというのは治療効果の個人差のことです。「とても効く人もいればあまり効かない人がいる薬」よりも、「誰にも同じくらいの効果を持つ薬」のほうが、効果のばらつきが小さいと言えます。

治療効果の差が大きければ、当然p値は小さくなります。しかし、サンプルサイズが大きくなっても、p値は小さくなります。効果のばらつきが小さい場合も、p値は小さくなります。

うんと効果に差が小さくても、サンプルサイズが大きくなるほどp値は小さくなりますし、効果の差が大きくてもサンプルサイズが小さければp値は大きくなります(ですから、医学研究では、p値よりも、効果の指標の点推定とその信頼区間を提示することのほうが好ましいと言われています)。

ですから、p=0.047 という数字だけでは、効果の大きさ(効果の差)がどの程度のものかを評価することは出来ません。

少し別の角度から説明してみます。

この研究のようなタイプの「理想的な医学臨床研究」では、p値は0.05(を少し下回るくらい)になります。(ここまでで、私が何を言いたいか分かった人はどうぞ、この部分は読み飛ばしてください。あるいは、こいつが、あれをどうやって説明するつもりかとはらはらしながら見ていてください)。

p値は、この研究のようなデザインの研究の場合、治療効果の差とサンプルサイズに規定されます。有意差を出したいわけですから、そのために、医学臨床研究者は、計画をたてる段階で、先行研究から見積もった(予想した)治療効果の差と、統計解析でどの程度のレベルをもって有意とするかを規定する数字(採用するp値(アルファエラー)やベータエラー)から、複雑な計算をして(といってもエクセルで出来るくらいですが)、有意差を出すために必要なサンプルサイズを決定します。研究に参加してもらう患者さんの人数を決めるのです。

医学臨床研究ではサンプルサイズは小さすぎても大きすぎてもいけません。

サンプルサイズが小さすぎれば、本当は効果に差があるのに、検定しても統計学的には有意にならなくなってしまう。

サンプルサイズが大きすぎるときの問題は二つあります。

一つ目。本当は臨床的に意味がある効果ではないのに、統計的には有意になってしまうということです。たとえばサンプルサイズがどんどん大きくすれば、再発率を50%から49.9%に下げる治療でも有意差を出すことが出来ます(この場合、各群4万人ずつくらいいれば)。前述しましたが、p値はサンプルサイズにも規定されるからです。統計学的には有意な差ですが、常識的にはどうでしょうか?

二つ目は、医学臨床研究は人体実験であるということです。効果が本当にあるかどうか分からない、もしかしたら副作用があるかもしれない、そういう未知の薬を患者さんに使ってもらうのです。あるいは、本当に効果がある(ことがいずれ分かる)薬を使うのなら、対照群としてプラセボを飲む羽目になった患者さんは気の毒です。そういう意味でサンプルサイズは小さいにこしたことはない。

また、医学臨床研究には果てしないお金と時間と人手がかかります。参加してもらう患者さんが少なければそれらも安くてすみます。

小さすぎもしない、大きすぎもしないサンプルサイズ、検定の結果、ちょうどp値が0.05 を少し下回ることが予想されるサンプルサイズを設定するのです。「少し」というのがどのくらい少しなのかは意見が分かれるのだろうと思いますが。

ですから、医学臨床研究で理想的な研究というのは、結果の解析で得たp値が0.05を少し下回るくらいの研究を言います(基礎研究では違うのかもしれませんね)。

この研究では有意差が出なかったのですからサンプルサイズが小さかったのでしょう。あるいは、もしp値が、0.05をはるかに下回るような結果がだったらそれは、サンプルサイズの設定に問題があった(大きすぎた)、と言うことになります。

また、理想的な研究であれば、p値が0.47くらいになるように(0.05を少し下回るように)サンプルサイズを設定しているのですから、p値から、治療の効果の差はこの程度であると評価することは、理想的な研究では不可能なのです。

初学者の方は、以上の議論をふまえた上で、Xさんの説明「どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです」を理解されるのがいいと思います。


■【疑問点3】についてもXさんには納得していただけたようなので書きませんが、芦田さんはどうでしょうか?(赤字部分はXさんの当該コメント)

------------------------

【疑問点3】について
すでに上記で触れたように、単純な再発しなかった方の数や割合については、250μG 投与群の方が多いですが、有意差は付きません。その他の点についても、250μG 投与の方が良い効果がありますが、それは高い効果とは言えません。

-------------------------(Xさんのコメント終わり)


■【疑問点4】について(赤字部分はXさんの当該コメント)

-------------------------

【疑問点4】について
最初の集団からの脱落する例数については、さまざまな理由がありえます。

芦田さんの奥様のように重篤な副作用により投与を中断したいと望んだ方があれば、最後までの検証を行うことはできません。

ドクターホッピングをする患者さんなどもあるでしょう。脱落例について、その理由をすべて追及することは、患者さんのプライバシーの問題もありますから、ほぼ不可能であり、論文に記載しなければいけない事項とは思えません。

逆に言うと、多くの治験研究や疫学調査においては、最後まで検証できるサンプルを集めるのは並大抵のことではありません。治験や調査に関わる医師や研究者と患者さんの信頼関係も重要でしょう。

-----------------------(Xさんのコメント終わり)

この研究のような研究に患者さんが参加するときには、契約書を交わします。脱落の理由について論文などのかたちで報告することについても同意が得られています。ですから、脱落の理由について追及することについては、プライバシーの問題はないし、不可能なことでもありません。

コンソート声明という、治療効果に関する医学臨床研究の報告のあり方について説明した国際的な取り決めがありますが、この中でも脱落とその理由についてはきちんと報告するよう求めていますし、医学臨床研究の評価のガイドブックの一つである、コクランハンドブックでも、脱落とその理由の報告の有無、内容についてきちんと評価すると定めています。つまり、治療効果に関する医学臨床研究の世界では、脱落とその理由については、きちんと報告することになっているのです。

臨床研究に研究者として参加されたことのある方なら(参加したことがなくても臨床研究の評価に興味がある人なら)、コンソート声明もコクランハンドブックもご存じだと思いますし、いまや、コンソート声明を意識しない治療効果についての臨床研究計画はあり得ないと思います(生命医学の基礎研究についても、そのあり方を規定した取り決めがあるのではないのでしょうか。もちろん、私は知らないのですが)。

副作用や脱落の評価がとても重要視されているということです。

なぜか。副作用がない薬はないからです。そして副作用はしばしば重篤なものになりうるからです。治療の効果とは、症状の改善と副作用をあわせて評価するものであって、副作用を評価しない臨床研究はあり得ません。脱落率や、副作用による脱落率を、研究の第一の評価項目にしている研究も実際にたくさんあります。

副作用や脱落についてきちんと記載することの重要性について説明したのですが、うまく伝わったでしょうか。

また、実はこの研究ではきちんと脱落やその理由を報告しているのです。論文中の図を見れば分かりますが、妊娠したので参加を途中で取りやめた人が一人いることすら報告しています。脱落例について、その理由をすべて追及することは、患者さんのプライバシーの問題もあったとしても可能であること(少なくともこの研究では可能であったこと)をまずは論文をお読みになってご確認いただければありがたいです。

しかし、私の指摘した問題点は、実は、Xさんのコメントの先にあります。

この研究で治療初期に取りやめた人たちについては、取りやめた理由がなにかという情報がないことだけを問題にしているわけではなく、そもそも、取りやめたのがどういうタイプの患者さんなのか(OSMSの患者さんなのかCMSの患者さんなのか)、その人たちがどちらのグループだったか(50μg群なのか250μg群なのか)についてもまったく報告されていません。このことが問題ではないかと思うのです。

インターフェロンの副作用が治療開始後、どういうタイミングで出現するのか、私は知らないのですが、この研究では、インターフェロンを少量から初めて少しずつ増やしていくという方法をとっているのですから、治療初期に出ることもあるのでしょう。治療初期に副作用が出る人(つまり副作用が出やすい人)を解析から除外して、副作用に強い人だけを解析するということは、治療の価値を過剰評価すると言うことです。これが問題です。


■「まとめますと」以下について。(赤文字部分はxさんの当該コメント)

-------------------------

まとめますと、「大森さん」という方の論文の読み方には、「この論文はアヤシイ」という結論ありきの傾向が感じられます。

この2005年の論文の意義については、その後に掲載されたPさんのコメントにある「Editorialのコメント」が非常に役立つと思われます。

However, neurologists who care for patients with optic-spinal MS/NMO should be reluctant to accept these results as definitive proof of efficacy in this subgroup.

の部分ですが、「しかしながら、OSMS/NMOの患者を抱える神経内科医が、得られた結果をこのサブグループ(OSMS)における確実な証拠とは受容しかねるのも無理はない。」というPさんの訳と微妙なニュアンスの違いですが、私ならshould be reluctantのところを次のように訳します。

「しかしながら、OSMS/NMOの患者を抱える神経内科医は、本研究により得られた結果をこのサブグループ(OSMS)における確実な証拠として受け入れるには無理があるだろう(そうすべきではない)」

つまり、一応「慎重に扱うべき」という意見です。

-------------------------(Xさんのコメント終わり)

Xさんは『「大森さん」という方の論文の読み方には、「この論文はアヤシイ」という結論ありきの傾向が感じられます』とお書きになりました。

ありがとうございます! その通り!! むしろ、それ以上です。結論ありきの傾向どころではありません。

私は論文を読むとき、まず、この論文はインチキにちがいない、と思って読みはじめます。アヤシイなんて中途半端なことは思いません。
さまざまなポイントをチェックして、なるほどこれは真っ黒けのインチキではない、多少問題はあるけれどこの論文には意義があると思えた論文、あるいはそれ以上の論文だけ控えめに参考にします。

なぜか。

治療がタダなら良いのです。副作用がないなら良いのです。副作用がなくて、タダならば、他によい治療法がない場合には効果が確立されていない治療法であっても、患者さんにその治療を紹介することは許されるでしょう。

しかし、治療には必ず副作用があります。また、治療は(薬は)タダではありません。副作用があるし、お金もかかるけれど、それを上回る効果があるから、患者さんはお金を払って、我慢して薬を飲む(注射を受ける、手術を受ける)のです。

これまでさまざまな治療が発明されました。一部は有効な治療として現在も残っています。しかし多くは予想していた効果がないことが分かり使われなくなり、一部は有害であることが分かり使用が禁止されました。

ですから、医者は常に新しい治療に懐疑的です。懐疑的であるべきだと思います。ですから、臨床医は論文を疑って読みます(正直言うと、みんながみんなそうかと言われると多分そうではなくて、実は少数派なのだろうと思うのですが)。

この論文についてもそうです。要旨を読んだとき、私の印象は真っ黒でした。そして予想通り、本文を読むと確かに怪しいことが分かったということです。

基礎の研究者の論文の読み方とは少し違うのかもしれませんね。どうでしょう?

■ただしこの論文はともかく、この研究そのものには大きな意義があると思います。

治療の価値を一つの研究だけで証明することは困難です。むしろ、今後、一つの研究だけでその価値を決定できるほどの、劇的な効果を持ち、副作用も少ない薬はそうそうあらわれないのではないでしょうか。

ですから、世界中で行われた、同じようなデザインの臨床研究を集め、それを総合的に評価することで、治療の評価は決まっていくのだと思います。ですから、この研究そのものは、MSの患者さんのインターフェロン治療の有効性についての基礎データとなりうる、有意義な研究だと思っています。総合的な解析の結果、インターフェロンが効くという結論になるか、効かないという結論になるかはともかくとして。

私が怪しいと結論したのは、あくまで、この論文で採用された解析や結果提示の仕方です。また、この論文だけで(要旨を読んだだけで)、OCMSにもインターフェロンが効くという自分の信念に「お墨付き」をもらったと思う医者がいるとしたら、あるいはそういう風に宣伝している製薬会社があるとしたら、それが問題だと思うのです。


----------------------------

●Xさんのコメントについて from 大森(2009-11-12 20:18:40)

Xさんの以下のコメント(http://www.ashida.info/blog/2009/11/_from_1bms.html#more)について、追加コメントをします。

「有意差が少しでも出るような解析方法を選んだことはもちろんありえると思われますが、そのこと自体が医師や研究者の倫理観に照らして、逸脱しているとは言えないと思います」

このコメントは非常に重要な指摘です。この研究に存在するかもしれない最大の問題点に関連しています。Xさんのこのままの文章だと、その問題点が明らかになりにくいので、少し文言をつけくわえてみます(括弧内)。

「(研究の結果を見た上で)有意差が少しでも出るような解析方法を(有意差が出るからという理由で意図的に)選んだことはもちろんありえると思われますが、そのこと自体が医師や研究者の倫理観に照らして、逸脱しているとは言えないと思います」

Xさん、どうでしょうか? 結果を見た上で、有意差が出やすい解析方法を選ぶことも「逸脱」していませんか?

この研究での最大の問題点の一つは、「著者たちがデータがそろったあとに、いろいろと解析を試してみて、有意差がでた比較を選択的に採用・報告しているかもしれない」という疑いです。

データを解析しながら結果を見て有意差のでる解析方法を選ぶことは、臨床医学研究ではやってはいけないことです。そして、こういうやってはいけないことをやっている研究が実際に多くあり、大きな問題になっています。

データがそろってから解析方法を選ぶというこのきわめて重大な倫理違反を防ぐために、この研究のような臨床研究には、研究を実際に開始する前に(患者さんを集める前に)、計画書を登録する国際的な制度があります。

また研究計画書そのものが、研究結果が出る前に査読制度のある医学雑誌に掲載されることもあります。臨床研究の評価法のチェックポイントの一つに、用いられた評価項目や解析方法が、あらかじめ定められたものであったかというものもありますし、計画書が出版されていれば、計画書に記載された解析方法と、結果を報告した論文に記載してある解析方法とに異同がないかを確認することになっています。

文献検索サイトでselective reportingと検索すれば、関連する論文がたくさん出てきます。ぜひお読みになることをおすすめします。

私は基礎研究のことはよく知りません。基礎研究では、研究の目的によっては許されることなのかもしれませんね(????)。しかし本当にそうなら、基礎研究の常識と臨床研究の常識とはずいぶん違いますね。

しかし臨床医学研究では、最大の倫理違反の一つです。

もちろん、Xさんは、研究を始める前に(データがそろう前に)、有意差が出やすいような解析方法を選択する、ということについて、倫理観を逸脱しているとは言えないとおっしゃっているのかもしれません。ですから、以上の記述はXさんのコメントに対するコメントと言うよりも、この研究の問題点を再度指摘したということなのかもしれません。問題は「この研究が、データがそろった後に有意差の出やすい解析方法を選ぶという重大な倫理違反を犯している可能性」なのです。

→「にほんブログ村」ランキングへ

(Version 2.0)

にほんブログ村 教育ブログへ ※このブログの現在のブログランキングを知りたい方は上記「教育ブログ」アイコンをクリック、開いて「大学」「専門学校教育」を選択していただければ現在のランキングがわかります)

投稿者 : ashida1670  /  この記事の訪問者数 :
トラックバック

この記事へのトラックバックURL:
http://www.ashida.info/blog/mt-tb.cgi/1185

感想欄

くだんの「インターフェロンベータ1b」論文を巡る専門家諸氏の論戦、当該患者およびそのご家族の皆様には不謹慎ながら、わくわくしながら読ませていただいております。

このように、医学・生命科学分野における卓異な研究者同士の論戦を、間近で目にする舞台を提供していただいた芦田様に感謝いたします。

このようなところで、私のような門外漢がコメントするのは恥ずかしい限りなのですが、ちょっと大森さんを応援させてください。

「え?細かすぎるって? うーん、そうかもしれません。自分でもいちゃもんのような気がしてきた。この問題についてはこれ以上難癖をつける?のはやめにしますね。」

そんなことはないと思います。

統計学は人文科学・自然科学を問わず、非常に有効な分析手段を提供しますが、その前提は、統計処理は一定の数的指標を生みだしはするが、その解釈を生み出すことはできない、ということだと思います。

数的指標をどう解釈できるかは、たとえば、実験科学の分野では実験計画に依存します。だからこそ、研究目的と指標解釈のコンテキストとの一貫性を保証するための方法論として「実験計画法」といったものが存在するのだと思います。

したがって、数的指標の類似性(50ug投与群における年間再発率と250ug投与群における年間再発率との比が「OSMS患者で0.608(39.2%の減少)、CMS患者で0.746(25.4%の減少)」であること)と、「OSMS とCMS における本治療効果の程度や方向性が同等である」という解釈の間には妥当性がないという大森様の指摘される問題は、決して看過できることではないと思います。

投稿者 通りすがりの閲覧者 : 2009年11月15日 20:22
感想を書く




保存しますか?