Part1 では書ききれなかった論文トピックの落とし穴の一つがサンプル数 (small sample size) で、サンプル数が少ない、もしくは少ないだろうと予想されるスタディーに手を出す場合はかなり注意が必要だと思う。 サンプル数は多い方がいい、というのは直感的にわかるのだがサンプル数が少ないのがマズい理由は多角的。 統計的なディテールは専門家にお任せするがsmall sample size の問題点はコンセプトとして: 読者の印象 「有意差無し」を解釈できない モデルがオーバーフィット 等がメインではないだろうか。 読者の印象 Abstract のMethods で、後ろ向きの効果比較系のスタディーなのにn=50とか書かれているとその時点で論文の内容に対してかなり怪訝になってしまうのではないだろうか。査読の場合はこの時点でかなりのダメージを被っている印象。 ただサンプル数自体に本質的な重要さはなく、メソッドとstudy aimのコンテキストによって、「多い少ない」の評価が決まると思う。例えば単一施設の n=50 のスタディーでも、COVID19の世界最前線データをdescriptivelyにまとめたものなら価値がある。世界初の手技のアウトカムデータなどもこの類。 そして基礎的すぎるかもしれないがサンプル数と混同されがちなのが、その研究結果がどれだけ幅広い人口グループに当てはまるかを表すrepresentativeness ではないか。例えば、医療環境が全く違った発展途上国の病院から得た10万人のデータはどれだけビッグデータでも先進国の従事者や患者にとってはあまり意味がない。 ただこの様なあからさまなケースは稀でrepresentativeness は相対的で突き詰めた評価が難しい。なのでsingle vs. multicenter と合わせてまず大雑把な印象付けをするのがサンプル数だと思う。 余談だが、サンプル数が少ないのをなんとか隠そうとしてあえてあまり関係のない母集団の数を書いて最終的に解析に含まれた数を曖昧にするアプローチをたまに査読で見る。サンプル数は確実に評価のファクターなので絶対にどこかの段階で問い詰められるし、分かりにくい書き方をしたことで心証が悪くなることの方が多いと思うのでどんなに少なくても明確に書いた方が総合的にプラスになると思う。 有意差無しの解釈が不可能 効果比較のスタディーで結果が有意差無しだった場合に付き纏うのが「検定力が足りていたか」という疑問で、サンプル数が明らかにに少ない場合はここでつっこまれる。 有意差があった場合でもサンプル数が少ないとlow precisionによるただのノイズではないかという批判になるが、とりあえず有意差なしのケースで検討したい。 例えば治療法Aと治療法Bで1年生存率が50% vs. 90% という大きな差異があった場合でもN=10 vs. 10 の極少サンプルのため p=0.5で有意差無し。これを ”There was no difference in 1-year survival between the two treatment modalities.”Continue reading “リスクヘッジの研究トピック選び:Part 2”
Category Archives: データ
リスクヘッジの研究トピック選び: Part 1
障害物を避けることは効率化の基本だと思うのだが、臨床研究にも障害物があり、障害物まみれの「ヤバそうなプロジェクト」をトピック選びの時点で察知することはかなり重要なスキルだと思う。 そして臨床研究が破綻・泥沼化しうる落とし穴はいくらでもある。僕もハマりまくったし、失速して風化していくプロジェクトもたくさん見た。 そのような惨事をどれだけ事前に防ぐことができるか、または深入りする前にプロジェクトを切る英断を下すことができるかはPIや研究者の能力の一つだと思う。 「ヤバいプロジェクト」は時間を無駄にするし、チームのモチベーションが下がることや変なプロジェクトにコラボレーターや学生を引きずり込んでしまうと信用問題になり今後のコラボに影響する、等の副次的なものもあるのではないか。 なのでトピック選びをする際にはある程度、リスクヘッジの観点が加わると良い気がする。今回はよくある落とし穴の認知について書く。 よくある落とし穴: データベースがない それっぽいデータベースはあるけど重要な変数がない 全く同じトピックをベターにやった論文がある サンプル数が少なすぎる→Part 2 でやります データベースがない 本来なら「あ、データないね」で終わるはずの単純な問題なのだが、データがないのにやりたいスタディーのアイデアを実写版ジャイアンに持ってこられまくって大変なことがあった。 追求したい理想のリサーチクエスチョンを既存のデータと摺り合わせて落とし所を探るプロセスは不可避だと思うので、リサーチクエスチョンを検証するのに必要なデータと入手可能なデータが両方頭に入っていないと、上記の僕のようにこのステップをジャイアンと堂々巡りする羽目になる。 研究チーム構成についての記事でも少し触れたが、既存のデータをある程度把握している人物はキーパーソンだと思う。この感じのスタディーがやりたければこのデータベースに必要な患者数と変数が記録されている、というカタログ的な役割。更にこの人に臨床知識やスタディーデザインの技術があれば追求できるスタディーの幅と質がぐんと増えるのではないかと思う。 ただ、既存データと一概に言っても幅広すぎるので、ある程度使うデータが決まっている分野やトピック、というフレーム内のエキスパートだが、この役割を担う人がいるだけでプロジェクトの取捨選択がかなりスムーズに進むと思う。 データベースは無いけど電カルからデータを集めれば作れるよ、という場合はより一層の注意が必要。データベース構築は膨大な時間を要するので、データの定義や採取にかかる労力とそのデータから得られる(と予想される)研究結果の価値を天秤にかけて厳しく事前評価しなければいけない。 このデータベース頑張れば作れるからやってみよう、程度のノリでデータベース構築に手を出すのはリスキーだと思う。そして、研究目的なしにただ、あと後ペーパー書けそうだからデータベース作っとこう、というアプローチもかなり危険。変数などデータベースのデザインがプロジェクトの観点から整理されていないため、先にデータベースを闇雲に作って(3回くらいやった)上手くペーパーにつながった覚えがない。 僕は最近は納得のいくレベルのデータ定義や採取、missing data の許容度などに考えを巡らせると前に進めなくなってしまうので自分でデータ定義から始めないといけないスタディーにはあまり手を出せずにいる。 それっぽいデータがあるけど重要な変数がない これは手が出そうな分、単にデータベースが存在しない場合より質が悪いかもしれない。 例えば、心臓外科のリサーチでよく使うSociety of Thoracic Surgeons (STS)という学会が管理している心臓外科手術に特化された数百の変数が記録されているレジストリーがある。データの定義もしっかりしているので自施設のデータを使って研究しているグループは多い。 ただ生存や再入院が術後30日以内までしか記録されていないので、例えばバイパス手術の結果に焦点を当てたい場合は長期成績が重要なのでこのデータベースのみではあまり意味のある結果が得られない。 「じゃあ長期データ集めればいいじゃん」ということなのだがこれが意外と難しい。生存データは何通りか方法があるのだが長期の生存はトピックとしてやり尽くされている。 再入院・再手術は自施設内で行われたものでないと電カルに記録されていないし、患者や家族に連絡して再入院の有無を確認した場合、手術からこの確認のインターバルが一定でないといけないし、ほぼ確実にリコールバイアスについてレビューでツッコまれる。 再手術の有無を忘れることはそうないだろうが、手術の日付や悪い場合だと年までが曖昧な場合が結構あるし、この方法ではアテにならない、という論文も数多く存在する。 なので頑張って何百、何千人という患者にコンタクトしたとしても得られたデータが使い物にならない、というリスクがある。 そしてそれだけの労力に見合うデータかというと既存のスタディーと照らし合わせてもかなり疑問が残る。 基本的に、後ろ向きのデータ集めを行う場合は常にこう言ったリスクが付き纏うと思うので、「できそうだから」という理由のみで追求するのは危険だと思う。かなり勝算があるものを更に吟味した上で追求したら良いのでは。 同じトピックをベターにやった論文がある インパクトの高いスタディーを再現性評価の目的から模倣する、というアプローチはメソッドが伴っていれば全然アリだと思うが、似たようなことやってみようという軽いノリで手を出すと行き詰まりやすい気がする。 もちろん既存のスタディーの上をいく要素が何かあればいいのだが、自分のスタディーよりもレベルが高いものが既に存在しているのに、今更質や量で劣るデータを使って似たようなリサーチクエスチョンを追求するのはリスキーだと思う。 これは僕が昔ジャイアンにこの手のトピックをたくさん投げられて色々葛藤した末の結論なので人それぞれだと思うのだが、 まずsignificance を議論するのに苦労する。重箱の隅をつつけば必ず何か見つかるのだが、例えば仮に他の全てのパラメータが同じだとして、multi-center のスタディーが既にある状況で同じ地域や国でsingle-center のスタディーを行う意味って多分そんなに無い。 受け入れてくれるジャーナルはあるかもしれないが、自分でただの模倣スタディーと思いながらモチベーションを保つのはなかなか辛いし、最初から低めジャーナル狙いのペーパーを書いて上手くいった試しがあまり無い。 なので、真似るのは割と簡単かもしれないが、既存スタディーにもう一味加えられない場合はハイリスクだと思って臨むと良いのではないだろうか。 まとめ 研究トピック選びにもフェーズがある気がする。例えば僕は、学生の頃はとにかく自分の周りにあったものを片っ端からやっていたが、ちょっと解析ができるようになってからはもう少し取捨選択するようになった。今は結構先まで見通しがつくものでは無いと手を出さないようになってきていると思う。 いずれにせよリスクヘッジの観点が加わるとトピック選びに深みが増すような気がする。ただ、なんでもがむしゃらにやっていた頃の経験も無駄ではないと思う。 Part 2 へ進む
統計ソフト選び:RでOK!
統計ソフト選びは好き嫌い、個人の慣れや需要に左右されることが多いと思うで参考になるか分からないが一応記事にしておく。 妻はRでパッケージを作っている側の人間なのでまたそっちの話を書いてもらおうとも思う。 「ペーパー書きたいんだけど、どれ勉強したらいいですか?」 という人に僕は恐る恐るRを勧めている。 僕が使ったことのあるソフトは SAS R Python (Python は言語だろ的なツッコミは無しで…) Stata 習熟度はまばらで用途も違うのだが、1番長く使っているのはSAS。Python は機械学習のプラットフォームを作るのに勉強して今はデータハンドリングに使っている。Rはほとんど data viz (data visualization) のみ。Stata は授業で嫌々1年間使わされたがあまり身に入っていない。 全てのプラットフォームを使い尽くしたわけでは全然ないしもちろん見落としている長所短所があると思うので、こんな特徴もあるよというお声があればシェアしていただけたらとてもありがたい。 以下は僕の私見。 SAS vs. R ベーシックな臨床・アウトカムリサーチをするのに必要な解析手法はSAS 内で完結していると思う。Rはそれに加えて、プラットフォームが柔軟でdata vizが他と比べて格段に優れているので更に上を行く印象。Pythonはおそらく機械学習やディープラーニングの方に行く時に有効だと思うのだが、普通の生物統計系の解析やdata vizに弱い感じがする。 なので、例えば共同研究者がSASのスーパーユーザーでSASを使った方がコミュニケーションとりやすい、とかSASを手取り足取り教えてくれる、等の外的要因がない限りはRスタートが良いと思う。 基本的に、SASにできてRにできないことは無いと思う。また、SASのヘルプページは象形文字レベルの不可解さでRのサポートコミュニティーや掲示板の比にならない。 そして重要なのが、SASは有料でライセンスを個人で買う場合100万円とかする。Rは無料なのでそこでも大差がつく。そしてWindows版のみ。 その上で僕が経験したSASが必要だと感じたかなり特殊なケースは: Centers for Medicare and Medicaid (CMS) などの政府機関は認定された開発者が書いたパケージ/ソフトではないとダメなのでSAS推奨。 ニッチなパッケージが何故かSAS専用にデベロップされていてR版が存在しない、もしくはベータ版オンリーで弱い。 に限られるので基本Rで良いと思う。 ただ、SASの方が最初の立ち上げ手順が簡単なことやデータシートが直感的だったりコードが書きやすかったりでラーニングカーブはRと比べて低めな気はする。 下はお蔵入りしたが気に入っていたggplotを使ってRで作った図。あとTable 1 作成を効率化できるtableoneとか気に入っている。後は、図を手書きっぽい仕様にしてくれるggroughでできた図をいつか論文に通したいと思っている。その程度でR語ってんじゃねぇという方、ごもっともです! Stata vs. R or SAS Stataはスーパーユーザーの生物統計系の人に聞いたところSASと同等レベルのことができるので他に手を出す必要は感じない、という意見を得た。 僕はSAS, R, Python 後の強制Stataだったのであまり良い印象はない。Continue reading “統計ソフト選び:RでOK!”
メタアナリシスというデータ格差を取っ払う最終兵器
論文にさえアクセスできればメタ解析ができる。各段階で使えるリソースのまとめ。 メタ解析に関する授業で、データ格差に関する面白いディスカッションが得られたのでリソースのまとめと合わせて書こうと思う。 前回は、手に入れ易い医療データベースについて書いたが、根底にあった思いはデータ格差に対するフラストレーションだ。Medicare Inpatient 等の超良質なデータは一部のトップグループによって独占されているのが現状で、何のコネもなく大した研究費もない一臨床医(僕)にはアクセスすることさえ出来ない。このデータ格差のハンデを克服するには?オープン・データでも使い方次第ではかなりいいスタディーができると思うが、もう一つ下克上を可能にする最終兵器がメタアナリシス(メタ解析)だ。 メタ解析を専門としている教授が「私がメタ解析が好きな理由はdemocratic だからだ」と言っていた。彼のいう“democratic” は平等、というような意味合いだと思う。主要な論文データベースと論文にさえアクセス出来る環境があれば理論的には、JAMA や Lancet に載っているメタアナリシスが誰にでもできる!ということを熱弁されていた。 なるほど。 突き詰めれば解析技術やメソッドに関する専門知識は必要なのだが、データアクセスのベースラインは確かに割と簡単にクリアできる。ロマンチックな話のような気がする。 また、ほとんどのステップを複数人でリピート・重複させる必要があるので、あまり時間がないがリサーチに関わりたい、という臨床医や学生でも部分的に貢献することができる。 大まかな定義、ステップ、リソースを紹介する。 ステップの詳細は全てCochrane のハンドブック にかなりのディテールで書かれている。 まず定義。 システマティックレビュー メタ解析の前に必要なステップで、既存の論文をOvid/Pubmed等の主要データベースから抽出してくるプロセス。解析まで行わずにこのステップでシステマティックレビューとして論文にする事も可だが定量的な結果を欠く。 メタ解析 システマティックレビューで得た論文のリストを解析して定量的な結果に するプロセス。 ステップが以下。 1. レビューのリサーチクエスチョンを定義する 2.PROSPERO という現行のメタ解析・システマティックレビューが登録されているデータベースで同じテーマの現行プロジェクトが無い事を確認 2a. PROSPEROへの登録は任意なので他のグループが手がけていても登録されていない場合がよくある
サンプル数が足りないならデータをもらえばいいじゃない
-大規模な医療データにアクセスするには- やりたいスタディーがあるがデータベースがない、というのは結構ある悩みではないだろうか。 最も単純なデータベースの構築方法は自分の所属する機関・病院のデータをカルテから採掘してくる人海戦術だと思うが、かなりの労力と時間がかかる。 電子カルテのバックエンドにあるデータベースから必要なデータを抽出してくれるインフラがあったりするが、稀なケースだと思う。うちの病院では大学側がとってきたグラントでそのサービスを賄っているが、それでもオートで取れる乱雑なデータを臨床的に有為な変数におとす段階でかなりの労力がいる。 そして常に根底にあるのが、一施設のデータから得られる臨床的な解釈には限りがある(ので論文が通りにくめ)という問題ではないだろうか。 もちろんスタディーによっては上記の方法で手に入れたデータでしか検証できないものもあるし、僕の今行っているスタディーのうち半分くらいは自動と手動のデータ抽出を組み合わせて作った一施設データベースを基にしている。強みはデータの粒度だがサンプル数と解釈の一般化にリミテーションがある。 それを踏まえて、 意外と知られていない(?) 無料・安価で手に入る米国内の大規模データベースがあるので紹介したい。ここでいう「大規模」は複数施設・州・国レベルのデータの意。 大まかなデータベースの種類は以下 Clinical database: 臨床的な検証を前提に構築されたデータベースで、疾患ごと、手術ごと、などの登録基準で形成されている。例えば、僕もよく使う 胸部外科学会 (Society of Thoracic Surgeons)の心臓外科手技のデータベースは心臓外科手技に密接な800程の変数が記録されている。登録基準が「心臓外科手技を受けた患者」なので、 心臓疾患があるが内科的管理をされている患者は含まれない。粒度が高いが見方によっては包括度が低い。 Administrative (Claims) database: 医療施設が保険機関に提出して医療費・出来高等を計上する際に発生するデータで、大抵の場合は州の公衆衛生局が各施設からのデータを統括して保持している。入院・外来診断ごとに患者レベルの疾患や手技が ICDコードとして記録されている。臨床的な意図が介入していないため粒度が低いが登録基準が「医療施設で医療行為を受けた患者」なので包括度が高い。MedicareデータやNational Inpatient Sampleがこれにあたる。 Medicare Inpatient やSociety of Thoracic Surgeons の国レベルのデータは正規ルートでいくと数十万〜数百万円という価格設定なので今回は割愛する。 比較的安価・無料のデータベース National Inpatient Sample (Administrative): 全米の入院データの約20%が層化抽出されたデータベース。 有病率の推移などを調査するのにとても有効。 2012年以前のデータは学生レートで$50/年で購入可。一度購入すれば使い放題だが、identifier が無いためlongitudinalなリンクが不可、追跡データが無いことやサンプリング手法のせいで解析がやや複雑になるのが難点。 State Inpatient Data (Administrative): 上記と同様Agency for Healthcare Research and Qualityが提供しているデータで、州ごとのデータが年ごとに購入可。 Identifier が無いためlongitudinalなリンクが不可、追跡データがない等の難点があるがNationalContinue reading “サンプル数が足りないならデータをもらえばいいじゃない”