-大規模な医療データにアクセスするには-
やりたいスタディーがあるがデータベースがない、というのは結構ある悩みではないだろうか。
最も単純なデータベースの構築方法は自分の所属する機関・病院のデータをカルテから採掘してくる人海戦術だと思うが、かなりの労力と時間がかかる。
電子カルテのバックエンドにあるデータベースから必要なデータを抽出してくれるインフラがあったりするが、稀なケースだと思う。うちの病院では大学側がとってきたグラントでそのサービスを賄っているが、それでもオートで取れる乱雑なデータを臨床的に有為な変数におとす段階でかなりの労力がいる。
そして常に根底にあるのが、一施設のデータから得られる臨床的な解釈には限りがある(ので論文が通りにくめ)という問題ではないだろうか。
もちろんスタディーによっては上記の方法で手に入れたデータでしか検証できないものもあるし、僕の今行っているスタディーのうち半分くらいは自動と手動のデータ抽出を組み合わせて作った一施設データベースを基にしている。強みはデータの粒度だがサンプル数と解釈の一般化にリミテーションがある。
それを踏まえて、 意外と知られていない(?) 無料・安価で手に入る米国内の大規模データベースがあるので紹介したい。ここでいう「大規模」は複数施設・州・国レベルのデータの意。
大まかなデータベースの種類は以下
Clinical database:
臨床的な検証を前提に構築されたデータベースで、疾患ごと、手術ごと、などの登録基準で形成されている。例えば、僕もよく使う 胸部外科学会 (Society of Thoracic Surgeons)の心臓外科手技のデータベースは心臓外科手技に密接な800程の変数が記録されている。登録基準が「心臓外科手技を受けた患者」なので、 心臓疾患があるが内科的管理をされている患者は含まれない。粒度が高いが見方によっては包括度が低い。
Administrative (Claims) database:
医療施設が保険機関に提出して医療費・出来高等を計上する際に発生するデータで、大抵の場合は州の公衆衛生局が各施設からのデータを統括して保持している。入院・外来診断ごとに患者レベルの疾患や手技が ICDコードとして記録されている。臨床的な意図が介入していないため粒度が低いが登録基準が「医療施設で医療行為を受けた患者」なので包括度が高い。MedicareデータやNational Inpatient Sampleがこれにあたる。
Medicare Inpatient やSociety of Thoracic Surgeons の国レベルのデータは正規ルートでいくと数十万〜数百万円という価格設定なので今回は割愛する。
比較的安価・無料のデータベース
National Inpatient Sample (Administrative):
全米の入院データの約20%が層化抽出されたデータベース。
有病率の推移などを調査するのにとても有効。
2012年以前のデータは学生レートで$50/年で購入可。一度購入すれば使い放題だが、identifier が無いためlongitudinalなリンクが不可、追跡データが無いことやサンプリング手法のせいで解析がやや複雑になるのが難点。
上記と同様Agency for Healthcare Research and Qualityが提供しているデータで、州ごとのデータが年ごとに購入可。
Identifier が無いためlongitudinalなリンクが不可、追跡データがない等の難点があるがNational Inpatient Sampleのような抽出を通していないフルのデータという利点がある。
州ごとに値段が違いすぎるのはかなり不思議(アリゾナ$35/年に対しノースカロライナ$535/年)
上記のState Inpatient Data では提供されていない州レベルのデータ。 入手経路は 州ごとの公衆衛生局との直接交渉となる。
うちでコネチカット州のデータを購入した時は提言書を直接局に提出して受理された後に 費用を払ってデータを受け取る、という2ヶ月程の流れだった。
去年の時点で10年分の全死亡データ(vitals statistics) が全部で$50、また10年以上分の入院データ が全部で$200 とお買い得だった。
利点はIdentifier 付きのデータが手に入るのでlongitudinalなリンクを通して生存追跡が可能。ニューヨークやカリフォルニアにも似たメカニズムがあるが割高。
National Heart, Lung, & Blood Institute の BioLINCC (Clinical):
NIHのグラントで行われた臨床治験のデータが無料で手に入る。
BioLINCCを通して提言書を出しそれが受理されるとデータが受け取れる。僕の過去の提言書はどれも出して2日以内に受理されたので、ちゃんとレビューされているのかは多少疑問。
NEJM などに載った治験の実際のデータをいじれるのは楽しいし、デザインによってはかなり強力なツールになりうる。
ただ、データの枠組みがオリジナルの治験のデザインに沿ったものなので、実際に自分の思い描くスタディーがそのデータを使ってできるものなのかの見極めが重要となる。Data dictionary が公開されているのでそこから感じは掴めるが、実際のデータのクオリティーやmissingnessなどはデータを受け取るまで分からないところが難点。
SOAR DATA @ Duke (Clinical)
デューク大学が無料提供しているデュークで行われた心臓カテーテルのデータベース。使った事がないので詳しくは分からないが2014年時点で19本論文を輩出している。
The YODA Project @ Yale (Clinical)
僕の今のボスがMedtronic の偉い人と始めたデータシェアリングのプログラムで、製薬会社などIndustry の 治験データが無料で公開されている。現時点で276の治験データが登録されている。提言書のレビューはあるがボスいわくほとんど全部通しているらしい。
書ききれなかったものも含めてまだまだ良質なデータを比較的安易に取れるソースは存在すると思う。ただ、基となっていたリサーチクエスチョンが既存のデータベースの特徴に合わせようとする課程で原型を失っていって挙げ句解釈不能なものになってしまうのは避けたいところ(もちろん実体験あり)。
2 thoughts on “サンプル数が足りないならデータをもらえばいいじゃない”