先日の講演の事後コメントで 「もっと実例があれば良かった」や「自分の論文を使ったケーススタディーがあればよかった」等のご指摘をいただいたので僕のこだわり論文を裏話を交えて書くシリーズをやってみようと思う。
一応ググって翻訳しているが日本語の専門用語が間違っているところはご指摘いただけたらありがたい。
第一弾はストーリーを書きやすそうだったこちらの論文。

個人的にはトップ5入りするくらいは好き。
メタデータ
- ジャーナル: J Thorac Cardiovasc Surg (IF 4.4)
- 記事タイプ: Expert Opinion (1,500 words)
- 事前リジェクト:1誌 (Ann Surg)
- 本誌リバイス:1回
- 所要時間:〜40時間
- 備考:エディトリアルが4本ついた。
概要
現行の多用されている手術リスクモデルには単一の手術タイプ (i.e. 虫垂切除)ではなくて複数の手術タイプが混ざったデータ(I.e. 虫垂切除 + 食道切除 + 頸動脈内膜剥離)にフィットさせたものがあるが、
100歩譲って手術タイプをrandom effect 等で考慮してフィット自体はリーズナブルになった場合でもそんなごちゃ混ぜモデル(universal risk model)の性能って数字出されても解釈の仕様がなくない?という問題提議をした論文。
シナリオとしては消化器外科医が自分の患者の食道切除のリスクを知りたい時に、そのリスクモデルが心臓血管外科系の手術や整形外科の手術を含むデータにフィットされている場合、そのモデルが食道切除のアウトカムの予測をどれほどの精度で行えるのかは総合モデルの性能評価からはわからない、というもの。
そのごちゃ混ぜモデル全体のAUROCが0.9でも食道切除のケースに限っては0.6ということがあり得るのに総合モデルの性能しか報告されていないのはユースケースが考慮されておらずマズい。
そのせいで弱小モデルがイケてる風に上塗りされて世に出されているのではないか、という議論。
実例としては心臓外科系のEuroSCORE II や外科全般のNSQIP risk model などがこのuniversal risk model にあたり、臨床ではそこそこ、研究では頻用されているリスクスコアを算出するためのモデル。
NSQIPはAmerican College of Surgeons という大御所学会が擁護・スポンサーしているモデル。EuroSCORE IIもヨーロッパの偉い心臓外科医がたくさん関わっているのでこれを名指しで批判するのは躊躇ったがまぁ我々米国だし共著者エライしいいか、となった。
対して米国発のSociety of Thoracic Surgeons (STS) のモデルはisolated CABG用, isolated AVR用, CABG+AVR用といった具合にかなり手術タイプごとに絞られているので、モデルのパフォーマンス評価の数値が解釈し易いからそっちの方がいいよね、という話。
過程
まだ世に出ていないが、冠動脈バイパス手術のリスクモデルを現行のロジスティック回帰ベースのものとXGBoost やらrandom forest やらのツリーベースの計算機を使ったモデルで性能がどう変わるかというプロジェクトに浸かっていた時にモデルの性能評価を勉強して浮かんできた疑問。
最初はなんとな〜くNSQIPのモデルって気持ち悪いな、というところから始まって何故気持ち悪い感じがするのかを突き詰めるのに紆余曲折するうちに論文になったという感じ。元々、研究では使われるが臨床では肌感覚のパフォーマンスがイマイチなので現場では使われていない印象、という土壌はあった。
共著者のDave Shahian がSTSモデルの父的な存在で前からこういった論文は書きたかった様なのでかなり積極的に参加してくれた。
最初はロジックだけで議論を進めていたが実例データがあった方が遥かに分かり易いということになって手元にあったNational Inpatient Sample という全国入院データを使って色んな手術タイプごちゃ混ぜモデルを作って手術毎のパフォーマンスがどれほどズレるかを比較した。
一番苦労したのはビッグネームが関わりすぎてその人達のコメントが食い違った場合に取捨選択し熟考しましたがここはこういう形で、という返事をいい感じにまとめるのに時間がかかりすぎたところ。
ただ、やはり突っ込んでくるところが練られまくっているのでコメント毎に文献を読み込んで的を得た返事ができる様にと努める過程はすごくよかったと思う。変なコメントだな?と僕が思った場合は大抵僕の理解が浅すぎたケースで、勉強したらコメントが理解できた、ということが結構あった。
振り返って
内容はかなり好きだしこれは胸を張って意味のある論文だったと言える。書くプロセスもとても勉強になった。
ただ、こういったOpinion/Viewpoint/Perspective系の論文はガチガチに理論武装しなければいけない(?)と思うので一文一文練るのが大変で恐らく100回くらいは読み直したと思う。
そしてAnn Surg が最初のターゲットで論文のレベルとしてはかなりリーズナブルだと思っていたが、親元である米国外科学会のリスクモデルをこき下ろしている論文でもあったのでデスクリジェクトをくらった。また、National Inpatient Sample のデータを使って色々やり始めた時点で原著論文に変更しても良かったかもしれない。