医療AIの研究者として数多くのインパクトのある論文を発表し、アカデミアの世界で活躍してきたカリス氏。CT/MRI機器の台数的には世界屈指の医用画像データ量を誇る日本が、「医用画像データの利活用」では大きく立ち遅れている現状を打開するべく、起業した。
1人の研究者が「医療AIスタートアップCEO」として、立ち上がった経緯とは? また、世界で唯一を謳うデータプラットフォーム構想のビジョンと戦略に深く切り込んでいきます。
AIを活用して業務の生産性を向上させる
資料3点セット
AIを活用して業務の生産性を向上させるためのおすすめの資料3つをセットにしました。3点まとめてダウンロード頂けますので、ぜひご活用ください。
医療の領域に、生成AIを導入する
── カリスさんは東京大学などで人工知能の研究を行ってきましたが、どのような領域を扱っていますか。
カリス氏(以下、カリス):医療AI分野で、8年ほど研究を続けています。16歳で東大の理科一類に合格した時点から、AIに取り組もうと決めていました。
その時は15年前なのでAIは全く流行っていませんでしたが、「人類最大にして最後の発明はAIになるはず」と確信し、「この領域で爪あとを残したい」「AIで結果を出すことは自分の使命だ」と当時から思っていました。
── AIのなかでも、なぜ医療AIの研究にフォーカスしたのでしょうか。
カリス:当時、東大の自分の周囲で、医療AIをやっている人は誰ひとりとしていなかったです。あらゆる業界の中で、医療産業はトップ5には入る非常に大きいマーケットなのに、AIに取り組む人がいないのはそもそもおかしい。東大ですらやっている人がいないのなら、自分が先駆者になって日本一になろうと。そう思ったのがきっかけです。
そこで実際に海外に武者修行に出て、ケンブリッジ大学やミュンヘン工科大学、ミラノ工科大学など、世界中で色々な研究に取り組み、気づけば日本の若手でこの分野で最も研究業績があるのが自分になりました。
── 具体的にどのような研究をしてきたのか、聞かせてください
カリス:医療AIにもさまざまな分野がありますが、特に私がフォーカスしているのは、博士論文のテーマでもある「生成AIを用いた医用画像のデータ拡張」です。
医用画像にはまず、CT・MRI・WSI・皮膚画像など、モダリティの種類がたくさんあります。そういった撮像装置のメーカーも、富士フイルム・キヤノン・シーメンスなど多くあります。さらに、撮像方法・疾患・人種・年齢・性別などによるバラツキも大きいです。
そうしたなかから、特定の患者さんを正確に診断・治療するために必要なデータを望み通りに入手するのは非常に困難です。であれば、生成AIを使ってデータ量を水増し(拡張)してしまえば、(生成AIとは別の)AIによる診断や予後予測などの精度は高められるはず。そういったテーマにずっと取り組んできました。
── 生成AIというとトランスフォーマーを用いていたのですか?
カリス:GAN(*1)を用いた医用画像データ拡張の研究が多いです。CTやMRIは生成AIでデータ拡張すれば、さまざまな条件でロバストにAIの予測精度が上がることが私の研究で分かりました。さらに、生成AIを使った教師なし異常検知や複数データセットの汎化、超解像などの研究にも取り組んできました。
最近はトランスフォーマー(*2)が主流になってきたので、昨年くらいから研究においても、GANよりトランスフォーマーの使用頻度の方が高くなりました。研究だと予後予測、モダリティ変換などにおいて、トランスフォーマーを使っていますね。
*1 GAN = 「敵対的生成ネットワーク」と呼ばれる、「偽物を生成するネットワーク」と「本物と偽物を区別するネットワーク」が互いに競争しながら学習する生成AIモデルで、画像生成やデータ拡張などに有効である。
*2トランスフォーマー = 自己注意機構を用いて入力データの各要素の関係性(=意味)を学習する生成AIモデルで、自然言語処理や画像処理などに有効である。
研究職のキャリアから、スタートアップの起業を決意するまで
── そうした研究を続ける先に起業があった、と。
カリス:起業のきっかけは2つあります。1つ目は、国内外の研究施設、企業、病院で医療AIの研究や開発をしてきて、常にデータの入手に課題を感じていたことです。
世界的にもそうですが、特に日本では医療施設がなかなかMRIやCTといった医用画像データを提供してくれない。ようやくデータを提供してもらっても、データの取捨選択、アノテーション、標準化といったデータ加工にも大変な労力がかかる。
限られたデータだけでなんとか研究や開発を進めていたなかで、結局、医療AIや創薬AI領域のデータセットのインフラを担ってくれるような存在が必要なのではないか、と感じました。
AIを作るために必要なインフラとしては、GPUと同程度にデータセットも重要。であれば、データセットに絞れば、「医療分野のNVIDIAを創る」ことだって夢ではないのではと思いいたりました。
2つ目として、林修先生から呼ばれて「日曜日の初耳学」に出演したことが、起業に踏み切る決め手でした。テレビに出たことで、YouTubeなどのSNSのフォロワー数が急増するなど、色々な方々に認知していただいて。
いま起業すれば、仲間も付いてくるし、投資家も見つけられる。また、その時29歳で、「20代のうちに大きなチャレンジをしたい」という気持ちも強かったので、起業しました。
ここまで条件が揃って起業しないのはおかしいと思うほど、運命めいたものを感じましたね。林先生との出会いがなかったら、自分で会社を作ることはなかったかもしれません。
もし起業していなかったら、医療AIを扱う企業に勤めて、社内起業のような形で新しい部門を作ったり、研究開発のトップやCTOを務めるなど、そういうキャリアを歩んでいたと思います。
── 医療はグローバルも狙える領域ですが、日本はMRIやCTの機器が多くデータも豊富。さらに日本人には職人気質の人が多いので、データとアノテーションの質も高い。最高峰の事業環境や資源はあるものの、宝の持ち腐れの状態にある。その日本でカリスさんの知名度が上がったのは、事業機会として大きいですね。
カリス:そうですね。日本のMRIやCTの普及率は、人口比ではぶっちぎりの世界ナンバーワンです。さらに、病理画像もデジタル化が遅れていて数は少ないですが、臨床情報と分子診断結果は世界に誇れるほどリッチです。
しかも日本人や東アジア人の医用画像データは市場にほぼ流通していないので、海外企業が海外で使う上でも、海外企業が(殆どAI医療機器が存在しない)日本市場に参入する上でも、非常に価値が高いです。まさに、日本の少子高齢化を活かして、世界の人命を救いつつ、外貨を稼いで日本の経済も救える、と思うんです。
私が起業して、「同じデータセットを5社10社が共有する世界を作って、医療AIと創薬AIで医療費削減と医療の質向上を実現したい。だから、医用画像データを二次利用可能な形で提供して欲しい」と、無茶なお願いをすると、大きい病院やクリニックがどんどんビジョンに共感して乗ってくれました。
今となっては、放射線画像と病理画像、および付帯する臨床情報と分子診断結果を、数十万症例もご提供いただいています。
── 今でこそ、生成AIは認知が広がっていますが、論文発表した当時は周囲に理解されなかったのでは?
カリス:私が最初に発表した医用画像のデータ拡張論文の引用数は、2017年:1回、2018年:3回、2019年:30回、2020年:51回、2021年:87回、2022年:90回、2023年:94回です。
だから、あとから時代が追いついてきた感じですね。最初の頃は、医療データを拡張する概念そのものがなかったので、「そんなデータは使いものにならないのでは?」と思われることが多かったです。
その後、100回以上引用された、似たテーマの私の主著論文が7本にもなったので、徐々に1つの研究分野として成立してきたのかな、と感じています。
生成AIを医療に活用するポテンシャル
── Callistoの技術的な側面を詳しく伺います。生成AIを用いるというのは、例えば癌を含むMRIなどの画像を大量に生成していくということでしょうか。
カリス:医用画像データへの生成AIの応用は多岐にわたりますが、①アノテーション(*3)、②標準化、③データ拡張、④診療支援の4つに大別できると、私は考えています。①アノテーションにおいては、疾患や臓器の自動セグメンテーション、読影レポートの自動作成などで、生成AIは医師によるアノテーションの負担を軽減できます。
*3 アノテーション = AIに必要な教師データを作成する作業。医療AIの場合は、専門医が疾患や臓器を塗りつぶす必要があり、1症例あたり数分~1時間程度の時間がかかる上に、数百~数千症例のデータに対してアノテーションを行う必要があるため負担が大きい。
②標準化においては、超解像、時系列データや複数モダリティのペアデータの位置合わせ、医学用語の統一、臨床情報の翻訳などの形で、様々な工程に生成AIを活用できます。
③データ拡張においては、条件付きで画像生成することで、たとえば、「ランダムに癌の画像を生成する」のではなく、「このくらいの大きさのこの種類の癌がこの位置にある画像を生成する」といったふうに、望みの画像を生成することができます。
④診療支援においては、異常検出、予後予測、予後画像の生成というふうに、生成AIは診断・治療の質向上と効率化を実現できます。
── 超大量の医用画像データセットを用意し、生成AIを使ってデータ拡張すると、たとえば人種や喫煙歴など圧倒的に多彩なパラメーターを考慮した疾患画像が生成できそうですね。
カリス:Callistoの事業として、数万症例や数十万症例分のデータセットを用意できれば、それを使って(画像に限らず)望みのデータも生成できるのでは、と考えているところです。特定の患者さんを正確に診断・治療するために必要なデータを、望み通りに入手することができれば、独自の強みになりますね。
もちろん、学習データが増えるほど良くはなるものの、生成AIが生成するデータ分布にはどうしても偏りは生じるので、実データを使うに越したことはないですが、そもそも入手するのが困難な画像データは多いです。
たとえば、希少疾患の画像データは、現状では入手がものすごく難しいけれど、そうしたものもリアルに生成ができる。また、骨や臓器に隠れてAIによる検出が難しい癌の画像のような、なかなか手に入らないデータも生成できます。
あと、CT画像と病理画像は、本来は対になるデータなわけですが、そういったペアのデータまで合成できるようになれば、メスを入れなくても組織・細胞レベルでの病変の詳細な観察が可能になるので、本当に大きなイノベーションが起きてくる。医療においても創薬においても。
もし実現できれば、AI学習の観点からも、医師教育の観点からも、画期的ですよね。このあたりは、すこし未来の話になりますが、これからCallistoとして取り組もうとしています。
── カリスさんの生成AIの研究成果は、現状ではCallistoという会社の技術には、どのように活かされていますか。
カリス:Callistoでは③データ拡張以外にも、先述した①アノテーション、②標準化、④診療支援の全てに生成AIを活用しています。データプラットフォームにおいては、色々な医療施設からいただいた大量のデータにアノテーションと標準化を施す必要があるので、その効率化のためにあらゆるモノの自動生成に取り組んでいます。
たとえば、クリックした疾患や臓器のアノテーションを自動生成し、医師が微修正するだけで、非常に正確にアノテーションを進められるようにするとか。治療前・治療途中・治療後の時系列データの位置を合わせて時系列分析ができるようにするとか。臨床情報や読影レポートの体裁を揃えて分析しやすくするとか。
診療支援に向けては、創薬AI/医療AIの受託開発と共同研究を行っていますが、最近は予後予測やモダリティ変換といった、生成AIを使った案件ばかりですね。
── Callistoの顧客、医療データの販売先はどういったところですか。
カリス:医療AI分野で国内最大手である富士フイルムさんや東大の研究者などがデータを買ってくださっています。また、国内最大手の医療AIスタートアップのAIメディカルサービスさんだったり、病理AIスタートアップのN Labさんなどに、AI受託開発やAIコンサルティングを提供しています。
これからは、海外企業や製薬企業にも積極的に顧客基盤を拡大していこうと考えています。
── 今後、医療データの入手については、どのようにスケールさせていく予定ですか。
カリス:医療データの入手は順調ですが、さらにデータ提供施設を増やすために、2つの施策を進めます。
1点目は、医療施設や学会との連携です。私はメディア出演や招待講演が多く、医療業界では名前が知られているので、「カリス先生がやるのでしたら」と、さまざまな病院やクリニックから快くデータを提供いただいています。
大学病院はまだまだ難しいですが、公立病院や私立病院、クリニックからは施設ごとに数万~20、30万症例単位で、放射線(CT・MRI)または病理(WSI)のデータを提供いただいているので、データ量はかなり増えてきています。
また、私自身もアカデミアの色々なところに籍を持っていて、放射線分野では大阪大学の招へい准教授、病理分野では長崎大学の特任准教授と日本デジタルパソロジー研究会の理事もやっていますので、学会単位で提携してデータをいただくことにも、これから着手していきます。
2点目は、医療AIコミュニティの運営ですね。医療AIに関するセミナーや症例検討会を開催したり、医療AIに関する記事を掲載することで、医師をはじめとする医療従事者とAIの専門家たちが交わるような場を作る予定です。そうやって国内に医療AIのムーブメントを起こせば、自ずと、データ提供施設やアノテーターもどんどん増えるでしょう。
この2点で、データ獲得を積極的にスケールさせていきます。
世界でも類を見ない、「医療AIインフラのオールインワンプラットフォーム」へ
── 医用画像のデータプラットフォーマーという観点では、海外のマーケットはどのようになっているのでしょう。
カリス:日本では未だに「医用画像データを販売するんですか? 攻めてますね」と驚かれてしまうことが多いです。一方で海外では、医用画像データを売買するプラットフォームはすでにポピュラーです。たとえばSegmedやGradient Healthは、それぞれ2,000以上と1,000以上の医療機関とデータ販売で提携していると謳っているほどです。
ただそれらの企業は、AI向けに加工されていない生のデータの売買に留まっていたり、アノテーションを外注できるだけです。結局、医療AIや創薬AIを作る顧客としては、生のデータが来てもそのままでは使えないので、取捨選択やアノテーション、標準化も欠かせない。
Callistoは、先ほど申し上げた通り、仕入れたデータに取捨選択や標準化、アノテーションまで施して、今すぐ医療AIや創薬AI の研究開発に使える形で提供しています。さらに、競合他社と違って、放射線画像だけでなく、病理画像、臨床情報、分子診断結果も揃えています。
社内には医療AIエンジニア、ソフトウェアエンジニア、放射線診断専門医、放射線治療専門医、病理専門医がいるので、データ提供だけでなく、AI受託開発やAIコンサルも実施できます。
こうした医療AIインフラのオーインワンプラットフォームを提供できるのが、世界でも類を見ない、我々だけの強みだと考えています。目指すは「医療分野のNVIDIA」です。
ヘルスケア&ライフサイエンス業界のインサイト
ヘルスケア&ライフサイエンス(HLS)業界のリーダーは、デジタルツール、自動化、AIへの投資を促進しています。
医療現場の「AI遅れ」を変えていきたい
── 法的な規制など、何か日本には固有のハードルがあるのでしょうか。
カリス:日本の個人情報保護法的には、匿名加工さえ施せば個人を特定することはできないので、患者さん本人の同意や本人への通知がなくとも、商用利用や二次利用を含めて、自由に医用画像データは利活用できます。医用画像データの利活用で救われるのは、国民一人ひとりですから、当然とも言えますね。
このように法律上は何の壁もないのですが、日本の医療施設には「なんとなく怖いのでデータを出したくない」という慎重派の人が多いので、医療施設の院内ポリシー的に患者さん本人の同意がマストだったり、二次利用を認めないケースが多いです。
「医療データをクラウドにあげるのは危険では?」という、欧米や中国、韓国といった海外先進国では10年、20年前に終わった議論が、国内ではまだ続いているほどですので、日本固有のITリテラシーの課題は大きいですね。
私の出身である韓国のAI医療機器数は、日本の6倍以上ありますが、韓国では画像診断AIなどに医用画像データを利用する場合は、患者さん個人への介入が生じるわけではないので、倫理審査すら不要としています(日本だと倫理審査に1年以上かかることが多い)。
また、AIが分かる専門家が国内の医療現場にはほとんどいない現状もあります。海外では、大きい病院には必ず、たとえば放射線科などにAI専門家が何名かいるのが当たり前ですが、日本ではそうした病院は、東北大学病院などを除くとほぼ皆無です。
このように乗り換えるべきハードルは色々とありますが、「少子高齢化」という医療分野における逆境を逆手に取って日本復活を目指すべく、日本にもいらっしゃる先進的な医師の先生方と一緒に、「医療分野のNVIDIA」を創っていこうと考えています。
これから起業する人へのメッセージ
── カリスさんがスタートアップ経営者として、大事にしてきたことや、ブレイクスルーに繋がったポイントを教えていただけますしょうか。
カリス:固定観念にとらわれずに、自分が勝てる道筋を自分の頭で考えて進めていくのが大事だと思います。 セオリーは殆どうまくいかないので、自分ならではの戦略が大事なんです。
たとえば、起業家の方々は一般的にはピッチイベントに沢山出たりしていますよね。少なくとも私自身は、正直そうしたものに効果はほぼなくて、むしろメディアに出た方が、採用候補者やデータ提供施設など、色々な方々からの問い合わせも多く、反響がとても大きかったです。
一般的なやり方ではないけれど、自身にもともとあった知名度を武器にして、本田圭佑選手や成田悠輔先生に直接事業についてアピールするなど、はちゃめちゃなことをしたからこそ、多くの人に会社のビジョンと取り組みを知らせることができました。
事業推進していると、色々な人が色々なことを言ってきますが、起業すると決めたのは私自身なので、自分で自分の武器や勝ち筋を考えぬいて、「報われる努力を重ねる」ことを私は日々心がけています。 — 私の場合は、メディア利用やアカデミア兼任がそうですが、起業家は一般的ではない「マイウェイ」を歩んだ方が、結果的にはうまくいくことも多いでしょう。