見出し画像

AIの目で病理組織を視て創薬につなげる 深層学習によるデジタル病理画像解析とは

本記事は中外製薬 デジタル戦略推進部 データサイエンスグループの徳山が執筆を担当しました。

自己紹介

はじめまして、デジタル戦略推進部データサイエンスグループの徳山健斗です。私は2022年より中外製薬にデータサイエンティストとしてキャリア入社し、以来、非臨床・臨床研究、製薬、顧客マーケティング、新規デジタル技術開発など様々な領域で、ビッグデータ解析・人工知能モデル開発を行っています。今回は製薬業界における深層学習技術の活用に関心のある方向けに、 私が業務として取り組んでいる「デジタル病理画像×深層学習」をトピックに解説したいと思います。

デジタル病理画像とは

デジタル病理画像は病理学的な検査の結果をデジタル形式で記録したもので、従来の病理学的な検査と同様に検体標本を切り出し染色したスライドガラス標本を専用の装置でデジタル化することで得られます。特に、Whole-slide-image (WSI) と呼ばれるスライドガラス標本全体を高精細にデジタル化した画像は、WSI専用の解析ソフトウェアを用いて計算機上での顕微鏡観察が可能であり、組織の解析や画像加工、アノテーション情報の付与なども行えます。デジタル病理画像は病理学的な診断や治療方針の決定にとって非常に有益な情報源であるとともに、創薬研究においても重要な役割を果たしています。

Whole-slide-image (WSI)の特徴

WSIは染色したスライドガラス標本全体を保存した高精細なバーチャルスライドイメージであり、数万×数万以上の画素を持ち、画像データサイズは数GB以上にもなります。WSIのデータ構造自体は、拡大倍率の異なる何層ものイメージ画像のピラミッド構造 (図1) となっており、病理学研究者は任意の拡大ズーム倍率において、切片標本スライドをデジタル空間内にて観察することが可能です。最大倍率に拡大すれば、細胞や核の形態まで認識できます。

図1 Whole slide imageのデータ構造

AIの目で病理組織を視る

AI流行の背景と課題

近年、デジタル病理画像の解析を行うdigital pathologyの分野では、深層学習を用いた技術開発が流行しています。この背景として、アメリカ国立がん研究所が提供するGDC Data Portal   など様々なオープンデータベースが世の中に普及しており、ビッグデータを必要とするAI研究者にとって研究開発が行いやすい状況にあるのが要因と思われます。

ではここから、デジタル病理画像を用いた技術開発の課題について、「病理医の先生が行う高度な解析をAIに代替させる」モデルの開発を事例に詳しく見ていきましょう。画像解析と言えば分類タスクが定番なので、任意のデジタル病理画像を学習データに、がん悪性度などの推定や予後の経過予測などのモデル開発が簡単にできそうだと、一見思われるかもしれません。PyTorchで数行のコードを書き、ResNetやEfficientNetの転移学習をすれば、既存のAIが画像データから犬と猫を分類できる様に病理画像も分類できそう、と短絡的に考えてしまうわけです。しかし、実際はそのようには上手く行きません。
先述した通り、WSIは1枚が数万×数万ピクセル以上の超高画質な画像データであり、そのままのベースラインイメージでは既存の学習済み深層学習モデルのインプットサイズに乗り切りません。リサイズして画像を圧縮すれば転移学習は可能ですが、そのように大量の情報を捨てたサムネイル画像では、せいぜい由来元の組織部位を当てる事ぐらいしか出来ないでしょう(図2A)。実際に、病理医の先生が標本スライドを観察する様を見学させて頂くと、ほぼ最大倍率にまでズームした画像を隈なく見渡し、患者さんのがん悪性度などを判別しています (図2B)。つまり、AIの目によりWSIを視るためには、必要な情報量を一切落とすことなく、ニューラルネットワークのアーキテクチャを工夫し、組織全体から着目すべき領域の選択とその領域における分類器の構築が必要となるのです。

図2 WSIデータの解析

AIの目でWSIを視るための深層学習フロー設計

WSIデータを入力とした分類タスクを解く深層学習モデルのフロー全体の概要図を図3に示しました。犬と猫の認識など通常の画像分類タスクとの主な違いは、拡大画像の情報を加味できるように大きな画像データを複数枚のパッチ画像に分割して、特徴量生成器と分類器の2つのモデルを用いた推論を行うという点になります。通常の画像分類タスクとは異なり、パッチ画像分割前のオリジナルの一枚のWSIに対して付いたラベルデータを学習させるために、Multiple Instance Learning (MIL)という手法を用います。

図3 Whole-slide-image を用いた深層学習教師有り学習器の概要図

特徴量生成器と分類器の2つのモデルの構築方法

前節の通り、WSIを用いた教師有り機械学習では2つのモデルを用いてMILを行います。特徴量生成器ではパッチ画像を入力として、その画像から解きたいタスクに有益な特徴量の抽出や加工を行います。細胞の形態や局在情報などを画像解析により取得する場合もあれば、事前学習済みの深層学習モデルを用いて3次元のテンソル構造を持つパッチ画像データを数値ベクトル空間へと埋め込む場合もあります。分類器では得られた特徴量に基づいて分類タスクを解くためのモデルを構築します。機械学習アルゴリズムを用いる場合もあれば、深層学習モデルを構築する場合もあります。ノーフリーランチ定理の教えの通り、どんな病理画像解析にも万能なモデルという様な都合の良い話は無く、与えられたタスクとデータに応じて最良なモデル選択は異なるため、その都度に最適化を行う必要があります。また、分類タスクの予測精度を重視する場合もあれば、どのパッチ画像が予測に重要だったかなどの解釈性が必要となる場合もあり、タスクに応じたアーキテクチャ設計も重要になります。

高度なAIによる病理画像解析を実現するために検討すべき課題

以上、深層学習の処理フロー設計とモデル構築をメインに解説を行いましたが、高度なAIによる病理画像解析を実現するためには、全体として次の項目を検討する必要があります。

      1.  WSIおよびラベルデータの取得、前処理
      2.  パッチ画像の生成方法の検討 (ズームレベル、パッチ画像サイズ)
      3.  データ拡張方法の検討
      4.  特徴量生成モデルの選択や開発
      5.  分類器アーキテクチャの設計

すべてを網羅的に組み合わせて最適化できれば良いですが、元々の画像データ自体も大きいために、一つのハイパーパラメータセットでの学習においてさえも膨大な計算リソースを要する場合もあります。そのような場合には、複数のGPUを搭載したGPUクラスターサーバーにより分散学習を行う事が効果的です。また、GPUメモリの制限上、1エポックで学習可能なバッチサイズも限られることが多く、最適化アルゴリズムの選択やその学習率の調整等も検討が必要です。これらの様々なパラメータ設定の最適化を経て、高い予測精度を持つモデル開発が期待されます。

中外製薬が目指す高度なDigital pathology技術
~今後の展望

中外製薬では、創薬プロセスの加速と医療への貢献に向けて、高度なAI-Digital pathology技術の開発を行っています。私はプロジェクトチームの一員として社内勉強会を開いたり (図4) 、アカデミアや医療機関との連携、国際会議での情報収集なども行っています。また、病理画像解析には大量の計算リソースが必要であるため、全社データ解析基盤であるChugai Scientific Infrastructure へのGPUクラスターマシンの導入など、デジタル基盤強化も推進しています。

着々と研究開発を進めながら、また機会を見つけて他のトピックでのテックブログ執筆も行おうかと思いますので、本記事が面白かったと思われましたら、是非ハートマークのプッシュをお願いします!

図4  デジタルパソロジー技術開発に携わる中外製薬社員メンバーによるオンライン勉強会
(2022年12月15日実施)

あわせて読みたい




みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!