研究所発のPython学習プログラムPyZAP(パイザップ) ウェットとドライの研究を橋渡しし、研究開発力の底上げに挑む!
こんにちは、CHUGAI DIGITALです。
がん、バイオ医薬品に強みをもち、研究開発型の企業として世界最先端の創薬技術力をもつ中外製薬。2023年4月には新たな研究開発拠点として「中外ライフサイエンスパーク横浜」が本格稼働し研究員が日々、研究開発に従事しています。この研究所で昨年より運用がはじまったのが、「PyZAP(パイザップ):chugai Pythonista RISE UP program」と呼ばれる学習プログラムです。PyZAPは現場の若手研究員の声で生まれた活動で、始まりは小規模な勉強会でしたが、現在は社内の公式プログラムとして受講者も増えて順調にスケールしています。今回は、このPyZAP立上げメンバーの社員2名に、プログラムの特徴や実務での活用、実験(ウェット)系と計算科学(ドライ)系の研究者に与えた影響、研究所のありたい姿を聞きました。
プロフィール
角崎太郎(研究本部モダリティ基盤研究部マシンラーニンググループ)
2018年新卒入社。大学院での専門は生物情報科学。
入社後、マテリアルインフォマティクスなど機械学習業務に携わるようになり本格的に機械学習の勉強を開始。PyZAPの企画、提供価値の具体化やカリキュラム作成、事務局業務全般と講師を担当。
平山裕之(研究本部モダリティ基盤研究部データエンジニアリンググループ)
Slerのシステムエンジニアにて、サプライチェーンマネジメントの部品の調達や需要予測のシステムに従事後、製薬会社に対する創薬支援の解析業務支援を経験し、2021年4月に中外製薬へ入社。
PyZAP立ち上げメンバーとして、プログラミング環境構築やWebアプリ開発推進を担当。
── PyZAPとは? 「データ成型とビジュアライズ」をゴールに据えた、研究本部オリジナルの学習プログラム
角崎:PyZAPは、プログラミングの基本文法とデータ成型を学び、研究開発課題をプログラミングで解決するという約6ヵ月のコースです。ドリル形式の問題集で基本文法の習得に6週間を費やし、その後の10週間でデータ成型について徹底的に手を動かして学びます。ここまでで、最低限の実問題が解けるまでのレベルに到達し、データ運用の定着を図ります。最後の8週間では、事務局が用意した練習用の課題ではなく、各々の受講者が抱えている実務課題の解決に取り組みます。
平山:現在のPyZAPのプログラムが完成するまでには、紆余曲折がありました。まだPyZAPの構想が固まっていない数年前から、私と角崎さんは「研究本部のメンバーはデータサイエンティスト職に限らず、全員、道具としてプログラミングができるべき」と考えていました。そこで、草の根活動的に色々な勉強会を開催していたのですが、当初は、やる気があって参加しても途中で脱落してしまう方が多くいました。
外の方からみると「研究員なら誰でもプログラミングくらいできるのでは?」と思われるかもしれませんが、実際にはそうではありません。特にウェット系と呼ばれる実験がメインの研究員は、化学や生物の専門家であり、Excelで実験データを解析し可視化することに慣れています。そちらの専門性とスキルは非常に高く、いわゆる解析方法の「秘伝のタレ」 を持っているので、ウェット系の研究員はPython などを利用しなくても業務を遂行できてしまいます。
一方でドライ系の研究員である僕らは、Pythonの機械学習のみならず、バイオ系(biopython)、化学系(RDKit)などの専門的なツール群の利用は研究所のDX促進に貢献すると確信していました。
そのような中、僕らはウェット系の研究員に統計の基礎や機械学習の理論を網羅的に詰め込もうとして、失敗しました。脱落するのは、時間がないとか、興味が続かないとか、何の役に立つのか分からない、といった理由だったので、どうしたら彼らにPythonの有用性を理解してもらうとともに、ニーズを満たせる内容にできるだろう?と悩みました。
角崎:あるとき、ふっきれたんです(笑)
「データ成型からビジュアライズまでを自力でできれば、研究へのPython活用は進むだろう」という仮説を立て、そのゴールに向かう学習プログラムに内容を刷新しました。 創薬研究で取得されるデータは多種類に及び、きれいなRDBに成型されたデータばかりではありません。Pythonのデータ成型ではPandasが一般的に使われますが、研究所の生データをハンドリングするには不十分です。そのため、Pythonを平文でデータ成型ができる実力をつけて頂くプログラムに仕上げました。現在のPyZAPでは、講師役の社員がある程度汎用性の高いライブラリを準備し、そこに学習者が必要な情報を入れれば実装できるという形にしました。平山さんが自作したGUIダッシュボードを簡単につくれるライブラリ(Streamlit)を受講者に活用してもらい、受講者が軽くポチポチと作業すると“GUIできた!嬉しい!”となります。
平山:成功体験を気軽に得ることができることは、重要ですね。機械学習や統計の体系的な学習は二の次にし、受講者にとっても“自分で実験し取得したデータで実問題を実施できる”というのは、学習を継続するためのモチベーションアップにもつながりました。
── ウェット系とドライ系の研究者に対するPyZAPの相乗効果
角崎:PyZAPの受講者の多くは、ウェット系の研究者です。研究が高度化する現在、ウェット系の研究者がいくらExcelの「秘伝のタレ」を持っていても、Excelだけだとハンドリングできないデータ量やアルゴリズムが増えてきています。そのため、解析ツールやアルゴリズムの選定においては、私のようなドライ系の研究者と一緒になって議論やコミュニケーションすることの重要性が増しています。PyZAPが浸透して機械学習を取り入れるウェット研究者が増えれば、このような場の効率や創造性が向上し、研究所全体のデータ管理、分析、活用、意思決定が高度化していくと期待できます。
平山:既に、ウェット系の研究者が当たり前にプログラムを書くという、これまでにはない力学的な変化が研究開発の現場で起きていると感じます。ChatGPTやAlphaFold2がトレンドのビックウェーブとしてでてきて、ウェット系の研究者もデジタルに対する意識が非常に高まっているという印象もあります。
── PyZAPのこれから 世界トップレベルの研究所を目指す
角崎:2022年に開始したPyZAPの第1期の受講者は数十名ですが、第2期は約100名で展開し、2023年に開催の第3期が終わる頃には受講者は計300名を超える予定です。
Pythonなどプログラミングの活用が現場でより一層進むことで、データベース、解析ツール、解析プログラムやアルゴリズムの数が増え、これらの管理やセキュリティに関する新しい課題も出てくるでしょう。しかし幸いなことに、中外には既に高度なプログラミングが出来るインフラ環境が整っています。
平山:はい、そうですね。5年前だと考えられなかったことですが、2020年から全社横断のDX戦略が強力に進められたこともあり、今では、深層学習に使うGPUが48基導入されています。IT部門、デジタル戦略推進部門との連携により、自社で言語モデル活用を行いアプリに取り込むといった流れをスムーズに実施することが出来ます。
── データ管理/分析/活用の高度化を実現
角崎:中長期的には、単に個々人がプログラミングのスキルを身につけるだけでなく、組織としてインフラ環境や管理体制が整い、人財を育てる仕組みがあることが大切だと思います。PyZAPは、期が変わるごとに前期の受講生が新しい講師として講義を行います。教えられた人が講師になる、というわけです。外部のコンサルやAI教育会社に委託せず、研究員が内製でつくったプログラムなので、世間的なレベルでいうと及第点かもしれません。実際に間違いがあることもあるのですが、受講者が教材の誤りを指摘してくれる。逆にいうと、そこまでレベルが上がっており、間違っていたら直せばいいわけですし、新しい講師もどんどん技術やトレンドに合わせてプログラムを更新していける遊びを持たせています。よい流れが回ってきています。
また、講師はドライ系、ウェット系がペアになって担当するように決めています。お互いの業務を委託し合うという相乗効果が生まれてきています。
平山:私と角崎さんは、講師という役割の他にも、ハッカソンを企画したり、受講生の研究課題の解決に向けてIT基盤活用を支援したり、PyZAPのビジネス部門での展開をトライアルするなど、新たな活動も始めています。このような自律的なボトムアップの活動を、上司や経営層が理解して「いいね、どんどんやろう!」と後押ししてくれるのは、励みになっています。
横浜に新しい研究所ができて、オンラインだけでなく必要な場合は対面でのコミュニケーションもとりやすい環境が整っています。“ウェットの人がドライに対するナレッジが高く、ドライの人がウェットへのアプローチを積極的に実施する”という、双方が力を発揮できる環境は他に類をみないのではないでしょうか。世界トップレベルの研究所として、我々と一緒に画期的新薬の創出に取り組みたい、そんな人に、ぜひ新しい仲間になってほしいですね。