-
Notifications
You must be signed in to change notification settings - Fork 0
Description
Manica, Matteo, et al. “Accelerating Material Design with the Generative Toolkit for Scientific Discovery.” Npj Computational Materials, vol. 9, no. 1, May 2023, pp. 1–6.
- 材料科学のための生成モデルを簡単に動かすためのPythonライブラリ作ったよというお話。
- 複数の生成モデルを同一のインターフェースで学習・実行・開発をできるようにした。
- Hugging Face Spaces上で学習済みモデルを用いて簡単に動かしてみることもできる。
Abstract
With the growing availability of data within various scientific domains, generative models hold enormous potential to accelerate scientific discovery. They harness powerful representations learned from datasets to speed up the formulation of novel hypotheses with the potential to impact material discovery broadly. We present the Generative Toolkit for Scientific Discovery (GT4SD). This extensible open-source library enables scientists, developers, and researchers to train and use state-of-the-art generative models to accelerate scientific discovery focused on organic material design.
(DeepL翻訳)
様々な科学領域においてデータの利用可能性が高まる中、生成モデルは科学的発見を加速する大きな可能性を秘めている。GT4SDは、データセットから学習された強力な表現を利用し、新規仮説の立案を加速させるもので、広く物質発見に影響を与える可能性を秘めている。我々はGenerative Toolkit for Scientific Discovery (GT4SD)を発表する。この拡張可能なオープンソースライブラリにより、科学者、開発者、研究者は、有機材料設計に焦点を当てた科学的発見を加速するために、最先端の生成モデルを訓練し、使用することができます。
コード
解決した課題/先行研究との比較
- 材料開発や創薬では有用な物質の候補を見つける必要があるが、天然物やその誘導体の多くはすでに詳細に調べられているため、新規候補物質のリストアップが非常に難しくなっている。
- この課題の克服を目指し、近年生成モデルベースの手法が実用的なアプローチとして登場してきた。
- しかしながら、依然として生成モデルの使用はハードルが高い。
- 生成モデルを扱うノウハウ
- モデルトレーニングのための計算(資金)リソース
- 本論文では生成モデルを簡単に動かすためのPythonライブラリ generative toolkit for scientific discovery (GT4SD; 科学的発見のための生成ツールキット) を提案する。
技術・手法のポイント
- GT4SDはPythonのライブラリとして提供されるオープンソースのフレームワーク。
- 生成モデルの学習・実行・開発を容易にすることが目的。
- 組み込まれているすべての生成モデルを同一のインターフェースから使えるようにしている。
- すなわち、各モデルごとのお作法に慣れる必要がない。
- PyTorch や Hugging Face Transformer と互換性がある点も非常によい。
- ブラウザ上でも Hugging Face Spaces から実行可能。
- 2023-8-22時点で19種の学習済みモデルが利用可能
- Multitask Text and Chemistry T5
- MoLeR
- REINVENT
- PaccMann^RL
- PaccMann^GP
- HF Transformers
- Patent Generative Transformers
- Diffusers
- PatentTooklit
- RegressionTransformer
- TorchDrug
- Molecular properties
- Protein properties
- MOSES
- Crystal properties
- KeyBERT
- GeoDiff
- Polymer Blocks
- Advanced Manufacturing
- 2023-8-22時点で19種の学習済みモデルが利用可能
評価指標
- ケーススタディとして特定の性質を持った分子の探索が行われた。
- 1つのタスクに複数の生成モデルを適用し、希望の性質を持つ候補分子をリストアップした。
- ただし、候補分子が本当に所望の性質を持つか生理学的な検証は行われていない。
- それは各生成モデルの性能の話ではある。
- ただし、候補分子が本当に所望の性質を持つか生理学的な検証は行われていない。
残された課題・議論・感想
- 本フレームワークの適用範囲を、将来的には材料開発に限らず、様々なドメイン(例:無機材料、気候、持続可能性、…)に広げたいと議論されている。
- モデル評価の仕組み、生成物の特性予測機能、Fine-tuningの機能も拡充させたいとのこと。
Antibody-GANなど、生成モデルの応用例も多数出てきている。現在本フレームワークに組み込まれていない生成モデルを簡便に組み込む仕組み、そしてそれを画一的なインターフェースで扱えるようにする仕組みを備えたエコシステムとして発展すると、材料開発分野での生成モデルの民主化が進み、非常に便利になりそう。