マテリアルズインフォマティクス ことはじめ -化学構造生成器の紹介-

マテリアルズインフォマティクス ことはじめ -化学構造生成器の紹介-

こんにちは。スキルアップAIの清島です。私は現在、生命科学や医薬学のビッグデータの解析に取り組んでいます。

新薬の開発には長い期間や大きな費用が必要です。その中でも候補となる化合物の選択は非常に重要です。近年、創薬にも人工知能の技術を取り入れる試みは非常に盛んであり、新薬開発の期間短縮や費用削減に寄与することが期待されています。今回はその中でも、新規化合物の探索を手助けする化学構造生成器の紹介をします。


1.VAEとは

Variational Autoencoderer(VAE;変分オートエンコーダ)は、ニューラルネットワークによる生成モデルの1つです。VAEは、AE(Autoencoder;オートエンコーダ)の1種ですが、通常のAEとは異なり、潜在変数を確率変数で表します。図1に通常のAEとVAEの違いを示します。VAEでは、確率変数としての潜在変数を変化させることで、様々なデータを生成します。

図1.通常のAEの構造とVAEの構造の違いについて

2.SMILESについて

一般的な化学構造式の表記は、人間が理解するための表現形式としては便利なものですが、機械学習のプログラムにとって理解しやすいものでありません。機械学習のモデルで、化学構造を扱うときは、通常、化学構造式をSMILES記法という表現形式に変換します。SMILES記法では、化学構造式を英数字や記号で構成される文字列で表現します。例えば、以下の図2のように表記します。SMILES記法へ変換する際や、SMILES記法のデータを扱う際には、RDKitと呼ばれるオープンソースライブラリがよく用いられます。

図2.SMILES記法の例

3.Chemical VAEについて

マテリアルズインフォマティクスという分野では、近年、化学構造生成器が盛んに研究されています。Chemical VAEは、その1つです。
Chemical VAEは、名前の通り、VAEをベースとしたモデルです。Chemical VAEのエンコーダは、受け取ったSMILES記法のデータをベクトルに変換し、それをもとに潜在空間を構成します (図3)。Chemical VAEのデコーダは、潜在空間からサンプリングされた潜在変数を受け取って、SMILES記法のデータを出力します。出力された化学構造は、入力された化学構造に似た新たな化合物となります。学習後に、潜在空間からのサンプリングを何度も行えば、サンプリングした分の化学構造を生成することができます。
このChemical VAEが提案された背景には、「既知の化合物に類似した新規化合物は、その既知の化合物に似た性質を持つことが多い」という薬学者の経験則があります。そのため、この提案手法は、完全に新しい化合物ではなく、既存の化合物に似た新しい化合物を生成することを目的としています。

図3.Chemical VAEの仕組み
(参考文献[1]より引用)

4.まとめ

AEやGAN(敵対的生成ネットワーク)を取り入れた化学構造生成器は、これまでに数多く提案さていますが、Chemical VAEは、その先駆者的存在です。Chemical VAEは、今でも化学構造生成分野の論文にて、比較対象としてよく用いられます。これから、化学構造生成器を学ぼうと思っている方には、Chemical VAEから勉強されることをお勧めします。

5.参考文献

[1] Rafael Gómez-Bombarelli, et al., “Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules” arXiv:1610.02415v3 [cs.LG] 5 Dec 2017
スキルアップAIのメールマガジンでは会社のお知らせや講座に関するお得な情報を配信しています。
配信を希望される方はこちら

また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
  • Twitter
  • Facebook
  • LinkedIn
更新日:2021.09.15

関連する講座

Page Top