有機合成分野へのLLM適用

Tech blog


こんにちは、データアナリティクス部のフバチ・ロベルトです。故郷ポーランドでは既に雪が溶け、日増しに暖かさを感じられるようになりました。以前、有機化合物の合成に携わっていた会社での経験が思い起こされます。その会社は安全を考慮して人里離れた森林に囲まれた丘陵地帯に位置しており、四季折々の風景の変化を楽しむことができました。冬は雪に覆われた裸の木々が特徴的で、春が訪れると、新緑が眼前に広がり始め、さまざまな色が混じり合います。夏になると、緑が深まり、秋には様々な色へと変わりゆく様子が、まるで絵画のようでした。

 

はじめに

有機合成の分野では、主な目標の一つは、既存の有機化合物をより効果的に生成する新しい方法を開発することです。また、特定の望ましい性質を持つ新しい化合物を設計することも重要です。これを達成するためには、新しい化合物の分子構造をデザインし、それに適した合成方法を開発する必要があります。

これらの目標を達成するには、多くの時間と研究チームの努力、十分な資金の支援が不可欠です。そのため、科学者や起業家は、研究を支援するための効率的なコンピュータ支援技術の開発に注力しています。近年では、人工知能(特にニューラルネットワーク)を利用して有機合成の問題を解決しようとする研究が進んでいます。このためには、化合物や反応をコンピュータが理解できる形式で記述することが求められます。例えば、SMILES(簡易分子入力線形表現システム)は、化学構造を短いASCII文字列で表現する方法として広く用いられています(図1を参照してください)。

人工知能の進歩により、ChatGPTのような大規模言語モデルが開発されました。これらのモデルは科学、金融、ソフトウェア工学など多岐にわたる分野での応用が評価されています。大規模言語モデルの登場により、研究者たちは化学プロセスの改善にこれらを活用する機会を探求しています。特にインターネットを通じて、これらのモデルは迅速に必要な情報を提供することができます。

図 1. SMILESの概念のイラストレーション

LLM

Guo et al. (2023)の研究によると、化学分野のいくつかの課題で、人気のある言語モデル(GPT-4、GPT-3.5、Davinci-003、LLama、Galactica)が評価されました。この研究結果から、これらのモデルは分子のSMILES文字列を深く理解する必要がある課題(例えば、反応予測、合成計画、化合物名の予測など)には向いていないことがわかりました。しかし、反応収率の予測や試薬の選択といった課題では比較的良い成果を示しています。また、この研究でGuoらが導入した新しいプロンプトテンプレートが注目されており、これはDong et al. (2023)の研究で提案された文脈内学習アプローチに基づいており、図2に示されています。

図2.「化学反応予測」のためのプロンプトの例が示されています(Yu et al., 2024)。このプロンプトは、Guo et al. (2023)が提案したテンプレートに基づいて作られています。このテンプレートは5つの部分から成り立っており、中でも特に重要なのが「文脈内学習(ICL)」です。文脈内学習部分には、タスクをどのように進めるかを示す具体的な例が含まれています。

表1. 化学合成における LLM アプリケーションへのアプローチの例


有機合成における特定の課題、例えば分子のSMILES表記の理解において、大規模言語モデル(LLM)が直面する問題は、研究者たちがより良い成果を達成するための新しいアプローチを探るきっかけとなりました。表1では、そのような取り組みの例が示されており、これには大規模言語モデルのファインチューニング、インターネットや文献の検索、化学専門のツールの使用といった潜在的な解決策が含まれています。これらの解決策は、化学の分野に特化しているものの、他の分野での大規模言語モデルの適用にも手法として応用可能であることを理解することが重要です。

LlaSMol

Yu et al.(2024年)による研究では、大規模言語モデル(LLM)のファミリーである「LlaSMol」(Large language models on small molecules)が開発されました。これは、既存のLLM(表2を参照してください)を化学タスクに特化するよう微調整(ファインチューニング)したものです。この微調整のために、新しい大規模なファインチューニングデータセット「SMolInstruct」が作成されました。SMolInstructには合計14の化学タスクが含まれており、これらは以下の4つのカテゴリーに分類されています(図3も参照してください):
1. 名前変換:化合物の名前からSMILES表記を見つけること。
2. 分子の説明:分子についての説明を提供するか、説明に基づいて分子を提案すること。
3. 分子の性質予測:与えられた分子の性質を予測すること。
4. 化学反応の計画:基質から反応生成物を予測するか、特定の生成物を得るために必要な基質を提案すること。

表2.化学タスクに特化するようファインチューニングされたLLM (LlaSMolモデル)

Yu et al.(2024年)による実験では、LlaSMolモデルが、特定のタスクにおいて最先端の他のモデル(非LLMベース)と同等の性能を発揮することが示されました。また、ファインチューニングされていないLLMに比べても、LlaSMolはより優れた性能を示しました。特に注目すべきは、LlaSMolモデルの性能が、ファインチューニングに用いられたLLMの種類に大きく依存していることが明らかになった点です。たとえば、プログラミング言語に関する知識を持つCodeLlamaを基にしたLlaSMolCodeLlamaは、LlaSMolLlama2よりも顕著に優れた性能を示しています。この差は、CodeLlamaのプログラミング言語の知識が、分子表現のためのコーディング言語であるSMILESとの相乗効果を生んでいるとYu et al.は指摘しています。また、LlaSMolGalacticaが他のモデルより優れている理由は、Galacticaが化学関連の文献で事前にトレーニングされていたためです。

図3.大規模言語モデル(LLM)が行うことができる最も基本的なタスクの一つである名前変換を示しています。この図では、SMolInstructデータセットから選ばれた名前変換タスクの例を用いて、この問題を解説しています。データセットで提供される正解とともに、図ではGPT-4(ファインチューニングなし)を使用して得られた回答も掲載されています。例示されているケースでは、化合物名ではなくSMILES表記を扱う必要があり、GPT-4は正確な回答を提供できていませんでした。しかし、インターネットの情報を活用することで、GPT-4の結果は改善されることが示されています。

Coscientist

最近の研究動向には、様々な物質の取得プロセスを完全に自動化する試みに対する関心が高まっています。これらの取り組みの目標は、合成ルートの計画や新しい分子の開発の段階だけでなく、生産プロセスや実験の実行においても人間の介入を排除することです。例えば、ロボットによって行われる実験はより厳密に制御され、得られる結果は再現性が高く解釈もしやすくなります。このアプローチの一例が、Coscientistプロジェクト(Boiko et al.、2023)で示されています。

Coscientistモデルは、以下のような主要なタスクを実行できます:
1. インターネット上のデータを利用して化合物の化学合成を計画する。
2. 以前に収集された実験データを分析し、合成を最適化する。
3. 幅広いハードウェアに関する文書を検索する。
4. クラウドベースのラボでコマンドを実行するための文書を使用する。
5. 複雑な科学的タスクを実行する(様々なハードウェアモジュールを同時に使用し、多様なデータソースを統合する)。

Coscientistの核となるのは、GPT-4を基にしたチャットプランナーで、これがアシスタントとして機能します。このプランナーは人間のユーザーからの指示を受け取り、ウェブ検索や文書検索、コード実行、自動化モジュールを制御します。ウェブ検索と文書検索は、インターネットや文書から情報を収集するために別のLLM(例:search-gpt-4)を使用します。一方、自動化モジュールは、ロボットなどの物理的なハードウェアと通信するために用いられます。これらのタスクは、ReActやChain of Thought、Tree of Thoughtsなどの高度なプロンプティング戦略を活用して実行されますが、ユーザーからCoscientistへの入力は「複数のスズキ反応を実行する」といった単純なテキストプロンプトでも十分です(Boiko et al.、2023)。

ChemCrow

ChemCrow(Bran et al.、2023)は、有機合成、薬物開発、材料発見などの分野におけるタスク向けに設計された大規模言語モデル(LLM)ベースのエージェントです。このモデルの性能は、WebSearch、Name2SMILES、ReactionPlanner、ControlledChemicalCheckなど、18種類の専門家が設計した化学ツールを統合することで向上しています。開発チームは、実験中にOpenAIのGPT-4をLangChainフレームワークとともに使用しました。

Coscientistプロジェクトと同様に、ChemCrowも物理的な世界との対話と自律的な実験を行うことを目指しています。この目標を達成するために、Bran et al.(2023)はクラウド接続を備えたロボティック合成プラットフォームへの接続について研究を行いました。また、論文ではChemCrowによって成功裏に行われたいくつかの化学合成の例が紹介されています。

まとめ

大規模言語モデル(LLM)を化学合成に使用することは、大いに有望であると考えられています。ただし、これらのモデルは化学のアプリケーションに合わせて適応させる必要があります。この適応は、モデルのファインチューニングや、インターネットおよび文献へのアクセスの向上、または専門家が設計したツールの活用を通じて達成することが可能です。

将来的には、大規模言語モデルが有機合成の計画過程を大幅に改善すると期待されています。これにより、実験や生産の過程をより効率的に、かつ独立して監視する能力を持つことができるようになるでしょう。

文献

論文:

Boiko D. A., MacKnight R., Kline B., Gomes G. (2023): Autonomous chemical research with large language models, Nature, Vol 624, 21/28 December 2023
Bran A. M., Cox S., Schilter O., Baldassari C., White A. D., Schwaller Ph. (2023): Augmenting large language models with chemistry tools, arXiv:2304.05376v5
Dong Q., Li L., Dai D., Zheng C., Wu Zh., Chang B., Sun X., Xu J., Li L., and Sui Zh. (2023): A survey on in-context learning, arXiv:2301.00234
Guo T., Guo K., Nan B., Liang Zh., Guo Zh., Chawla N. V., Wiest O., Zhang X. (2023): What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks, arXiv:2305.18365v3
Yu B., Baker F. N., Chen Z., Ning X., Sun H. (2024): LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset, arXiv:2402.09391v2

ウェブサイト:

ChemCrow: https://github.com/ur-whitelab/chemcrow-public
Coscientist: https://github.com/gomesgroup/coscientist/blob/main/synthesis_capabilities/labels.csv
LlaSMol: https://github.com/OSU-NLP-Group/LLM4Chem
RDKiT: https://www.rdkit.org/docs/index.html

水深データ(三次元点群)の高品質化の研究が論文になりました。

Tech blog

こんにちは、データアナリティクス部の入澤です。
普段は、AIモデルの開発や最先端技術の動向調査に携わっています。

以前、エコモットでは、海底地形図の作成の加速化を目標としたDeSET(海底探査技術開発プロジェクト)に参加していました。

エコモットを含む開発チームが提案した技術開発テーマが、海底探査技術開発プロジェクト(DeSET Project)の公募事業に採択されました!

個人的に、”音響装置で計測された疎な水深データから高密度な水深データを生成する”というテーマで、細々と研究を続けていました。
今回、その内容の論文が掲載されましたので、簡単に、キーポイントを紹介します!
High-Resolution Bathymetry by Deep-Learning Based Point Cloud Upsampling

続きを読む

生成AIを最大限活用する!OpenAI公式が推奨する6つのコツ

Tech blog

こんにちは!エコモットでIoT・AI・DXコンサル営業をしている本間です。

ChatGPTなどの生成AIを使っても、なかなか思ったような結果が得られず困っていませんか?

OpenAIが公開している公式ガイドから、わたしがいつも意識している、より良い結果を得るための6つの重要なコツを紹介します。

このガイドを参考にすれば、ChatGPTなどの生成AIを上手に活用できるでしょう。

続きを読む

生成AIキャッチアップ(ChatGPT Plus編)

Tech blog

データアナリティクス部の庄内です。

GTC基調講演、観ましたか?マルチダイ時代へ突入ですね・・・
今月だけでもAnthropic社がChatGPT超えのClaude3を発表したり、イーロン・マスク氏率いるxAIもLLM「Grok-1」github に公開する(月曜日)など、巷は生成AIの話題で持ち切りです。
しかし、世の中にはこの流れと無縁な人も結構いるようで、最近同年代の方々と話してもほとんど使っていないとか1年前に使ったきりとかで全く活用していないみたいで悲しくなります。
そんなおじさんを救いたい!そんなモチベーションでこの記事を書いてみました。
※一線を越えてもらうことが目的なので、スゴ技とかは出てきません(アシカラズ)

続きを読む

【難易度高!?】IoTシステム技術検定[上級]第10回に合格しました!

Tech blog

こんにちは!エコモットでIoT・AI・DXコンサル営業をしている本間です。

IoTシステム技術検定[上級]を受験しようと思っていても、過去問や参考書もなく、どのように対策すればよいのか悩んでいますよね?

IoTシステム技術検定[上級]の対策として、わたしが行ったいくつかのポイントがあります。

今回は実際に受験し、合格した経験から対策ポイントをお伝えします。

続きを読む

未来を切り開くマルチモーダルAI:GPT-4VとVideo-LLaVAによる動画解析

Tech blog

データアナリティクス部の入澤です。
2022年以来、ChatGPTをはじめとするいわゆる「生成AI」の話題が世間を驚かせています。先月(2月)15日には、OpenAIから動画生成AI(テキストから動画を生成する)「Sora」が登場し、その衝撃的な生成能力には恐怖すら感じます。

ところで、皆さんは有料版ChatGPTを利用していますか。

ご存じの通り、有料版ChatGPTは高い文章生成能力を持っていますが、さらに画像も入力・生成することが可能です。画像とテキストのように異なるデータを扱えるモデルをマルチモーダルAIと呼び、現在多くの注目を集めています。

そこで今回は、動画とテキストを扱えるマルチモーダルAIを使い、簡単な動画認識をしてみようと思います!

続きを読む

固体粒子や液滴を含む工業用画像セグメンテーションと分析のための AI モデルの適用

Tech blog

はじめに

画像処理は、化学、製薬、食品産業などのさまざまなプロセスを理解するために適用できる強力なツールです。画像分析は、多相システムで発生するプロセスの場合によく使用されます。 多相システムは、分散相と連続相の少なくとも 2 つの相で構成されます。 分散相は通常、連続相中に懸濁した液滴または粒子 (固相) の形で存在します。 一方、連続相は液体または気体である可能性があります。 このような多相系には、例えば、エマルジョン(別の液体中の液体の液滴)、サスペンション(液体中の固体粒子)、エアロゾル(気体中の液滴または固体粒子)などが含まれます。多相系で起こるプロセスの例としては、結晶化 (溶液からの結晶の形での化合物の沈殿)、触媒反応 (触媒が固体粒子上に配置された場合)、エマルションの作成 (2つの相互に不溶な液体)またはでんぷんの糊化などがあります。  画像解析により、多相システムの構造をより深く理解できるようになり、プロセスの最適化や強化だけでなく、プロセスのより適切な制御も可能になります。画像解析の一般的な目的は、分散相の液滴または粒子のサイズ分布を見つけることです。 それにもかかわらず、分散相の形態学的特徴 (粒子の形状など) を決定することも重要です。 物体検出用の人工知能モデルの最近の急速な開発により、検出された物体の画像を構成するピクセルを非常に正確に分離できるようになりました (画像セグメンテーション)。 これらの孤立したピクセルは、オブジェクトの形状を表すマスクを形成します。 このオブジェクトが単なる分散相 の粒子(または液滴) である場合、マスクはこの粒子のサイズと形状に関する情報を提供します。 したがって、AIモデルは産業用画像解析に有用と考えられます。 さらに、これらのモデルの使用は簡単に自動化でき、分析時間が短縮されることが期待されます。この導入の最後に、このタイプの写真は通常、似ている形状と外観を持つ同様のオブジェクトで構成されていることを言及する価値があります。 ただし、画像にはかなりの数のそれらが含まれている可能性があります。

このブログでは、データアナリティクス部フバチ・ロベルトが、固体粒子または水滴を含む画像の分析に関する文献の短いレビューを紹介します。 さらに、でんぷん顆粒写真の分析について説明します。

続きを読む

Pdrive DRVとPdrive MGRの紹介

Tech blog

こんにちは!
クラウドソリューション開発部の大川です。

今回は、Pdriveの利用者向けに弊社で開発したスマホアプリ
Pdrive DRV
Pdrive MGR

について紹介したいと思います。

続きを読む

通信型ドライブレコーダー「STZ-DR10」による緊急通報サービス連携

製品・サービス

こんにちは!デバイスソフトウェア開発部の本間です。

以前に下記の記事にて、私が FW 開発を担当させて頂いた通信型ドライブレコーダー「STZ-DR10」をご紹介させて頂きました。

新型ドライブレコーダー「STZ-DR10」のご紹介

STZ-DR10 には、弊社の従来型ドライブレコーダ(HDL-900TMX-DM03)には無い新機能である VoIP 発信機能が追加されました。今回は、この VoIP 発信機能を利用して実現される緊急通報サービス連携について、システム構成やユースケースをご紹介いたします。

続きを読む

スマホアプリ開発案件でReact Nativeを使うメリット

Tech blog

こんにちは!
クラウドソリューション開発部の大川です。

弊社でスマホアプリ開発に携わる機会が増えており、いくつかの案件でReact Nativeを使用しています。そこでスマホアプリ開発案件でReact Nativeを使ってみてよかったことを実体験に基づいて紹介したいと思います!

続きを読む