データアナリティクス部の入澤です。
2022年以来、ChatGPTをはじめとするいわゆる「生成AI」の話題が世間を驚かせています。先月（2月）15日には、OpenAIから動画生成AI(テキストから動画を生成する)「Sora」が登場し、その衝撃的な生成能力には恐怖すら感じます。

ところで、皆さんは有料版ChatGPTを利用していますか。

ご存じの通り、有料版ChatGPTは高い文章生成能力を持っていますが、さらに画像も入力・生成することが可能です。画像とテキストのように異なるデータを扱えるモデルをマルチモーダルAIと呼び、現在多くの注目を集めています。

そこで今回は、動画とテキストを扱えるマルチモーダルAIを使い、簡単な動画認識をしてみようと思います！

はじめに

画像処理は、化学、製薬、食品産業などのさまざまなプロセスを理解するために適用できる強力なツールです。画像分析は、多相システムで発生するプロセスの場合によく使用されます。多相システムは、分散相と連続相の少なくとも 2 つの相で構成されます。分散相は通常、連続相中に懸濁した液滴または粒子 (固相) の形で存在します。一方、連続相は液体または気体である可能性があります。このような多相系には、例えば、エマルジョン（別の液体中の液体の液滴）、サスペンション（液体中の固体粒子）、エアロゾル（気体中の液滴または固体粒子）などが含まれます。多相系で起こるプロセスの例としては、結晶化 (溶液からの結晶の形での化合物の沈殿)、触媒反応 (触媒が固体粒子上に配置された場合)、エマルションの作成 (2つの相互に不溶な液体)またはでんぷんの糊化などがあります。画像解析により、多相システムの構造をより深く理解できるようになり、プロセスの最適化や強化だけでなく、プロセスのより適切な制御も可能になります。画像解析の一般的な目的は、分散相の液滴または粒子のサイズ分布を見つけることです。それにもかかわらず、分散相の形態学的特徴 (粒子の形状など) を決定することも重要です。物体検出用の人工知能モデルの最近の急速な開発により、検出された物体の画像を構成するピクセルを非常に正確に分離できるようになりました (画像セグメンテーション)。これらの孤立したピクセルは、オブジェクトの形状を表すマスクを形成します。このオブジェクトが単なる分散相の粒子(または液滴) である場合、マスクはこの粒子のサイズと形状に関する情報を提供します。したがって、AIモデルは産業用画像解析に有用と考えられます。さらに、これらのモデルの使用は簡単に自動化でき、分析時間が短縮されることが期待されます。この導入の最後に、このタイプの写真は通常、似ている形状と外観を持つ同様のオブジェクトで構成されていることを言及する価値があります。ただし、画像にはかなりの数のそれらが含まれている可能性があります。

このブログでは、データアナリティクス部フバチ・ロベルトが、固体粒子または水滴を含む画像の分析に関する文献の短いレビューを紹介します。さらに、でんぷん顆粒写真の分析について説明します。

画像処理

未来を切り開くマルチモーダルAI：GPT-4VとVideo-LLaVAによる動画解析

固体粒子や液滴を含む工業用画像セグメンテーションと分析のための AI モデルの適用

はじめに

DeSETの研究成果が論文になりました。

最近の投稿

人気の投稿

カテゴリー

Partner