マルチモーダル

なぜAIはリンゴを数え間違える?画像解析の裏側を解説(前編)

 

クラウドソリューション開発部の内間木です。

GPT-4oやGemini 2.0、Claude 3.5といったマルチモーダルな生成AIを使って画像解析を試した際、「写っているリンゴの数が毎回違う…」「10個以上になると適当に答える」といった経験はありませんか?

この記事を読むことで、

「なぜ生成AIは物のカウントを間違えるのか」

という裏側の仕組みを整理し、画像解析とより上手く付き合うためのヒントを掴むことができます。

続きを読む

未来を切り開くマルチモーダルAI:GPT-4VとVideo-LLaVAによる動画解析

データアナリティクス部の入澤です。
2022年以来、ChatGPTをはじめとするいわゆる「生成AI」の話題が世間を驚かせています。先月(2月)15日には、OpenAIから動画生成AI(テキストから動画を生成する)「Sora」が登場し、その衝撃的な生成能力には恐怖すら感じます。

ところで、皆さんは有料版ChatGPTを利用していますか。

ご存じの通り、有料版ChatGPTは高い文章生成能力を持っていますが、さらに画像も入力・生成することが可能です。画像とテキストのように異なるデータを扱えるモデルをマルチモーダルAIと呼び、現在多くの注目を集めています。

そこで今回は、動画とテキストを扱えるマルチモーダルAIを使い、簡単な動画認識をしてみようと思います!

続きを読む