マルチモーダル

なぜAIはリンゴを数え間違える？画像解析の裏側を解説（後編）

クラウドソリューション開発部の内間木です。
最近は、雪が解けてきて風も暖かく春を感じられる季節となりました。

今回の記事は、前回の続き！「なぜAIはリンゴを数え間違える？画像解析の裏側を解説（後編）」になります。

前回の記事を読んでいただければ「生成AIによる画像解析の仕組み」はある程度、仕組みを理解できたと思います。
その知識を元に、今回の本題「なぜ生成AIは物のカウントが苦手なのか？」を理解していただき、どのような手法を使用すれば改善されるのかを説明していきます！

この記事を読むことで、

「なぜ生成AIは物のカウントを間違えるのか」

という裏側の仕組みを整理し、生成AIとより上手く付き合うためのヒントを掴むことができます。

クラウドソリューション開発部の内間木です。

GPT-4oやGemini 2.0、Claude 3.5といったマルチモーダルな生成AIを使って画像解析を試した際、「写っているリンゴの数が毎回違う…」「10個以上になると適当に答える」といった経験はありませんか？

この記事を読むことで、

「なぜ生成AIは物のカウントを間違えるのか」

という裏側の仕組みを整理し、画像解析とより上手く付き合うためのヒントを掴むことができます。

データアナリティクス部の入澤です。
2022年以来、ChatGPTをはじめとするいわゆる「生成AI」の話題が世間を驚かせています。先月（2月）15日には、OpenAIから動画生成AI(テキストから動画を生成する)「Sora」が登場し、その衝撃的な生成能力には恐怖すら感じます。

ところで、皆さんは有料版ChatGPTを利用していますか。

ご存じの通り、有料版ChatGPTは高い文章生成能力を持っていますが、さらに画像も入力・生成することが可能です。画像とテキストのように異なるデータを扱えるモデルをマルチモーダルAIと呼び、現在多くの注目を集めています。

そこで今回は、動画とテキストを扱えるマルチモーダルAIを使い、簡単な動画認識をしてみようと思います！