クラウドソリューション開発部の内間木です。

GPT-4oやGemini 2.0、Claude 3.5といったマルチモーダルな生成AIを使って画像解析を試した際、「写っているリンゴの数が毎回違う…」「10個以上になると適当に答える」といった経験はありませんか?

この記事を読むことで、

「なぜ生成AIは物のカウントを間違えるのか」

という裏側の仕組みを整理し、画像解析とより上手く付き合うためのヒントを掴むことができます。

続きを読む