
クラウドソリューション開発部の内間木です。
GPT-4oやGemini 2.0、Claude 3.5といったマルチモーダルな生成AIを使って画像解析を試した際、「写っているリンゴの数が毎回違う…」「10個以上になると適当に答える」といった経験はありませんか?
この記事を読むことで、
「なぜ生成AIは物のカウントを間違えるのか」
という裏側の仕組みを整理し、画像解析とより上手く付き合うためのヒントを掴むことができます。
本記事はブログを二つに分けて配信します。
- #1 「生成AIによる画像解析の仕組み」
- #2 「なぜ生成AIは物のカウントが苦手なのか?」
事前情報① 「マルチモーダルな生成AI」ってなに?
「テキスト」「画像」「音声」「動画」など、複数の種類のデータを組み合わせて理解/解析できるAIなんです。今回のブログは、”画像とテキスト”の組み合わせについてお話しします。
事前情報② 「生成AIの仕組み」ってどうなってんの?
生成AIは、情報源となる大量のデータを事前に学習しています。その膨大なデータを駆使して、オリジナルコンテンツを生成できる人工知能のことです。
1. 入力の分解
AIは文章をそのまま読むことはできません。まず、文章を「トークン」と呼ばれる、意味を持つ最小単位の断片に細かく切り分けます。
例)「私は」「エンジニア」「です」 計3トークン
2. トークンを「住所」に変換する(ベクトル化)
分割されたトークンは、次に「ベクトル」という多次元の数値の羅列に変換されます。
例)「リンゴ」を [0.12, -0.55, 0.89, …] という数字のセットに変換することです。
ベクトル空間において、意味が似ている言葉同士は「近くの住所」に配置されます。例えば、「リンゴ」と「梨」は近い住所に、AIはこの「住所の近さ」を計算することで、文脈や意味を理解しています。
3. 出力(推論と生成)
①連想ゲームのような予測:
「空が」というトークンの次にくる言葉を予測する場合、AIは「青い」「高い」などの候補をリストアップし、それぞれの出現確率を計算します。
②一文字ずつ積み上げる:
「青い」を選んだら、次は「空が」「青い」に対して確率が高い言葉を探します。これを繰り返すことで、自然な文章が完成します。
画像解析の仕組みを理解することによって、#2で解説する「なぜ生成AIは物のカウントが苦手なのか?」は理解度がグッと上がります。
1. 画像の分解(パッチ分割)
テキストを「トークン」に分けるように、AIは画像を細かなタイル状の正方形に切り分けます。これを「パッチ」と呼びます。
たとえば「512 × 512 ピクセル」の画像があるとき、一度にすべてを理解するのは情報が多すぎるため、「16 × 16 ピクセル」などのタイルに分け、「ここはヘタの一部」「ここは赤い皮」と小さなエリアごとに読み取ります。
2. パッチを「住所」に変換する(ベクトル化)
切り分けられた各パッチ(画像のかけら)は、次に数値の羅列(ベクトル)に変換されます。ここで重要なのは、AIは「画像のかけら」を「言葉」と同じベクトル空間に配置できるという点です。
「赤くて丸い模様」が写ったパッチの数値は、住所録の中でテキストの「リンゴ」という言葉のすぐ近くに配置されます。これにより、AIは画像パッチの集合体が「リンゴ」を指しているのだと認識します。
3. 出力(推論と生成)
画像パッチが「住所」に変換されたら、テキスト生成と同じ仕組みで回答を作ります。
視覚情報と質問(プロンプト情報)を統合:
「この画像にリンゴは何個ある?」というテキストのベクトルと、画像のベクトルを組み合わせて、「次に続くべきもっともらしい言葉」を探します。
AIは「一個ずつ指をさして数えているわけではない」
- 思考プロセス:画像全体のパッチを見て「赤くて丸い物体の住所データが、この面積の中にこれくらいの密度で詰まっているな」と判断。
- 統計的な予測:学習データに照らし合わせ、「この密度感なら答えは『15個』である確率が最も高い(85%)はずだ」と予測。
- 出力:「画像には 15個 のリンゴが写っています。」
今回のまとめ:AIは「数えて」いない?
- 画像は「パッチ」にバラバラにされる:小さなタイル状にして処理している。
- 「画像」と「言葉」は同じ住所にある:ベクトル空間で共通化して認識している。
- 「数」は密度からの推測である:精密な計測ではなく、確率に基づいた「連想」に近い。
#2 「なぜ生成AIは物のカウントが苦手なのか?」へ続く
最後までお読みいただき、誠にありがとうございました。
エコモットでは、ともに未来の常識を創る仲間を募集しています。AIやIoTの力で社会を豊かにしたい。そんな志を持つ方は、ぜひ下記の採用ページを覗いてみてください!
クラウドソリューション開発部:内間木





