こんにちは、AX研究室の入澤です。ついに、待望の GPT-5 が登場しました!
本記事では、「何がどう進化したのか?」そして、「OpenAIが目指すAGI(汎用人工知能)の実現に、どれだけ近づいたのか?」について、簡単にご紹介していきます!
急いでいる人向け
- OpenAIがGPT-5を発表(史上最も賢く、最速で、最も役立つモデル、賢さは博士号レベル!)
- ChatGPT(無料プラン/ Plus, Pro, Team)誰でも使える!
- APIの提供も!AIエディタ(Cursor)でも使える!
- 技術的には、ハルシネーションの削減と安全性の学習手法について頑張った!
- AGIになったの?答えは、「No」。でも一歩ずつ進んではいるよ。
GPT-5の概要
では、何が変わったのか。機能、技術的改善、その他サービスへの提供の観点で、見ていきます。
Introducing GPT-5
主要機能
GPT-5は単一のモデルではなく、以下の要素を組み合わせた統合システムとして設計されています。
- 高速応答モデル : 汎用的な質問に素早く回答
- 深い思考モード(Reasoning): 複雑なタスクに対して深く思考(答える前に思考の時間を設けて、ステップを踏んで推論を行なう)
- リアルタイムルーター : ユーザーの意図や指示に応じて最適なモデルを瞬時に選択
今までは、GPT-4oやo3など複数のモデルがあり、ユーザー側で目的に応じて切り替えて使用していましたが、GPT-5からは、それらが統合され、ほとんどの用途で役立つものになりました。
技術的改善点
- ハルシネーション(幻覚)の大幅削減
- GPT-4oと比較して事実誤認が20%削減、Thinkingモードではo3比で70%削減
- 複雑で自由回答式では、o3と比べて6分の1まで低減
- 応答品質の向上
- 過度な迎合や絵文字使用の抑制
- より自然で適切なコミュニケーション
- 安全性の学習手法の進化
- 善悪の線引きが難しい場面でも、必要以上に拒否せず、バランスの取れた応答が可能に(Safety Completionsという学習手法)
API/その他サービスへの提供
API展開
3つのサイズでリリースされました。
- gpt-5: メインモデル
- gpt-5-mini: 軽量版
- gpt-5-nano: 超軽量版
gpt-5-chat-latestというのがあって、これはChatGPTで使用される非推論モデルです。
その他サービスへの提供
Microsoft 365 Copilot、GitHub Copilotでも、次々に導入されています。
AIエディタであるCursorでは、以下の画像のようにすでにGPT-5が使えるようになっています!さらに、Cursorの有料ユーザーであれば、GPT-5が登場した週であれば無料クレジットが提供されるようです。
個人的に使ってみて
ハルシネーションの減少は、技術の進歩の速さを鑑みると当たり前だととして、過剰な絵文字や同調がなくなるのと、応答速度が速くなったのは、めちゃくちゃ使いやすいし、かなりストレスが軽減されました。
さてAGIになったのか。GPT-5よ
OpenAIは、AGIの実現を使命にしています。
汎用人工知能(AGI)、つまり経済的に最も価値のある仕事において人間を凌駕する高度に自律的なシステムが、全人類に利益をもたらすようにすることです。
さて、このGPT-5はAGI(Artificial General Intelligence: 汎用人工知能)なのかどうか。今見たように、答えは、「No」です。
そもそもAGI(汎用人工知能)とは何か
汎用人工知能(AGI)とは、人間が実行可能なあらゆる知的作業を理解・学習・実行することができる人工知能を指します。
最近、よく耳にするであろう、「AIエージェント」は、特定タスクに限定されるので、特化型AI(Narrow AI / Weak AI)と言われます。
一方で、AGIはこのような特化型とは本質的に異なり、より広範囲で柔軟な知能を備えることを目指しています。
特徴 | 特化型AI | AGI |
---|---|---|
適用範囲 | 特定のタスクに限定 | あらゆる知的タスクに対応 |
学習能力 | 大量データと教師あり学習に依存 | 自律的学習と適応 |
柔軟性 | 事前定義されたパラメータ内 | 人間レベルの汎用性 |
OpenAIが描くAGIへの道筋とは
AGIの実現を目指すわけですから、OpenAIはAIの発展を5つのレベルに分類していて、AGIに到達するまでの道筋を出しています。
OpenAIの5段階システム
レベル | 名称(英語) | 説明 |
---|---|---|
1 | Chatbots | 自然な対話が可能なAI(現行のChatGPTなど) |
2 | Reasoners | 複雑な質問に論理的に回答できるAI(現在、この段階に近づいている) |
3 | Agents | 自律的にタスクを遂行し、意思決定が可能なAI |
4 | Innovators | 新しい発明や解決策を生み出すAI |
5 | Organizations | 企業の意思決定や業務遂行を担うAI |
こうみると、GPT-5は、レベル2~レベル3あたりでしょうか。
ちなみに、Google DeepMindも近いものを論文(https://arxiv.org/abs/2311.02462)として出しています。
レベル | 名称(英語) | 名称(日本語) | 説明 |
---|---|---|---|
0 | No AI | AIなし | AIが存在しない、もしくは能力が発現していない状態 |
1 | Emerging | 新興 | 基本的な能力の発現 |
2 | Competent | 有能 | 熟練した成人の50%を上回る幅広い非物理的タスク性能 |
3 | Expert | 専門家 | 専門分野での高度な性能 |
4 | Virtuoso | 達人 | 卓越した専門性の発揮 |
5 | Superhuman | 超人 | 人間を超越した能力 |
これらを踏まえると、やはりまだまだ道のりは長いという感じですね。
実際、AI研究者でも、AGIの定義できていないかつ、開発者の間でも一致していないのが現状です。
Google DeepMindも?Genie 3の登場でAGI実現へ加速?!
OpenAIだけでなく、Google DeepMindでもAGIに近づく動きが見られます。
それが、Genie 3と呼ばれるAIで、AGIに向けた足がかりとして今、話題になっています。
Genie 3の概要
Genie 3は、テキストプロンプトを与えることで、ユーザーがリアルタイムで操作可能な世界を生成できるものです。生成された世界は、720pの解像度で毎秒24フレームの速度で動作し、数分間の一貫性を維持できます。
動画にあるように、ユーザーの視点が変わっても一貫性を保つことができるようです。
(壁にペンキを塗って、一度視界から外れても塗られたペンキが維持されている)
まだ詳しい技術も出てきてないですし、一部の研究者・クリエイターのみに提供されてるようなので、これだけでは何とも言えないですが…
ただ、このような世界モデルを、ゲームやVRで利用することが考えられます。それ以外にも、AIエージェントをこの世界モデルで学習、検証が無限にできるようになります。これが強い…
まとめ:GPT-5とAGIの現在地、そしてこれから
GPT-5はまだ「AGI(なんでもできるAI)」ではないですが、そこに向かう途中の大きなステップにはなってきています。
さらに、Genie 3みたいな「世界を理解して、動かせる環境を作れるAI」も出てきていて、AGIの未来が少しずつ現実味を帯びてきました。
私が個人的に強く感じているのは、「人間とAIがどう共存し、うまく付き合っていくか」を考えることが、これからの時代において欠かせない視点になるということです。
AIとどう向き合えば、より良い未来を築けるのか。
ここが最も重要なポイントであり、そしてこれはエンジニアに限らず、私たち一人ひとりがAIについて学び、理解を深め、自らの仕事やビジネスにどう活かしていくかを考えていくことが、今後ますます大切になってきそうです。