エコモットのエンジニアによる

IoT・AI技術や働き方についてのブログ

機械の組織を手に入れる

Tech blog

AI自律作業時間が「89日で倍増」する時代に、人間は何を設計すべきか

こんにちは!AX研究室庄内です。
私たちは、ある日を境に、それまで当然だと思っていた前提が覆ることがあります。
今日はMETRとOpenAIの記事を手がかりに、AIの現在地と、その変化のなかで私たちが何を見極め、どう備えるべきかを考えてみたいと思います。


はじめに:もう一つの「ムーアの法則」が始まった

AIの能力が指数関数的に伸びている、という話はもう聞き飽きたかもしれません。しかし、その加速度が私たちの組織や働き方そのものを書き換え始めていると言われたら、どうでしょうか。

非営利研究機関METRが計測する「タイムホライズン」――AIが自律的にこなせるタスクの規模を、人間の専門家の作業時間で測る指標――は、2024年以降、約89日(約3ヶ月未満)ごとに倍増しています。長期トレンドでも伸びは続いていますが、近年はそのペースがさらに加速しています。しかも、METRの公開ページ(2026年3月3日更新)に埋め込まれた最新データでは、2026年2月5日公開のClaude Opus 4.6の50%タイムホライズンは約719分(約12時間)に達しています。

📊 METRタイムホライズン・グラフ(引用)
下図はMETRが公開するフロンティアAIモデルのタスク完了タイムホライズンの推移です。
50%成功率(破線)が、指数関数的に上昇しています。
👉 TH1.1 解説(2026年1月更新)
👉 METR公式グラフ(インタラクティブ版)

METRのタイムホライズン

METRタイムホライズンの加速と外挿図

この数字が意味するのは単純な事実です。METRの2026年3月3日時点の公開値を起点に89日周期を単純外挿すると、2027年Q1には約192時間、つまり人間の専門家の稼働で約1ヶ月弱に相当するプロジェクト規模に届きます。「ツール」が「同僚」になる日が、もうすぐそこまで来ています。

このブログでは、METRのデータとOpenAIの実践事例を交差させながら、「機械の組織」をどう構築し、その中で人間はどう振る舞うべきかを考えます。


1. AIが思考し作業する時間は、伸び続けている

タイムホライズンの急伸

METRのデータが描く曲線は、単なるベンチマーク改善ではありません。AIが連続して思考し、計画し、実行し続けられる時間そのものが伸びていることを示しています。

時期 予測タイムホライズン(50%成功率) 労働単位の解釈
2026年3月時点(公開値) 約12時間 1.5日分弱のタスク
2026年 Q2 約24時間 3日分前後のミニプロジェクト
2026年 Q3 約48時間 約1週間分の連続業務
2026年 Q4 約96時間 約2週間分の専門業務
2027年 Q1 約192時間 約1ヶ月弱のプロジェクト

AIタイムホライズンの進化図

⚠️ 注意:ベンチマークと現実世界のギャップ
METRのタイムホライズンは、構造化されたソフトウェアタスクにおける測定値であり、現実世界の業務能力と直接等価ではありません。MIT Technology Reviewが「AIで最も誤解されているグラフ」と題した記事で指摘するように、METRのベンチマーク上で1時間のタイムホライズンを達成したモデルが、現実世界の1時間分の業務をそのまま代替できるわけではありません。以下の予測はあくまでベンチマーク上のトレンドの外挿であり、実際の業務適用には「信頼性の壁」(セクション5で詳述)をはじめとする追加のハードルが存在します。

「ワンショットの知能」から「長時間のコヒーレンス」へ

OpenAIのCodex事例が示すように、すでに単一のCodex実行が単一タスクに対して6時間以上にわたって自律的に作業できる段階に達しています。「ワンショットの知能」の時代は終わり、プロンプトウィンドウの内側だけでなく、リポジトリ全体の文脈をまたいで一貫した思考と作業を積み上げることが価値の源泉となる時代が始まろうとしています。


2. OpenAIが証明した「人間がコードを書かない」5ヶ月間

実験の概要

2025年8月下旬、OpenAIの内部で一つの挑戦的なプロジェクトが始まりました。ルールはシンプルです――人間は1行も手書きコードを書かない。初期スキャフォールドはCodex CLI(GPT-5ベース)が既存の小さなテンプレート群を手がかりに生成し、その後もCodexの能力向上を取り込みながら、アプリケーションロジック、テスト、CI設定、ドキュメント、オブザーバビリティ、内部ツールまでをエージェントに生成させました。

2026年2月11日時点で、そのリポジトリは100万行規模のコードを擁し、社内では数百人規模のユーザーに使われ、その中には日々利用するパワーユーザーもおり、社外のアルファテスターにも提供されるシステムへと成長していました。

Ralph Wiggumループ図

このフローの核心は、「Ralph Wiggumループ」と呼ばれる反復プロセスです。Codexは変更ごとにインスタンスを立ち上げ、ローカルで自身の変更をレビューし、さらにプルリクエストに対してクラウド上の追加レビューを求めます。必要に応じて人間もレビューしますが必須ではなく、すべてのエージェントレビュアーが満足するまでループ内で修正が続きます。時間が経つにつれて、レビューの大半はエージェント間で回るようになります。

驚異の生産性

当初3名のエンジニアでスタートし、5ヶ月間で約1,500件のプルリクエストをマージ。エンジニア1人あたり1日平均3.5 PR。従来の開発では到達不可能な数字です。彼らはこの新しい開発規律を「ハーネスエンジニアリング」と名付けました。


3. スケーリング・パラドックス
── これまでの経験則は、人間のボトルネックにより成立していた ──

ブルックスの法則の崩壊

ソフトウェア開発には「ブルックスの法則」という有名な経験則があります。遅れているプロジェクトに人員を追加すると、さらに遅れる。コミュニケーションコストが人数の二乗で増大するためです。

しかし、OpenAIのプロジェクトでは、エンジニアが3名から7名に増員された後もスループットは低下するどころか向上し続けました。なぜか? エージェント同士のコミュニケーションコストは、人間のそれとは根本的に異なるからです。

従来開発とハーネスエンジニアリングの比較図

人間がボトルネックだった

従来の「コードを書き → テストを待ち → レビューを待つ」という直列プロセスでは、人間の認知速度がすべてのステップを律速していました。ハーネスエンジニアリングは、抽象化レイヤーを一段引き上げることで人間をボトルネックから解放し、指数関数的な並列開発を可能にしたのです。

METRのデータもこれを裏付けます。AIの能力が89日で倍増する一方、人間の認知能力は生物学的に固定されている。つまり、人間用に設計された経験則(ブルックスの法則など)は、人間のボトルネックを前提としたルールにすぎません。機械の組織には、機械のルールが必要です。


4. 機械の組織化で人間の役割を再定義する

人間は「書く人」から「環境を設計する人」へ

ハーネスエンジニアリングの本質は、エンジニアの仕事をコード記述から「エージェントが自律的に動くためのフィードバックループの構築」へとシフトさせることにあります。なお、OpenAI公式記事が明示的に「4原則」と整理しているわけではありません。この節では、記事全体にまたがる論点のうち、特に環境設計に直結する要素を4つに絞って再構成しています。

OpenAI記事から抽出した4つの中核要素図

OpenAI記事から抽出した4つの中核要素

① 地図を描く(コンテキスト管理)
巨大な指示ファイルは失敗します。OpenAIが学んだのは、100行程度の短い AGENTS.md を「地図(インデックス)」として機能させ、詳細は構造化ディレクトリに分散させるというアプローチでした。エージェントにとって、1,000ページの説明書より1枚の地図が遥かに有用なのです。

② アーキテクチャで制約する
依存関係の方向を「型 → 設定 → リポジトリ → サービス → ランタイム → UI」という6段階の一方向に固定し、カスタムリンターで機械的に検証する。一見自由を奪う厳格なルールこそが、エージェントの迷いをなくす「増幅器」になります。

③ 不変条件を守る(黄金の原則)
毎週金曜日に人間が行っていた「AI生成物のゴミ拾い」は、継続的なクリーンアップの仕組みに置き換えられました。原則をリンターにエンコードし、バックグラウンドのCodexタスクが逸脱を検出し、品質グレードを更新し、対象を絞ったリファクタリングPRを開きます。

④ 五感を与える(可視性)
エージェントがChrome DevToolsを介してDOM、スクリーンショット、ナビゲーション結果を解析し、UI上の不具合を自律的に再現・検証します。人間は必要に応じてその証跡を確認し、コードだけでは見えない挙動を素早く評価できます。


5. 信頼性の壁 ── 「50%の成功」と「80%の実用」の間

エラーの複利効果

METRの公開データは、ここで冷水を浴びせます。2026年3月3日更新の公開ページでは、最新フロンティアのClaude Opus 4.6でも、50%成功率のタイムホライズンが約12時間である一方、80%成功率は約70分にとどまります。長時間のタスクでは「計画→生成→検証→修正」の数百ステップが連続し、各ステップのエラー確率が複利的に蓄積するためです。

信頼性ギャップとp80外挿図

しかし、実用レンジも前進している

METRのFAQは、50%線と80%線のトレンド自体はよく似ていると説明しています。したがって、現在の約70分という80%タイムホライズンも、89日ごとにおおむね倍増すると仮定すれば、2027年Q1には約19時間まで伸びうる計算です。50%線の「約1ヶ月弱」と比べればまだ距離はありますが、実用レンジが数か月単位で押し上がっていることは確かです。

これが意味するのは、機械の組織を設計する際には、現在の信頼性だけでなく、数か月先に拡張される実用レンジを前提にすべきということです。


6. 機械組織の全体像

METRのマクロデータとOpenAIのミクロ実践を重ねると、「機械組織」の構造が浮かび上がります。

機械組織の全体像図

この3層構造において、人間の役割は明確です。コードを書くことでも、タスクを管理することでもなく、エージェントが自律的に最高の成果を出せる「環境」を設計すること。地図を描き、制約を定め、原則をエンコードし、エージェントに五感を与える。それが「機械組織の建築家」としての人間の仕事です。


7. 準備はできているか?

89日ごとにAIの能力が倍増する世界は、すでに始まっています。

2027年、あなたの隣に「約1ヶ月弱分のプロジェクトを文句も言わず、たった数日で自律的に完遂する同僚」が現れたとき、あなたは何をしているでしょうか。まだコードを書いていますか? それとも、機械が最高のパフォーマンスを発揮するための「環境」を設計していますか?

OpenAIの5ヶ月の実験が示したのは、「手書きコード禁止」という極端な制約こそが、人間の時間と注意力をより高次の設計思考に集中させるレバレッジになるという事実でした。METRのデータが示すのは、この変化のスピードが私たちの想像を遥かに超えているという現実です。

設計の問いかけ図

私たちはテクノロジーに飲み込まれる「茹でガエル」になるか、それとも機械と人間の新たな共生を設計する「建築家」になるか。その歴史的な分水嶺に、今まさに立っています。

機械の組織を手に入れる準備は、できていますか?


参考・引用

プロジェクト開始時に「どのような保守運用フェーズ」を迎えるかが決まるだと!?

Tech blog

ご無沙汰しております。エコモットの板橋です。
ブログを書くのは5年ぶり(前回はコードのコメントについて記載しました)になりますね。
わたしは相も変わらず、プロジェクトリーダーとして開発プロジェクトが無事に終わるようにガイド役に徹している日々を過ごしております。
今回は、開発プロジェクトにおけるゴールの設定と罠について少しお話したいと思います。
続きを読む

S3アーカイブ大量復元を効率化する実践手順

Tech blog

こんにちは!
SJC共同開発推進室の坂根です。

S3 で長期データを保管していると、コスト最適化のために Amazon S3 Intelligent-Tiering(以下、Intelligent-Tiering)を使っているというケースも多いのではないでしょうか。
アクセス頻度に応じて自動で階層を切り替えてくれるため、運用負荷も少なく、とても便利な仕組みだと思います。

そんな中、先日こんな場面に直面しました。
「半年以上前のデータを確認したい」と思い、S3 を開いたところ、オブジェクトは確かに存在しているのに、すぐに取得できない……。

対象は数万件。1件ずつ復元するのは現実的ではありません。

そんな状況を解消すべく、S3 Inventory・Athena・S3 Batch Operations を使って一括復元を試してみましたので、その方法をご紹介します。

続きを読む

1からわかる要件定義:ヒアリング【前編】下準備

Tech blog

Hello Ecomott!

おはようございます、こんにちは、あるいはこんばんは。またも前回執筆から約半年が経過、
>相も変わらず遅筆が身上、お久しぶりのクラウドソリューション開発部 伊藤です。

以前の記事では、「要件定義」工程の原理原則について取り挙げました。

前回の結びで、「次回はより実践的な内容で、お会いしましょう!」などと言ってしまったものだから、テーマ探しもまあ大変。

どうしたものかと頭を悩ませてみましたが……ここは敢えて奇を衒わず、上流工程の最上流にして花形(というイメージのある)工程、 「ヒアリング工程」についてお話しいたしましょう!

なお、本記事は「要件定義 ヒアリング工程」解説記事の前編となります。
まあまあ長くなりましたが、どうぞお付き合いください(このブログ見てるってことは時間あるでしょ)


この記事を読むのにかかる時間は 約10分 くらいです!

この記事でわかること


続きを読む

1からわかる要件定義:ヒアリング【中編】深掘り術

Tech blog

Hello Ecomott!

おはようございます、こんにちは、あるいはこんばんは。
以上前略、クラウドソリューション開発部 伊藤です。

今回は続編記事!というか長すぎて分割になった

というわけで本編前置きはサクサク終わります。

要件定義入門シリーズ、「ヒアリング」編の中編となります。

えっ、こんな記事が三部作?と思いました?

いやいや、どうせ時間おありでしょう?活字読むのがお好きなんでしょう?
きっとそうだと信じて。

能書きはさておき、前編では「ヒアリング」工程の「下準備」について解説しました。

前編を読まずにこちらを開いたあなた、それこそ「準備」が足りない。
とりあえず前編を読んでいただいてから、またお会いいたしましょう。

前編も履修済だぜ!という方は、いよいよ「ヒアリング」の本筋について、
お付き合い願います。例のごとくちょっと長いよ!!

この記事を読むのにかかる時間は 約10分 くらいです!

この記事でわかること

続きを読む

「教える」は「学ぶ」こと。2年目、後輩と歩む試行錯誤の記録

その他

教える様子

来月に結婚式を控え、大忙しの毎日を送っている新郎
クラウドソリューション開発部の市川です!

気づけば入社して丸2年が経とうとしています。4月からはついに3年目…
「新人」という言い訳がそろそろ通用しなくなる時期に、少しの緊張と、それ以上のワクワクを感じています。

今回は、この1年を振り返りつつ、最近私にできた「初めての後輩」とのエピソードを交えて
この数ヶ月間、後輩と一緒に試行錯誤してきた日々を振り返ってみたいと思います。

続きを読む

【Java】Mockitoで依存性注入を使わずにユニットテストする

Tech blog

デバイスソフトウエア開発部の本間です。

最近、弊社業務にて Android アプリの保守を担当する機会がありました。そのアプリには自動テストが存在しなかったため、安全に改修を進めるための回帰テストとして、まずユニットテスト(JUnit)を導入しました。

しかしテストを書き始めると、クラス同士が直接依存していたり、I/O などの副作用が各所に埋め込まれており、既存コードに変更を加えなければユニットテストが難しいことが分かりました。そこで、モッキングフレームワークである Mockito を導入することにしました。これにより依存先を任意の処理(モック)へ差し替えることが可能となり、ユニットテストを実施することができました。

本記事では、その際に使った Mockito の機能を、実例を交えてご紹介します。

続きを読む

Jetson AI Specialist はもう無い?最新NVIDIA認定資格を調べてみた(2026年版)

Tech blog

こんにちは!デバイスソフトウエア開発部の山内です。

弊社では、NVIDIA Jetson を使ったエッジAI製品を開発しています。

そこで、私もNVIDIA認定資格を取ろうと思って調べ始めたところ、私が探していた認定プログラムは終了していたことが発覚。代わりにNVIDIAの認定資格が別体系に再編されていることが分かりました。

本記事では、2026年時点で公式に案内されているNVIDIA認定資格を、分かりやすく整理します。 続きを読む

なぜAIはリンゴを数え間違える?画像解析の裏側を解説(前編)

Tech blog

 

クラウドソリューション開発部の内間木です。

GPT-4oやGemini 2.0、Claude 3.5といったマルチモーダルな生成AIを使って画像解析を試した際、「写っているリンゴの数が毎回違う…」「10個以上になると適当に答える」といった経験はありませんか?

この記事を読むことで、

「なぜ生成AIは物のカウントを間違えるのか」

という裏側の仕組みを整理し、画像解析とより上手く付き合うためのヒントを掴むことができます。

続きを読む

React Native最新SDK対応:1月と8月がベストな理由

Tech blog

こんにちは!
クラウドソリューション開発部の大川です。

今回は、React Native CLIでクロスプラットフォーム開発を行う上で避けては通れない、「iOS/Androidの最新SDKへの対応タイミング」について紹介します。

「最新OSが出たからすぐに上げなきゃ!」と焦る必要はありませんが、ストアの公開要件の更新に間に合わせるための「余裕を持ったスケジュール」を知っておくことが重要です。

続きを読む