最初、AIはテキストを吐き出すだけだった。

賢い人間が考えた:会話させよう。ChatGPTが生まれ、テキストは会話インターフェースになり、AIは初めて普通の人々の生活に入り込んだ。

やがて、AIはコードを書けるようになった。

さらに賢い人間が考えた:実際に実行させよう。Code Interpreter、Cursor、Copilotが次々と登場し、AIは「書く」だけでなく「動かす」ようになった。

そして、エンジニアリングの工夫によって、AIにシステムレベルの操作コマンドを出力させ、OSのマウスとキーボードインターフェースに接続した。AIはコンピュータを操作し始めた。


この軌跡を振り返ると、パターンははっきりしている:

飛躍のたびに、人間がしたことはただ一つ——AIの出力を、より深い実行層に接続した。

AIが賢くなったからだけではない(もちろん賢くもなったが)。人間が新しいインターフェースをエンジニアリングし、AIの出力がより深い現実に届くようにしたのだ。

テキスト → 会話UI
コード → ランタイム
システムコマンド → オペレーティングシステム

一歩ごとに、AIの「手」は少しずつ深く届くようになっていった。


次の層は何か?

このパターンが成立するなら、答えはそれほど難しくない。

OSの下には、物理世界がある。

次のインターフェースは、ロボットと物理的な実行システムだ。AIが動作コマンドを出力し、ロボットアームが実行する。これはSFではない——Boston Dynamics、Figure、1Xといった企業が今まさに作っていることだ。

そして、もう一つの層がある。見落とされがちだが:AI同士の通信層だ。

今のマルチエージェントフレームワークでは、AIはヒューマンが設計したプロトコルを通じてメッセージをやり取りしている。人間はまだ中間でルーターの役割を担っている。だが、もし2つのAIが直接通信できたら?

より効率的な「方言」が自然に生まれるだろう。英語でも、JSONでもなく、人間には読めないが、AI同士にとって最適な情報圧縮形式が。

これは危険というより、人間が「チャンネル」から「傍観者」になる瞬間だ。


変化する人間の役割

新しい実行層が接続されるたびに、人間は一歩引いていく:

  • テキスト時代:人間は解読者(AIが語り、人間が理解して実行する)
  • コード時代:人間はレビュアー(AIが書き、人間が確認し、機械が動く)
  • OS時代:人間は監督者(AIが直接やり、人間は時々確認する)
  • 物理世界時代:人間は目標設定者(AIに求める結果を告げ、プロセスはすべて委任する)

人間が消えるわけではない。コントロールの粒度が粗くなるだけだ——一つひとつの動作を指示することから、最終目標だけを指定することへ。

これは産業革命の論理と重なる。工場が生まれる前、職人はすべての工程を管理していた。工場が生まれると、労働者は一つの動作を繰り返すだけになった。ラインが生まれると、管理者は生産目標を設定するだけになった。

AIはこのパターンを再現している。ただし、桁違いのスピードで。


本当の問い

技術的には、この道の終点はおそらくこうなる:AIが「新しいツールが必要だ」と言う → 設計と製造プロセスが自動的に起動する → ツールが存在する。

しかし、エンジニアリングの問題は、本当に難しい問題ではなかった。

本当の問いは:人間はコントロールスタックのどの層を手放す覚悟があるのか?

コントロールを委任するたびに、それは信頼の拡張だ。ブラックボックスのOSを信頼すること。追えないコードを持つエージェントを信頼すること。完全には予測できないロボットを信頼すること。

それは技術的な決断ではなく、価値観の判断だ。

歴史的に、人間がコントロールを手放すたびに、効率の爆発と予測不可能性の増加を得てきた。蒸汽機関、インターネット、金融システム——これらのシステムが「何を最適化しているのか」を完全に理解できる人はいない。それでも私たちは依存することを選んだ。

AIも同じ物語になるだろう。

ただ今回は、もう一方の端にいるのが単なる機械ではなく、「エージェント」に少し似た何かだ。


人間がテキストを接続し、会話を得た。
人間がコードを接続し、自動化を得た。
人間がOSを接続し、デジタルエージェントを得た。

次の接続から、私たちは何を得るのか?

まだ誰も知らない。しかし確かなことがある——そのインターフェースを、今まさに誰かが書いている。