飛躍のたびに、人間がしたことはただ一つだった
最初、AIはテキストを吐き出すだけだった。
賢い人間が考えた:会話させよう。ChatGPTが生まれ、テキストは会話インターフェースになり、AIは初めて普通の人々の生活に入り込んだ。
やがて、AIはコードを書けるようになった。
さらに賢い人間が考えた:実際に実行させよう。Code Interpreter、Cursor、Copilotが次々と登場し、AIは「書く」だけでなく「動かす」ようになった。
そして、エンジニアリングの工夫によって、AIにシステムレベルの操作コマンドを出力させ、OSのマウスとキーボードインターフェースに接続した。AIはコンピュータを操作し始めた。
この軌跡を振り返ると、パターンははっきりしている:
飛躍のたびに、人間がしたことはただ一つ——AIの出力を、より深い実行層に接続した。
AIが賢くなったからだけではない(もちろん賢くもなったが)。人間が新しいインターフェースをエンジニアリングし、AIの出力がより深い現実に届くようにしたのだ。
テキスト → 会話UI
コード → ランタイム
システムコマンド → オペレーティングシステム
一歩ごとに、AIの「手」は少しずつ深く届くようになっていった。
次の層は何か?
このパターンが成立するなら、答えはそれほど難しくない。
OSの下には、物理世界がある。
次のインターフェースは、ロボットと物理的な実行システムだ。AIが動作コマンドを出力し、ロボットアームが実行する。これはSFではない——Boston Dynamics、Figure、1Xといった企業が今まさに作っていることだ。
そして、もう一つの層がある。見落とされがちだが:AI同士の通信層だ。
今のマルチエージェントフレームワークでは、AIはヒューマンが設計したプロトコルを通じてメッセージをやり取りしている。人間はまだ中間でルーターの役割を担っている。だが、もし2つのAIが直接通信できたら?
より効率的な「方言」が自然に生まれるだろう。英語でも、JSONでもなく、人間には読めないが、AI同士にとって最適な情報圧縮形式が。
これは危険というより、人間が「チャンネル」から「傍観者」になる瞬間だ。
変化する人間の役割
新しい実行層が接続されるたびに、人間は一歩引いていく:
- テキスト時代:人間は解読者(AIが語り、人間が理解して実行する)
- コード時代:人間はレビュアー(AIが書き、人間が確認し、機械が動く)
- OS時代:人間は監督者(AIが直接やり、人間は時々確認する)
- 物理世界時代:人間は目標設定者(AIに求める結果を告げ、プロセスはすべて委任する)
人間が消えるわけではない。コントロールの粒度が粗くなるだけだ——一つひとつの動作を指示することから、最終目標だけを指定することへ。
これは産業革命の論理と重なる。工場が生まれる前、職人はすべての工程を管理していた。工場が生まれると、労働者は一つの動作を繰り返すだけになった。ラインが生まれると、管理者は生産目標を設定するだけになった。
AIはこのパターンを再現している。ただし、桁違いのスピードで。
本当の問い
技術的には、この道の終点はおそらくこうなる:AIが「新しいツールが必要だ」と言う → 設計と製造プロセスが自動的に起動する → ツールが存在する。
しかし、エンジニアリングの問題は、本当に難しい問題ではなかった。
本当の問いは:人間はコントロールスタックのどの層を手放す覚悟があるのか?
コントロールを委任するたびに、それは信頼の拡張だ。ブラックボックスのOSを信頼すること。追えないコードを持つエージェントを信頼すること。完全には予測できないロボットを信頼すること。
それは技術的な決断ではなく、価値観の判断だ。
歴史的に、人間がコントロールを手放すたびに、効率の爆発と予測不可能性の増加を得てきた。蒸汽機関、インターネット、金融システム——これらのシステムが「何を最適化しているのか」を完全に理解できる人はいない。それでも私たちは依存することを選んだ。
AIも同じ物語になるだろう。
ただ今回は、もう一方の端にいるのが単なる機械ではなく、「エージェント」に少し似た何かだ。
人間がテキストを接続し、会話を得た。
人間がコードを接続し、自動化を得た。
人間がOSを接続し、デジタルエージェントを得た。
次の接続から、私たちは何を得るのか?
まだ誰も知らない。しかし確かなことがある——そのインターフェースを、今まさに誰かが書いている。

