
新たなパーパス「Physical AIで、基幹産業を変革する。」を掲げたZen Intelligenceは、物理現場の3次元空間とその時間変化の中で「知覚・推論・行動」する能力――すなわち「空間知能」を中核に据え、生成AIを活用して産業変革に挑むことを発表した。9月25日には総額15億円の資金調達を実施。Physical AIへの注目が高まる中、彼らは何を目指し、どのような未来を描こうとしているのか。
Zen Intelligence代表の野﨑大幹氏と、米中日におけるPhysical AIの最前線を見据えるファーストライト・キャピタルのマネージング・パートナー頼嘉満が語る。
単なる業務の効率化ではなく「建設現場の自動化・無人化」を目指す
──まずはPhysical AIとはそもそもなんなのか、そしてなぜ今、注目が集まっているのかなど、Physical AIを取り巻く環境について教えていただけますか。
頼:
Physical AIという言葉は企業によって定義が異なりますが、私は「物理空間における作業を自律的に実行する知能」だと考えています。しばしばロボットAIと同義で語られますが、私は必ずしもそうは捉えていません。むしろ重要なのはアーキテクチャであり、センサーや空間モデリング、そしてリアルタイムでの実行を組み合わせた仕組みこそがPhysical AIの本質だと思っています。
野﨑:
私たちも同じ考えです。私たちは、「物理空間とそこで行われる作業を理解し、自動化していくAI」をPhysical AIと定義しています。ロボットはその一形態にすぎず、人とハードウェア、ウェアラブルデバイス、さらにはXRのようなデバイスを組み合わせるケースも含まれると考えています。現在はLLMの波が押し寄せ、事務作業領域では生成AIの活用が急速に進んでいますが、物理作業を伴う領域はまだ恩恵を受けきれていません。今後はこの領域こそ、より注目されていくはずです。
頼:
Physical AIが本格化しつつある背景には、大きく2つの要因があります。1つは技術的進化です。センサーやロボティクス工学が大きく進歩し、さらに生成AIによる基盤モデルの登場で、物理世界における応用範囲が一気に広がりました。特にエッジ側の処理速度が向上したことで、クラウドだけでは難しかった応用が可能になった点は大きな変化です。そして2つ目は社会的要因です。労働力不足や安全性向上といった社会的必然性が高まっており、これらが揃ったことで、これまでPoC(概念実証)止まりだった現場のAIが、いよいよ実用段階に入ろうとしているのではないかと考えています。

──そんな中、Zen Intelligenceさんは8月に新たなパーパス「Physical AIで、基幹産業を変革する。」を掲げられましたね。
野﨑:
はい。現在、私たちは建設領域に注力し、現場の効率化や自動化を見据えて開発を進めています。建設業はフィジカルかつ労働集約的な業界であり、AIを導入しようとしても、そもそもデータが取得できていないことが大きな課題でした。製造業と比べて生産性は半分程度にとどまり、人手不足や高齢化といった深刻な課題もあります。そのため私たちは、2020年の創業以来、一貫して「現場のリアルなデータを取得する」ことに取り組んできました。創業当初は、建設現場でロボットを自律走行させデータ収集を試みていましたが、物理的に走行できない場面も多く、現場で誰でも簡単に使えることの方が重要だと気づきました。そこでシフトしたのが、現在のプロダクト「zenshot(ゼンショット)」です。

これまではzenshotを通じて、現場のデータを取得・活用することで、監督が現場を歩いて判断していた作業を、デジタル現場空間を通じてリモートで管理できるようにしてきました。従来の労働集約的なやり方から、遠隔管理が可能になったことは大きな進歩です。
しかし、「遠隔で見える」だけでは業務改善の一部にとどまります。
次のステップは、AIがベテラン監督のように現場を認識・判断し、指示を出すレベルにまで進化させることです。現場監督が担う工程・品質・安全の3点管理を、AIがデータに基づいて代替する──それこそが私たちの目指す世界です。最終的には、建設現場の自動化・無人化に踏み込んでいきたいと考えています。

頼:
一般的に”遠隔化”と聞くと「ビデオでやり取りする」「映像を見ながら指示する」といったイメージが強いですが、Zen Intelligenceが目指すのはそれとは異なりますよね。映像を人が確認するのではなく、AIエージェントが空間データを解析し、壁内部の断熱材のような部材まで認識し、それが工程通りに施工されているかを自動で判断する世界です。これまでZen Intelligenceは、ロボットやzenShotを通じて空間データを含む膨大な情報を取得してきました。その積み重ねこそが、シリーズAまでに培われた大きな強みです。この厚みのあるデータ基盤があるからこそ、現在はPhysical AIへと進化し、AIエージェントが空間を理解し、自律的に過去の経験値を踏まえて判断を下せる世界を実現しつつあります。人が細部まで現場映像を確認しなくてもよい──そんな未来像が、すでに現実味を帯びてきています。
米中が攻めない“現場の深部”――日本発が持つ社会的必然と勝ち筋
──なるほど、グローバルで見てもこうした現場産業の課題に取り組むスタートアップは多いのでしょうか。
頼:
海外、特に米中のスタートアップでは、基盤モデルや家庭用ロボットなどに人材が集中しており、バーティカル産業や現場の物理世界に本格的に挑戦している例はまだ少ないのが現状です。なぜなら、バーティカルに挑むには産業固有の知見やノウハウが不可欠であり、往々にして業界出身者でなければ難しいからです。しかし、ロボットやAIの専門家が自ら現場に入り、エッセンシャルワーカーの課題解決に取り組むケースは米中ではあまり見られません。社会的ニーズの切迫感が弱ければ、TAM(獲得できる最大市場規模)も見いだしにくいためでしょう。
一方、日本は状況が異なります。エッセンシャルワーカー不足が日常生活やサービスに直接的な影響を及ぼしており、市民も企業も強く課題を認識しています。だからこそ、現場で実装し、PDCAを回しながら知能をアップデートしていくアプローチには大きな意義があります。私は、Zen Intelligenceはすでに建設現場において他社に対する優位性を確立しつつあると感じています。
野﨑:
そうですね。汎用的な基盤モデルの戦い方で米中と肩を並べるのは難しいですが、業界特化・バーティカルなAIでは人手不足との親和性が高く、むしろ日本に優位性があります。すでに「人手が足りず建物が建てられない」という状況が生じており、先進国全体で同じ課題を抱えています。ここに技術発展が追いつけば、一気に広がるはずです。
頼:
日本は建設・製造・インフラ保守といった現場産業の比率が高く、世界的に見ても品質は非常に高い水準にあります。しかし今、その優位性が人手不足や高齢化によって失われつつあることに危機感を抱いています。
こうした背景から、現場作業の再設計や無人化・自動化に対するニーズは今後ますます高まるでしょう。そしてそのニーズは効率化にとどまらず、安全性の向上、技能の継承、さらには日本の災害対応力の強化にも直結します。もしこれを実現できれば、日本社会に大きなインパクトをもたらすだけでなく、その知見をグローバルに輸出することも可能になると考えています。

空間×時間×知識を編み上げる――基盤モデルを“現場適合”させる技術的ブレークスルー
──こうした世界を実現するためにどのような技術的ブレークスルーで実現されているのでしょうか。
野﨑:
我々には、Spacial Intelligence、Operational Intelligence、Physical AI Agentという3つのコア技術があります。中でも重視しているのが基盤となるSpatial Intelligence、つまり「空間知能」で、これは現場の3次元空間とその時間変化の文脈を、AIが理解可能な構造に変換する技術です。
Operational Intelligenceはそうした物理空間の中で行われる業務プロセスや知見を、AIが理解可能な構造に変換する技術。
そして、その上に搭載されるのがPhysical AI Agentで、これは現場監督を補佐するCo-PilotのようなAIエージェントと、リアルな建設現場空間の中で動くAIオートロボットなどを指しています。

これらは独立した技術ではなく相互に連動するものですが、とりわけ空間知能の開発はチャレンジングです。3Dの空間データが取得できたとしても、それ自体は単なる情報にすぎません。重要なのはベテラン監督が現場で危険箇所を見極め、指示を出すように、意味のある部分を正しく抽出し判断すること。単に空間をスキャンするだけではなく、監督の経験や身体性を取り込んでこそ「空間知能」と言えるのです。ここが非常に難しく、同時に競合優位性につながる部分だと考えています。
これを支えているのが、3D Visionの技術と建設現場特化型のVLM(Vision-Language Model)です。汎用的なモデルでは現場の安全指摘や作業判断は難しいため、私たちは建設特化の基盤モデルの開発に注力しています。ここが大きなブレークスルーになると見ています。
頼:
そもそも建設現場では、空間と時間の変化を認識し、それに基づいて意思決定する力が求められます。言い換えれば、動的に変化する環境を読み取り、未来を予測して行動することが不可欠です。これは自動運転の技術と非常に似ています。自動運転は現在を3次元で認識し、車両や歩行者の挙動を予測して制御しますが、Zen Intelligenceはそれを閉塞空間である建設現場に特化した形で実現しようとしているのです。
こうした基盤モデルを成立させるには、現場でしか得られないノウハウの蓄積が不可欠で、これは大きな参入障壁になります。Zen Intelligenceはこの2年間、現場を3次元でスキャンして空間データを蓄積するだけでなく、工事の進行に伴う時間的な変化を追跡し、「この現場状況からは工事はここまで進捗している」「ここに資材の立てかけがあるのは作業安全上問題だ」といった工程や品質安全に関する現場の知識をラベル付けしてデータ化してきました。こうして空間・時間・知識を一体的に蓄積することで、AIが学習できる基盤を築いてきたのです。その結果、ようやく基盤モデルを学習させられるだけのデータ量が整い、他のスタートアップが今から取り組んでもすぐには追いつけない状況をつくり出しています。

──まさに、こうした長年にわたるデータ積み上げと技術の組み合わせこそが、ZIの競争優位性につながっているのですね。
頼:
その通りです。ですが、Zen Intelligenceをさらにユニークにしているのは、チームのバランスの良さです。
日本は世界に先駆けてロボットを作ってきた国であり、多くの開発はハードの制御から出発し、そこにAIを取り入れるという流れが一般的ですが、現在の世界では、AIドリブンのロボット開発が主流になっています。Zen Intelligenceには、こうしたAIを起点にロボットを構想できるメンバーがおり、最先端のAIをどうロボットに、どう空間知能に、どう現場に実装するかを考えられる技術集団です。さらに彼らは、現場に深く入り込みデータを収集し、オペレーションを徹底的に理解する“泥臭さ”も併せ持っています。
この AI起点の発想力と現場理解力を高い次元で融合し、プロダクトに落とし込んでいる点こそが、このチームの最大の強みだと思います。
野﨑:
そうですね。私もCTOの吉田も、AIとロボティクスの両方の領域に興味があり、研究してきました。そのうえで、AIのスペシャリストやロボットのスペシャリストが、一つのミッションに向かって団結していることは非常に大きな力になっています。私たちは一貫して「物理世界の知能処理」にこだわっており、そのためにこれまで取得されてこなかったデータを収集し、現場第一で取り組む姿勢を大切にしてきました。技術をつくるだけでは意味がなく、現場で確実に使われることが重要です。そのために、設計や仕組みの段階から現場での活用を前提に織り込み、開発を進めています。開発の過程では必ず現場の方々と密にコミュニケーションをとりながら進めており、この「現場と共につくる」姿勢こそが、私たちの大きな特徴だと考えています。

「無人化」の先にあるもの──現場データを起点に産業変革へ
──最後に今後のビジョンをお聞かせください。
野﨑:
私たちのビジョンは「Physical AIで、基幹産業を変革する」ことです。当面のチャレンジは建設現場の無人化ですが、これは単にAIを導入するという話ではありません。
物理作業の領域は、これまでデータが取得されていないためにAIを活用できず、さらに現場での利用を前提としないUI/UXやシステムが多いという課題があります。私たちは、こうした前提そのものを現場から変え、現場のデータを基点に新しい産業のあり方を再構築していきたいと考えています。例えば、これまで製造業やソフトウェア開発で培われてきたベストプラクティスを建設業に持ち込むことも可能かもしれません。
そうなれば、手戻りがなくなり、工期が短縮され、現場で瞬時にフィードバックができる。従来の施工管理とは全く異なる新しい仕組みを築けると考えています。
私たちが開発している「空間知能」を中核に、こうした取り組みが供給力不足といった社会課題の解決につながるはずです。
編集:石野瑠衣 | ファーストライト・キャピタル PR
撮影:稲垣純也
2025.10.7
ファーストライト・キャピタルでは、所属するベンチャーキャピタリスト、スペシャリストによる国内外のスタートアップトレンド、実体験にもとづく実践的なコンテンツを定期的に配信しています。コンテンツに関するご質問やベンチャーキャピタリストへのご相談、取材等のご依頼はCONTACTページからご連絡ください。
ファーストライト・キャピタルのSNSアカウントのフォローはこちらから!