ロボット学習

Sim-to-Real Transfer: シミュレーションでロボットをトレーニングし、現実世界に展開する方法

シミュレーションでのトレーニングと実際のハードウェアへの展開は、ロボット工学における最も魅力的なアイデアの 1 つであり、無制限のデータ、ハードウェアの摩耗なし、並列トレーニングが可能です。しかし、シミュレーションと現実の間のギャップにより、多くのプロジェクトが妨げられてきました。 2026 年に機能するものは次のとおりです。

Sim-to-Realが難しい理由

シミュレータは現実を近似したものです。物理エンジンがどれほど洗練されていても、ギャップは存在します。シミュレーションと実際のエラストマー材料では接触力学が異なり、アクチュエータの摩擦とバックラッシュを正確にモデル化するのが難しく、カメラのレンダリングが実際の光学系と異なり、空気抵抗、熱膨張、センサーノイズなどの微妙な詳細が無視されたり単純化されたりすることがよくあります。シミュレーションでトレーニングされたポリシーが実際のハードウェアに展開されると、トレーニング分布の外側にある感覚入力や物理的反応に遭遇し、失敗します。

シミュレーションと実際のギャップの重大度はタスクによって異なります。平面上の純粋な移動は、シミュレーションから現実への移行に成功し、印象的な結果が得られました (Boston Dynamics、ETH Zurich の ANYmal の研究、OpenAI の Rubik's cube の実験を参照)。微細な操作、特に変形可能なオブジェクトとの接触を伴うタスクは、接触の物理的性質がタスクの成功に不可欠であり、忠実にシミュレーションすることが難しいため、依然としてはるかに困難です。

ドメインのランダム化

ドメインランダム化 (DR) は、シミュレーションと実際のギャップを埋めるために最も広く使用されている手法です。中心となるアイデアは、さまざまな摩擦係数、オブジェクトの質量、アクチュエーターのゲイン、照明条件、カメラのプロパティなど、ランダム化されたシミュレーションパラメーターを幅広く使用してトレーニングすると、現実世界はこの分布からの単なるサンプルになります。広範な DR でトレーニングされたポリシーは、単一のシミュレーター構成の正確な物理を利用できないため、より堅牢な表現を開発する必要があります。

効果的な DR には、適切なパラメータをランダム化する必要があります。すべてを均一にランダム化することは多くの場合逆効果です。タスクにとって重要な特定のギャップを必ずしも埋めることができず、学習の問題がさらに難しくなります。シミュレーションと実際のギャップを経験的にプロファイリングします。実際のハードウェアでポリシーを実行し、障害モードを特定して、それらの障害を引き起こす可能性が最も高いシミュレーションパラメーターでランダム化のターゲットを設定します。操作タスクの場合、通常、接触剛性、摩擦、およびオブジェクトの質量が最も利用率の高いランダム化軸です。

物理学の忠実度とシミュレータの選択

2026 年の時点では、NVIDIA Isaac Sim (PhysX 5 上に構築され、現在は Omniverse に統合されています) が、高忠実度のロボットシミュレーションの主要な選択肢となっています。 GPU で高速化された物理エンジンにより、数千の並列シミュレーションインスタンスが可能になり、複雑なタスクでも強化学習を扱いやすくなります。 Isaac Sim のレンダリング品質も十分に高いため、レンダリングされたイメージでトレーニングされたビジュアルポリシーを、適度なドメインのランダム化で実際のカメラに転送できます。

MuJoCo は、高速で正確な接触物理学と事前構築された環境の広範なエコシステムにより、研究に広く使用され続けています。これは、フォトリアリスティックなレンダリングを必要としない操作研究の標準的な選択肢です。 PyBullet はセットアップが簡単ですが、忠実度は低く、ラピッドプロトタイピングに適しています。 Gazebo/ROS の統合は十分に確立されていますが、物理的な品質は一般的に操作研究用に特化したシミュレーターに劣っています。

2026 年に成功するアプローチ

いくつかのアプローチが、2026 年における信頼性の高いシミュレーションからリアルへの変換を実証しました。トレーニング中の特権情報を使用した移動のシミュレーションからリアルへの変換 (グラウンドトゥルースの物理状態にアクセスできる教師のポリシーから学習し、センサーの観察のみを使用して生徒のポリシーを蒸留する) が脚式ロボットの標準的なアプローチとなり、実際のハードウェアでほぼシミュレーションのパフォーマンスを達成します。操作については、シミュレーションの事前トレーニングと少数の実際のデモンストレーション (多くの場合 10 ～ 50) を組み合わせることが非常に効果的であることが証明されています。シミュレーションポリシーは適切な事前動作を学習し、実際のデモンストレーションは特定のギャップに対処するためにそれを微調整します。

生成シミュレーション (大規模な生成モデルを使用して、フォトリアリスティックなレンダリングや多様なオブジェクト構成などの現実的な合成トレーニングデータを作成する) は、物理ベースのシミュレーションを強力に補完するものとして登場しました。 1X Technologies や Physical Intelligence などの企業は、生成データの拡張によって現実世界の政策パフォーマンスが大幅に向上することを示す結果を発表しました。

あなたのプロジェクトのための実践的なアドバイス

シミュレーショントレーニングに投資する前に、シミュレーションと実際のギャップを定量化することから始めます。シミュレーションでトレーニングしたポリシーを実際のハードウェアで 10 回試行し、障害モードを記録します。障害が主に視覚的なものである場合 (ポリシーがオブジェクトを正しく認識できない場合)、レンダリングの忠実性と視覚的なドメインのランダム化に焦点を当てます。障害が動的である場合 (ポリシーは正しく認識できますが、間違ったアクションを実行します)、アクチュエータのモデリングと接触物理に焦点を当てます。失敗が混在している場合は、シミュレーターを改善するよりも実際のデモンストレーションを収集する方が有益な場合があります。

2026 年のほとんどの操作タスクについて、SVRC はハイブリッドアプローチを推奨しています。シミュレーションを使用してさまざまな事前トレーニングデータと大まかな動作の初期化を生成し、次に、データサービス微調整用。これにより、現実世界のデータを忠実に再現したシミュレーションが可能になります。実際の評価を実行するためのハードウェアについては、ハードウェアカタログまたはロボットをリースするパイロット期間中。