現実のギャップ
シミュレーションで 95% の成功を達成したポリシーは、現実世界では 30 ~ 50% に低下することがよくあります。 この「現実のギャップ」は、視覚的な違い (レンダリングと実際の画像)、物理的な違い (接触モデルの不正確さ)、およびセンサーのノイズ パターンから生じます。 このギャップを体系的に埋めることは、ロボット学習における最も重要な実践的なスキルの 1 つです。
3つの戦略
ドメインのランダム化: 現実世界が「単なる別のサンプル」になるように、幅広いパラメーター分布にわたってトレーニングします。 システムの同定: シミュレーション パラメータを注意深く測定し、現実に一致するように調整します。 微調整: シミュレーションでトレーニングした後、小規模な現実世界のデータセット (50 ~ 200 エピソード) を収集して微調整します。 最も成功した展開は、3 つすべてを組み合わせたものです。
- ドメインのランダム化: 視覚的なポリシーに最適
- システム識別: 接触が多いタスクに最適
- 現実世界の微調整: ほぼ常にパフォーマンスが向上します
- 推奨: 3 つすべてを組み合わせる
実践的なヒント
MuJoCo または Isaac Sim から始めます (どちらも優れた接触モデルを備えています)。 カメラの位置、照明、オブジェクトのテクスチャを積極的にランダム化します。 実際の関節の摩擦と減衰を測定します。 複雑なタスクを試す前に、単純なタスクで sim-to-real を検証してください。 SVRC は、OpenArm 用に調整されたシミュレーション モデルを提供します。