ロボット学習

ロボットポリシーの一般化: ロボットが新しいオブジェクトで失敗する理由

ポリシーはトレーニングオブジェクトで 90% の成功を達成します。新しいカップ、異なるボックス、見慣れないツールを導入すると、パフォーマンスは 30% に低下します。これは一般化問題であり、ロボット学習を現実世界に導入する際の中心的な課題です。

ロボット政策にとって一般化が意味するもの

ロボットポリシーは、トレーニング中には見られなかったオブジェクト、位置、条件に対するタスクを正常に実行したときに一般化されます。これは、実証された動作を単に記憶することとは異なります。記憶すると、展開条件がトレーニング条件と異なるとすぐに機能しなくなる脆弱なポリシーが生成されます。一般化では、特定の視覚入力に関連付けられた特定の動作シーケンスではなく、基礎となるタスクの概念 (容器を持ち上げ、液体を注ぐ) を学習するポリシーが必要です。

実際に重要な一般化には複数の軸があります。オブジェクトの外観の一般化 (同じ形状、異なる色またはテクスチャ)、オブジェクトのジオメトリの一般化 (同じカテゴリ、異なるサイズまたは正確な形状)、位置の一般化 (同じオブジェクト、異なる開始位置)、および構成の一般化 (馴染みのあるタスク要素の新しい組み合わせ) です。各軸には異なるデータ戦略が必要であり、ポリシーアーキテクチャに応じて多かれ少なかれ困難になります。

なぜ失敗するのか: 根本原因

一般化が不十分になる最も一般的な原因は、トレーニングデータセットの多様性が不十分であることです。すべてのデモンストレーションで同じ開始位置で同じ赤いカップが使用された場合、ポリシーは「カップ」の一般的な概念ではなく、そのカップとその位置に固有の機能を学習します。このポリシーでは、「この特定の場所でこの特定の赤いカップを拾う」と「どこでもカップを拾う」ことを区別できません。これはアルゴリズムの欠陥ではありません。それはデータの問題です。

二次的な原因は、視覚的特徴の分布の変化です。トレーニングデモンストレーションが制御されたスタジオ照明の下で記録され、環境光が変動する環境で展開が行われる場合、ポリシーが学習した視覚的機能が展開の観察時に正しくアクティブにならない可能性があります。同様に、新しいオブジェクトの表面テクスチャや反射率がトレーニングオブジェクトとは異なる場合、ポリシーバックボーンで使用される低レベルの視覚的特徴が期待と一致しない可能性があります。このため、SVRC のデータ収集標準では、複数の照明条件下で、さまざまなオブジェクトインスタンスを使用してデータを収集する必要があります。

データ多様性戦略

一般化を改善する最も信頼できる方法は、データセットを意図的に多様化することです。オブジェクトの多様性: さまざまなサイズ、色、素材、ブランドのターゲットオブジェクトカテゴリの少なくとも 10 ～ 20 個の異なるインスタンスを含むデモンストレーションを収集します。位置の多様性: 30 ～ 40 cm グリッド全体で開始位置を変更し、さまざまな方向を含めます。背景の多様性を高めるには、ワークスペースの表面を変更し、気が散るものを追加し、セッション全体で照明を変更します。

データ拡張は実際の多様性を補うことはできますが、それを置き換えることはできません。標準的な視覚拡張 (カラージッター、ランダムクロップ、明るさ/コントラストの変動) は、照明の変動に対する堅牢性を向上させますが、多様なオブジェクトインスタンスに代わるものではありません。画像編集または生成モデルを使用してオブジェクトのバリエーションを作成する合成拡張データの生成は有望であることが示されていますが、非現実的な視覚的アーティファクトの導入を避けるために慎重な品質管理が必要です。

VLA とタスク固有のポリシー

視覚言語アクションモデル (VLA) は、言語指示と視覚的観察を入力として受け取り、アクションを生成するポリシーであり、一般化への別のアプローチを提供します。大規模なビジョン言語の事前トレーニングの豊富な意味論的表現にロボットの動作を基礎付けることにより、VLA は、言語の説明と一致する視覚的な外観に基づいて、新しいオブジェクトインスタンスをゼロショットで処理できる場合があります (「マグカップを持ち上げる」は、モデルがマグカップとして認識する任意のオブジェクトに一般化されます)。 OpenVLA、Octo、RT-2 などのモデルは、一部の操作タスクで有意義なゼロショット一般化を実証しています。

ただし、VLA は魔法の汎化マシンではありません。彼らは意味論的な一般化 (既知のカテゴリ内の新しいオブジェクトのインスタンス) には優れていますが、幾何学的一般化 (異なる把握構成を必要とする新しいオブジェクトの形状) や、正確な力の制御や接触が多い動作を必要とするタスクには依然として苦労しています。ほとんどの研究チームにとって、実際的な推奨事項は、VLA を出発点またはバックボーンとして使用し、次にタスク固有のデモンストレーションで微調整して、必要な精度と信頼性を達成することです。

一般化のための評価方法

一般化は、ディストリビューション内のパフォーマンスから推測するのではなく、明示的に評価する必要があります。標準評価プロトコルでは、トレーニングに存在しないオブジェクトの保持されたテストセットを使用します。理想的には、データ収集から意図的に除外されたカテゴリごとに 5 ～ 10 個のオブジェクトインスタンスです。トレーニング後にホールドアウトセットを評価し、分布内と分布外の両方の成功率を個別にレポートします。 85% の分布内を達成するが、分布外では 40% のみを達成するポリシーは一般化が限られており、より多様なトレーニングデータが必要です。

SVRC の品質基準では、データセットが本番対応としてマークされる前に、一般化評価が必要です。当社のアノテーションおよび評価パイプラインには、すべての操作データセット用のホールドアウトオブジェクトセットが含まれており、当社のエンジニアリングチームは、トレーニングされたポリシーに対して標準化された一般化評価を実行できます。私たちのサービスを通じて、より一般化可能なデータセットを構築するのに役立ちます。データサービス、または評価サポートについては、 SVRC チームに連絡してください.