データ収集

データ収集のためのロボットカメラのセットアップ: 手首、オーバーヘッド、ステレオ

カメラの配置は、ロボットのデータ収集において最も重要でありながら、最も頻繁に指定されていない決定事項の 1 つです。トレーニング中にポリシーが表示する観察結果は、展開中に表示されるものと一致する必要があります。カメラの設定を誤ると、信頼できるポリシーをトレーニングできないデータを収集することになります。

カメラの配置戦略

ロボットカメラの配置の最初の原則は、データ収集に使用されるカメラの取り付け位置が、ポリシー展開に使用されるカメラと同じである必要があるということです。この不一致から回復することはできません。手首のカメラのビューでトレーニングされたポリシーを頭上のカメラのビューに一般化することはできず、その逆も同様です。トレーニングデータの 1 つのエピソードを収集する前に、展開カメラの構成を定義します。

マニピュレーション研究における最も一般的な構成は次のとおりです。手首のみ (ロボットの手首に 1 台のカメラが取り付けられ、マニピュレーションワークスペースの前方を向いています)。オーバーヘッドのみ (固定オーバーヘッドリグに取り付けられた 1 台または 2 台のカメラ)。マルチビュー (手首カメラと、グローバルワークスペースコンテキストを提供する 1 つまたは 2 つの外部カメラ)。マルチビュー構成は、より複雑な記録インフラストラクチャを犠牲にして、ポリシーのパフォーマンスにおいて常にシングルビューより優れています。

リストカメラ: 長所、短所、ベストプラクティス

手首カメラは、操作アクションの一人称視点を提供します。ロボットは、エンドエフェクターで何を行っているかをほぼ確認します。この視点は、グリッパーと対象物の関係を正確に認識する必要がある、細かい把握や挿入の作業に非常に有益です。また、リストカメラはワークスペース内でグリッパーを自動的に追跡し、操作中にターゲットオブジェクトが常にフレーム内に収まるようにします。

リストカメラの主な制限は、グローバルワークスペースが見えないことです。ロボットは、アームを動かさずに現在のグリッパー位置から遠く離れたオブジェクトを認識できません。これにより、シーンレベルの理解や手動による調整が必要なタスクの有効性が制限されます。両手操作システムの場合、各腕に独自のリストカメラを搭載する必要があります。推奨仕様: 1080p 以上の解像度、60+ fps、高速動作時のモーションブラーを回避するためのグローバルシャッター (ローリングシャッターではない)、および近距離で把握接触点の視界を維持するための広角レンズ (90 ～ 110 度の FOV)。

オーバーヘッドカメラ: 構成とトレードオフ

固定オーバーヘッドカメラは、完全な操作シーンをキャプチャする、安定した一貫したワークスペースビューを提供します。腕の動きの影響を受けにくく、異なるワークスペース領域にわたる複数の連続ステップを必要とするタスクに、より適切なコンテキストを提供します。オーバーヘッドカメラは、複数のロボットステーションに一貫して取り付けるのが簡単で、大規模なデータ収集キャンペーンでは重要です。

制限は、操作接点のディテールが低下することです。卓上の作業スペースを見下ろす高さ 80 cm の頭上カメラでは、小さな物体のグリッパーと物体の接触形状を確実に観察することはできません。これが、高性能データ収集セットアップにおいてオーバーヘッドカメラが通常リストカメラと組み合わせられる理由です。オーバーヘッドビューはタスクのコンテキストと大まかな位置決めを提供し、リストビューは細かい操作の詳細を提供します。

解像度、フレームレート、同期

操作データ収集の場合、2026 年のほとんどの模倣学習ポリシーでは、30 fps でカメラあたり 480p ～ 720p で十分です。解像度が高い (1080p) と、微細な空間識別を必要とするタスクのパフォーマンスが向上します。 30 fps 未満のフレームレートでは、時間的エイリアシングが発生し、高速タスクでのポリシー学習が低下します。 60 fps を超えるフレームレートでは、ほとんどの操作タスクの利益が減少し、ストレージ要件が大幅に増加します。

マルチカメラの同期は非常に重要ですが、無視されることがよくあります。カメラがハードウェア同期していない場合は、データのロード中にタイムスタンプの調整を慎重に実装する必要があります。 33 ミリ秒のカメラ間オフセット (30 fps で 1 フレーム) であっても、手首ビューと俯瞰ビューが時間的に一貫している必要があるタスクでは、トレーニングが不安定になる可能性があります。 Intel RealSense D435 および D455 シリーズは、同期ケーブルを介したハードウェア同期をサポートしており、同期されたマルチカメラセットアップに SVRC が推奨する選択肢です。

深度カメラ

深度カメラは、RGB 画像に加えてピクセルごとの距離測定を提供し、明示的なステレオ再構成を行わずに 3D シーンを理解できるようにします。 Intel RealSense、Microsoft Azure Kinect、および ZED カメラは、ロボットデータ収集で最も一般的に使用される深度センサーです。奥行き情報は、オブジェクトの高さ、形状、または 3D 位置が把握計画に重要であるタスクや、純粋な画像入力ではなく点群入力を使用するポリシーにとって貴重です。

トレードオフ: 深度カメラは重量、コスト、処理負荷を増加させます。最先端の模倣学習結果の多くは純粋な RGB カメラで達成されており、深度が必ずしも必要ではないことを示唆しています。ポリシーアーキテクチャが 3D 入力から明らかに恩恵を受ける場合、タスクに大幅な深さの変化が含まれる場合 (異なる高さのオブジェクトを積み重ねる場合)、または可変照明条件全体で堅牢なパフォーマンスが必要な場合 (深度は RGB よりも照明に対して不変です) に深度を使用します。

キャリブレーションとSVRCのマルチカメラ標準

データ収集を開始する前に、すべてのカメラをキャリブレーションする必要があります。つまり、内部キャリブレーション (焦点距離、歪み係数) と外部キャリブレーション (ロボットベースに対する位置と方向) です。キャリブレーションには物理的なチェッカーボードターゲットを使用し、カメラの移動または調整後に再キャリブレーションを行ってください。キャリブレーションパラメーターを各データセットのメタデータとして保存します。

SVRC のデータ収集標準では、固定の 3 台のカメラ構成が使用されます。アームごとにリストカメラ 1 台と、ステーションごとに校正済みオーバーヘッドカメラ 1 台です。物理的なカメラマウントは標準化されたワークステーション設計の一部であり、施設全体で一貫した配置が保証されます。すべてのキャリブレーションパラメーターは自動的に記録され、データセットのエクスポートに含まれます。独自のデータ収集インフラストラクチャを設定しているチーム向けに、SVRC はカメラ設定に関するコンサルティングを提供し、事前に調整されたカメラアセンブリを提供できます。お問い合わせまたは当社のデータサービスページ詳細については。