Mobile ALOHA セットアップ ガイド: ハードウェア、ソフトウェア、および最初のデモ
モバイル ALOHA は、学術研究から生み出された最も影響力のある両手操作プラットフォームの 1 つです。 ハードウェアの組み立て、アームのキャリブレーション、ソフトウェア スタックのライブ、最初のデモンストレーションの記録など、エンドツーエンドで実行するには、システムの各層に細心の注意を払う必要があります。
ハードウェアアセンブリの概要
Mobile ALOHA システムは、盛り上がったシャーシに取り付けられた 2 つの ViperX 300 または同様の 6-DOF アームを備えた車輪付きモバイル ベース (通常は AgileX Tracer または同等の差動駆動プラットフォーム) で構成されます。 両手操作のセットアップには、リーダー アームとフォロワー アームの一致するペアが必要です。リーダー アームは軽量で、バックドライブ可能で、遠隔操作中に人間のオペレーターが保持します。 フォロワー アームは、リーダーの動きをリアルタイムで反映するロボット アームです。
組み立ては、リーダー アームの人間工学に適合する正しい高さと横方向のオフセットでシャーシにフォロワー アームを取り付けることから始まります。 リーダーとフォロワーのジオメトリの不一致は、制御品質の問題の一般的な原因です。 カメラ スタック (通常、各フォロワー アームに手首に取り付けられたカメラと 1 台または 2 台のオーバーヘッド カメラ) は、ソフトウェア キャリブレーションを開始する前に取り付けて固定する必要があります。 ケーブル管理は見た目以上に重要です。ケーブルが緩んでいるとエピソードが中断され、不正なデータが生成されます。
リーダーとフォロワーのキャリブレーション
キャリブレーションは、ほとんどのチームが急いでいるステップであり、ほとんどのチームが後悔しています。 単一のエピソードを記録する前に、リーダー アームとフォロワー アームが一致するジョイント ゼロの位置にある必要があります。 ほとんどの ViperX ベースのセットアップには物理的なキャリブレーション フィクスチャが同梱されています。それを使用してください。 機械的なゼロ調整の後、ソフトウェア キャリブレーションにより、ゼロ ポーズでのリーダーとフォロワーの間のジョイント オフセットがキャプチャされ、遠隔操作中にリアルタイムで適用されるバイアス補正として保存されます。
作業スペース内でリーダー アームにゆっくりと指示を出し、フォロワー アームが追跡するのを観察して、キャリブレーションの品質をテストします。 持続的な関節空間の遅れ、特定の関節角度でのドリフト、または左右の非対称な応答は、データセットの品質を低下させるキャリブレーション エラーを示しています。 データ収集キャンペーンを開始する前に再調整し、システムの出荷後または機械的な調整を行った後に調整を再検証します。
ソフトウェア スタック: ACT と LeRobot
オリジナルの Mobile ALOHA 論文では、デモンストレーション データでトレーニングされた ACT (Action Chunking with Transformers) ポリシーが使用されていました。 ソフトウェア スタックは 3 つの層で構成されます。ロボットの組み込みコンピューティングで実行される低レベルの制御層、関節の状態とカメラ フレームを同期的にキャプチャする遠隔操作記録層、および収集されたデータセットで ACT または別のポリシーがトレーニングされるトレーニング層です。
Hugging Face の LeRobot は、このワークフローの標準のオープンソース フレームワークになりました。 統一されたデータ形式、ALOHA スタイルのハードウェア用の記録スクリプト、ACT、Diffusion Policy、TDMPC 用のトレーニング パイプラインを提供します。 SVRCの データプラットフォーム データセットを LeRobot 互換形式でエクスポートするため、SVRC が収集したデータでトレーニングしたり、保存やバージョン管理のために独自のデモンストレーションをアップロードしたりすることが簡単になります。
最初のデータ収集セッションを記録する
記録する前に、タスクを正確に定義してください。 「カップを持ち上げる」は曖昧すぎます。カップの開始位置、方向、ターゲットの配置を指定します。 タスク設定の一貫性により、デモンストレーション データセットが学習可能になります。 エピソード間でワークスペースを開始状態にすばやく戻すには、3 ~ 5 つのリセット手順を準備します。
最初のセッションでは、明確に定義された単一のタスクのデモンストレーションを 50 回成功させることを目指します。 30Hz以上で録音してください。 録画直後に各エピソードに成功フラグの注釈を付けます。注釈を後で残さないでください。 SVRC は、最初から多様性を構築するために、少なくとも 2 つの異なる照明条件で、オブジェクトの配置にわずかな変化を付けて録画することを推奨しています。 の SVRC データ サービス プラットフォーム エピソード ブラウザと注釈ツールを提供して、このワークフローを合理化します。
一般的な問題とその解決方法
新しい Mobile ALOHA セットアップで最も頻繁に発生する問題は、4 つのカテゴリに分類されます。 まず、リーダーとフォロワーのラグです。通常、制御ループ上のネットワーク遅延が原因で発生します。リーダーとフォロワーが同じローカル マシン上にあるか、WiFi ではなく専用のイーサネット リンク経由で接続されていることを確認してください。 2 番目に、カメラの同期ドリフト: リスト カメラとオーバーヘッド カメラがハードウェア同期していない場合は、データの読み込み中にフレーム インデックスの調整ではなくタイムスタンプ ベースの調整を使用します。 3 番目に、両手タスク中の腕の衝突: 集中的なトレーニングの前に、URDF にソフト ジョイント リミットと衝突メッシュを追加します。 4 番目に、ベースの動きがアームのデモンストレーションを妨げます。操作のみのデータを収集する場合は、ベースのロックをかけてドリフトを防ぎます。
最初のデモ後の次のステップ
クリーンな 50 エピソードのデータセットを取得したら、LeRobot トレーニング パイプラインを使用して ACT ポリシーをトレーニングします。 クリーンなデータを使用して明確に定義されたタスクでは、初回の成功率は 40 ~ 60% であると予想されます。これは正常であり、デモンストレーションとデータの多様性が増えると急速に向上します。 拡張すると、SVRC の データ収集サービス 標準化されたハードウェアを使用して、専門的に収集されたエピソードでデータセットを強化できます。 ハードウェアの調達または手動システムのリースについては、当社の Web サイトをご覧ください。 ハードウェアカタログ または SVRC チームに連絡してください.