ロボットプラットフォーム

ALOHA ロボット: 概要、仕組み、開始方法

ALOHA はスタンフォード大学が開発した両手遠隔操作プラットフォームで、ロボットが少数の人間によるデモンストレーションから、ポテトチップスの袋を開ける、ケーブルを結ぶ、料理などの器用な両手操作作業を学習できることを初めて実証しました。これは現在、世界で最も広く参照されているバイマニュアル研究プラットフォームです。このガイドでは、ALOHA とは何か、その仕組み、および使用を開始する方法について説明します。

スタンフォード大学誕生の物語

ALOHA — 両手操作遠隔操作のための低コストのオープンソースハードウェアシステム — はスタンフォード大学のモバイル操作研究所で開発され、Tony Z. Zhao らによる論文「Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware」で発表されました。中心的なテーマは挑発的でした。印象的な器用な操作を実行するのに、高価な独自のロボットハードウェアは必要ありません。 ALOHA は、総額 20,000 ドル未満の 4 台の ViperX 300 および WidowX 250 ロボットアーム (片側に 2 台、遠隔操作用のリーダーとして 1 台とフォロワーとして 1 台) を使用し、ACT アルゴリズムと組み合わせて、以前は何倍もの費用がかかるカスタム設計のシステムを必要としていたタスクを実行しました。

この論文では、キャンディーの包装を解く、スロットに電池を挿入する、穴にロープを通すなど、10 件の両手作業を実演しましたが、50 回のデモンストレーションですべての成功率が 80% 以上でした。これらの結果がロボット工学コミュニティに衝撃を与えたのは、タスクが斬新だったからではなく、コストとデータ効率のせいでした。 ALOHA と ACT は協力して、アクセス可能な器用な操作研究の新しいベンチマークを確立し、現在も続いている後続研究の波を引き起こしました。

ALOHA のハードウェア設計とすべてのソフトウェアは完全にオープンソースです。部品表、組み立て説明書、ACT トレーニングコードは GitHub で公開されています。このオープン性により、ALOHA は事実上の標準の両手研究プラットフォームとなり、世界中の数十の研究グループが元の設計のバリエーションを実行しています。 SVRC は、データサービスそしてハードウェアリースプログラム.

ハードウェアアーキテクチャ: リーダーとフォロワーの両手セットアップ

ALOHA システムは、各アームに 1 つずつ、合計 2 つの運動学的ペアで構成されます。各ペアには、オペレーターが手で握って動かす軽量で後方駆動可能なアームである「リーダー」アームと、リーダーの関節位置をリアルタイムで反映する「フォロワー」アームがあります。フォロワーアームは実際のマニピュレーター (グリッパー、ツール、またはエンドエフェクター) を運び、物理世界と対話します。リーダーアームには、バックドライブ可能であり、オペレータにトルクフィードバックを提供するだけでよいため、エンドエフェクタのペイロード要件はありません。

両手操作構成 (2 つの完全なリーダーとフォロワーのペア) により、ALOHA は器用なタスクを実行できる独自の機能を備えています。人間の手は本質的に両手操作です。一方の手で物体を保持し、もう一方の手でそれを操作するか、または 2 つの同時接触点が必要なタスクを両手で協力して完了します。単腕ロボットは、複雑な固定具またはシーケンスを使用してこれらのタスクを近似することしかできません。両手ロボットはそれらを直接扱うことができます。 ALOHA フォームファクタは、両アームが共有のテーブル固定具に取り付けられており、オペレータがシステムの前に座る卓上操作タスクに最適化されています。

オリジナルの ALOHA 論文のカメラ設定では、オーバーヘッド (ワークスペース全体の鳥瞰図)、左手首、右手首に 1 台のカメラの 3 台のカメラが使用されていました。 3 台のカメラはすべて、ACT ポリシーの視覚的観察として使用されます。このマルチビュー設定は非常に重要です。手首のカメラは掴みと接触のイベントのクローズアップビューを提供し、オーバーヘッドカメラは両手の調整のためのグローバルコンテキストを提供します。単一カメラの ALOHA バリアントでは、調整が必要なタスクにおいてポリシーのパフォーマンスが著しく低いことが示されています。

ACT: ALOHA の背後にあるアルゴリズム

ACT (Action Chunking with Transformers) は ALOHA とともに開発され、プラットフォームの主要な学習アルゴリズムです。 ACT は、単一の次のアクションではなく、将来の関節位置のチャンク (通常は 50 Hz で 100 タイムステップ、2 秒の動きをカバー) を予測するトランスベースの模倣学習ポリシーです。このアクションチャンキングアーキテクチャは、各タイムステップでの小さな予測ミスが蓄積され、タスクの過程で大きな軌跡の偏差となる、ナイーブな動作クローニングの複合エラーの問題を大幅に軽減します。

ACT ポリシーアーキテクチャは、トレーニング中に CVAE (Conditional variational Autoencoder) エンコーダーを使用して、各デモンストレーションの潜在的なスタイルをキャプチャします。これは、本質的に、タスクの結果が「どのような」ものであったのかとは別に、人間がタスクを「どのように」完了したかを圧縮した表現です。これにより、モード平均アーティファクトを発生させずに、人間のデモンストレーションにおける自然な変動をモデル化するポリシーが可能になります。推論時には、現在の観測値とサンプリングされた潜在ベクトルを条件として CVAE デコーダーのみが実行され、アクションチャンクが生成されます。

タスクごとに 50 のデモンストレーションを含む ALOHA データセットで ACT をトレーニングするには、単一の RTX 3090 GPU で 2 ～ 4 時間かかります。元の論文とともにリリースされたトレーニングコードは、標準の ALOHA タスク用に文書化されたハイパーパラメータを使用して簡単に実行できます。カスタムタスクの場合、調整する最も影響力のあるハイパーパラメーターはチャンクサイズ (構成内の kl_weight) です。チャンクが大きくなると、予期しない摂動に対する反応性が犠牲になりますが、時間的な一貫性が向上します。 SVRCのプラットフォーム ALOHA 形式のデータセット用に事前構成された ACT トレーニングパイプラインが含まれています。

モバイル ALOHA: ALOHA をテーブルから外す

2024 年に同じスタンフォードグループによって発行された Mobile ALOHA は、ALOHA の概念をモバイルベースに拡張しました。両手アームのセットアップは AgileX Tracer モバイルベースに取り付けられ、ALOHA アームを操作用に保持したまま、システムが空間内のさまざまな場所 (キッチンカウンターに近づく、ダイニングテーブルに移動する、廊下を移動する) に移動できるようになりました。モバイル ALOHA は、コンロでエビを調理したり、食器洗い機に荷物を積み込んだり、荷物を配達したりするなど、移動と器用な操作の両方を必要とする作業を実演しました。

モバイル ALOHA は、全身遠隔操作の概念を導入しました。オペレーターは、個別の制御インターフェイス、またはオペレーターの体の動きをロボットの全身構成にマッピングする統合インターフェイスを通じて、モバイルベースと 2 つのアームの両方を同時に制御します。モバイル ALOHA のデータ収集は、テーブルトップ ALOHA よりも大幅に複雑です。これは、ポリシーがナビゲーションと操作を調整する方法を学習する必要があり、オブジェクトの変化だけでなく環境の空間的変化もカバーするデモンストレーションが必要であるためです。

モバイル ALOHA では、共同トレーニングも導入しました。これは、モバイル操作のデモンストレーションと静的 ALOHA 操作のデモンストレーションについて、モバイル ALOHA ポリシーを共同でトレーニングするものです。共同トレーニングにより、モバイルプラットフォームでの操作パフォーマンスが向上しました。これは、テーブルトップデータからの両手操作の知識がモバイルコンテキストに有効に伝達されることを示唆しています。 SVRC は Mobile ALOHA 互換のデータセットを提供しており、当社のサンフランシスコ施設でモバイル操作のデモンストレーションを収集できます。お問い合わせモバイル ALOHA データ要件について話し合います。

ALOHA、ALOHA 2、および商用デリバティブの違い

2024 年後半に公開された ALOHA 2 は、再現性が向上した高品質のアーム、改良されたカメラ取り付けシステム、ケーブル配線の複雑さを軽減する改訂された手首の設計など、いくつかの点でオリジナルを改良しました。電気システムも更新され、デイジーチェーン接続された電源ケーブルではなく専用の配電盤を使用するようになり、長時間のデータ収集セッション中の信頼性が向上しました。 ALOHA 2 は、オリジナルとの完全なソフトウェア互換性を維持しています。一方で収集されたデータセットは、ハードウェアのバリエーションに関する通常の注意事項に従って、もう一方で評価されたポリシーをトレーニングできます。

現在、いくつかの商用ベンダーが ALOHA 互換プラットフォームを販売しています。これは、ビルダーがコンポーネントを調達してアームを自分で組み立てる必要がなく、ALOHA の機械仕様およびソフトウェア仕様に準拠した、事前に組み立てられ、テストされたシステムです。これらの市販の ALOHA システムは、DIY の部品表よりも高価ですが、セットアップ時間と組み立てエラーのリスクを大幅に軽減します。 SVRC のハードウェアカタログには、ALOHA 互換の構成が含まれています。を参照してください店現在のオプションと価格については。

SVRC を通じて ALOHA を始める

SVRC は、ALOHA に基づいた研究をあらゆる段階でサポートします。始めたばかりのチーム向けに、ALOHA プラットフォームのリースを提供しています。ロボットリースプログラム — ハードウェアを購入する資本を支払うことなく、月額固定料金で完全な両手セットアップにアクセスできます。リースされたシステムは事前に調整された状態で到着し、初日からデモンストレーションを収集できる状態になります。

データ収集については、マネージドサービスは、サンフランシスコ施設でデモンストレーションを収集できる訓練を受けた ALOHA オペレーターを提供します。データセットは、ACT、拡散ポリシー、および OpenVLA トレーニングパイプラインと互換性のある RLDS/LeRobot 形式で提供されます。当社のオペレーターは両手調整タスクの経験があり、初めての研究者が通常達成するよりもクリーンなデータセットを生成する構造化された品質プロトコルに従っています。タスクが必要な場合は、オンロケーションデータ収集キャンペーンのために貴社のサイトを訪問することもできます。

ポリシーのトレーニングと評価については、 SVRCプラットフォームは、事前構成された ACT トレーニングパイプライン、実験追跡、および ALOHA ポリシーの評価ツールを提供します。私たちのベンチマークこれには、ポリシーのパフォーマンスをリファレンス実装と比較できる ALOHA 固有のタスク評価が含まれます。両手操作研究プログラムをゼロから構築している場合でも、既存のシステムのパフォーマンスを向上させようとしている場合でも、 SVRCのチーム適切なアプローチを計画するのに役立ちます。