第一級の学習信号としての人間参加型
オペレーターの修正、回復、介入が、最新のロボット データ パイプラインの設計方法を形作る理由。
人間の入力が監視になる場所
多くのロボット学習システムは依然として人間を一時的な足場として扱っています。つまり、最初はデモンストレーションを収集するのに役立ちますが、ポリシーがトレーニングされるとほとんど無視されます。 実際には、それは間違った抽象化です。 人間の行動は単なるブートストラップツールではありません。 多くの場合、これは、タスクの意図、障害の境界、および回復戦略を理解するために利用できる最も豊富なシグナルの 1 つです。
信号が存在する場所
その価値はデモンストレーションの成功だけに限定されません。 それは、一時停止、軌道途中の修正、グリップ調整、再試行動作、そしてオペレーターがタスクが失敗しそうになったことに気づき、ロボットが間違った動作をする前に戦略を変更する瞬間に現れます。
これがデータ設計にとって重要な理由
チームが最終的な成功の軌跡のみを保存すると、成功がどのように達成されたかを説明する大量の構造を放棄することになります。 これらの失われた瞬間は、多くの場合、まさにポリシーをより堅牢にするのに役立ちます。つまり、ドリフトから回復する方法、接触前に減速する方法、部分的なミスの後に再アプローチする方法、状態推定がわずかに間違っている場合の対応方法などです。
何をキャプチャするか
- 介入 — 人間がタスクを上書きしたり、タスクをコースに戻したりしたとき。
- 訂正 — 専門家の判断を反映したポーズ、力、シーケンスの小さな変更。
- 再試行 — タスクの本当の難しさを明らかにする失敗または部分的な試み。
- タスクのメタデータ — オペレーターのアイデンティティ、難易度タグ、および選択肢が変化した理由を説明するコンテキスト。
実践的なポイント
実際のロボット システムを構築するチームは、人間の入力を「真の」自律軌道の周りのノイズとして扱うのをやめるべきです。 多くの場合、これは彼らが実際に望む政策行動を最も明確に表現したものです。 優れたデータセットは、信号を単純化された成功のみの再生に折りたたむのではなく、保持します。
ベストプラクティス — デモンストレーション自体と並行して、人間による修正と回復を記録します。 多くの場合、それらは名目上のパスよりも有益です。