データ量よりもデータ品質が重要な理由
1,000 件の高品質で多様なデモンストレーションのデータセットは、多くの場合、10,000 件のノイズの多いデモンストレーションよりもパフォーマンスが優れています。 品質の問題 (センサーの非同期、アクションの不連続、成功と混合したタスクの失敗、一貫性のないラベル付け) は、トレーニングされたポリシーに伝播し、謎の展開エラーを引き起こします。
15 項目の品質チェックリスト
トレーニング セットに追加する前に、収集したエピソードのすべてのバッチにこれらのチェックを適用します。
- センサーのタイムスタンプは 10ms 以内に同期されます
- カメラ フレームのドロップなし (フレーム数と継続時間を確認)
- 物理的な関節制限内のアクション値
- 平均ステップ サイズから 2σ を超えるアクションの不連続性はありません
- 2 番目のレビュー担当者によって検証された成功/失敗のラベル
- タスクは予想される期間内に完了しました
- 最終的なデータセットではオペレーターによる自己修正はありません
- 重要な段階でカメラが遮られない
- 固有受容は命令された行動と一致する
- グリッパーの状態は適切なタイミングで遷移します
- 重複したエピソードはありません
- メタデータ フィールドが完了しました (タスク ID、オペレーター、日付)
- ターゲット形式で保存されたエピソード (RLDS/LeRobot)
- 予想される分布内のバッチ統計
- ランダムサンプルを目視でスポットチェック