Annotation des données du robot : comment étiqueter les démonstrations de robots pour la formation
L'annotation est la partie la moins glamour de l'apprentissage des robots et la plus conséquente. Un ensemble de données de 500 démonstrations bien annotées permettra d’élaborer une meilleure politique que 2 000 démonstrations mal étiquetées. Voici ce que signifie l'annotation pour les données du robot et comment le faire correctement.
Ce que signifie l'annotation pour les données du robot
Contrairement à la classification d'images, où l'annotation consiste à dessiner des cases ou à cliquer sur des étiquettes, l'annotation de démonstration de robot est plus riche et plus structurée. Un seul épisode de robot - généralement 20 à 200 secondes de manipulation - doit être étiqueté à plusieurs niveaux : l'épisode a-t-il été un succès ou un échec, quel langage décrit la tâche, où commencent et se terminent les phases sémantiquement distinctes, et existe-t-il des images qui devraient être exclues de la formation en raison d'erreurs matérielles ou d'erreurs de l'opérateur.
L'annotation est généralement effectuée par des évaluateurs humains qui regardent des rediffusions vidéo d'épisodes enregistrés ainsi que des tracés des états des articulations et de l'ouverture de la pince. De bons outils d'annotation affichent simultanément des vidéos synchronisées provenant de plusieurs caméras, ce qui permet de juger facilement du succès du point de vue que les propres caméras du robot pourraient ne pas capturer clairement.
Indicateurs de réussite : l'annotation la plus importante
Chaque épisode d'un ensemble de données d'entraînement de robot doit être étiqueté avec un indicateur de réussite binaire : le robot a-t-il terminé la tâche avec succès. Cela semble simple, mais les critères de réussite doivent être définis précisément avant le début de l’annotation. « Placer la tasse sur l'assiette » nécessite une spécification : la tasse doit-elle être verticale, l'orientation de la poignée est-elle importante, quelle erreur de position est acceptable ? Les annotateurs appliquant différentes normes implicites au même ensemble de données créent des étiquettes bruyantes qui dégradent les performances de formation.
Rédigez un document de spécification de réussite d'une page avant le début de l'annotation, avec des exemples d'images de cas de réussite et d'échec. Utilisez ce document pour calibrer les annotateurs. Mesurez l'accord entre annotateurs sur un sous-ensemble partagé d'épisodes : si l'accord est inférieur à 90 %, vos critères de réussite doivent être clarifiés. Le pipeline d'annotations de SVRC nécessite des documents de critères de réussite explicites et des vérifications d'accord entre annotateurs avant qu'un ensemble de données ne soit marqué comme prêt pour la formation.
Étiquettes de langue
Les annotations linguistiques attachent des descriptions en langage naturel aux épisodes ou aux segments d'épisode. Ceux-ci sont nécessaires à la formation de politiques conditionnées par le langage – des politiques qui suivent des instructions telles que « ramasser le bloc rouge » plutôt que de coder la tâche en dur. Les annotations linguistiques permettent également la compatibilité avec les modèles vision-langage-action (VLA) et permettent de rechercher et de filtrer des ensembles de données par description de tâche.
Écrivez des annotations linguistiques à deux niveaux de spécificité : un nom de tâche court (« placement de la tasse ») et une instruction en langage naturel (« prenez la tasse blanche et placez-la sur l'assiette bleue »). L'instruction doit décrire ce qu'un observateur humain voit se produire, et non l'état interne du robot. Si votre tâche implique des variantes de tâche (différents objets, différents emplacements cibles), chaque variante doit avoir une instruction correspondante qui la distingue des autres.
Segmentation des tâches
Pour les tâches à long terme impliquant plusieurs sous-tâches séquentielles, les étiquettes de segmentation marquent les limites entre les phases. Une tâche de mise en table peut être segmentée en : atteindre la tasse, saisir la tasse, transporter la tasse, placer la tasse, libérer la tasse. La segmentation permet une formation aux politiques hiérarchiques, des mesures de réussite au niveau des sous-tâches et une augmentation sélective des données. Il permet également un débogage chirurgical : si une stratégie échoue pendant le transport mais réussit lors de la saisie, les étiquettes de segmentation vous permettent de mesurer les taux de réussite des sous-tâches et de cibler les efforts de collecte de données là où ils sont le plus nécessaires.
L'annotation de segmentation est plus coûteuse que le signalement du succès et n'est pas toujours nécessaire. Donnez la priorité à la segmentation pour les tâches comportant au moins trois phases sémantiquement distinctes, ou lorsque vous envisagez d'utiliser une architecture de stratégie hiérarchique.
Outils d'annotation et normes de qualité
Les outils d'annotation courants pour les données de robot incluent Label Studio (open source, prend en charge les données vidéo et de séries chronologiques), CVAT (outil d'annotation de vision par ordinateur, idéal pour les superpositions de cadres de délimitation) et les navigateurs d'épisodes personnalisés construits avec Gradio ou Streamlit. La plate-forme de données de SVRC comprend une interface d'annotation d'épisode intégrée accessible via l'application Web, prenant en charge les indicateurs de réussite, les étiquettes de langue et le marquage d'exclusion au niveau de la trame.
Les normes de qualité comptent plus que la quantité. SVRC applique un contrôle de qualité en trois étapes à tous les ensembles de données : auto-annotation de l'opérateur immédiatement après l'enregistrement, examen secondaire par un annotateur qualifié et contrôles de cohérence automatisés comparant les annotations aux statistiques d'état communes (par exemple, les épisodes marqués comme succès où la pince ne s'est jamais fermée sont signalés pour une nouvelle révision).
Pipeline d'annotations du SVRC
Lorsque vous utilisez les SVRC services de collecte de données, l'annotation fait partie du livrable. Nos opérateurs annotent chaque épisode avec des indicateurs de réussite et des étiquettes de langue pendant la session d'enregistrement, et notre équipe d'annotation effectue un examen secondaire avant l'exportation de l'ensemble de données. Vous recevez un ensemble de données avec des annotations de haute confiance, des scores d'accord des annotateurs et un rapport de qualité complet. Pour les équipes apportant leurs propres données collectées, SVRC propose des services d'annotation uniquement et peut traiter les ensembles de données existants collectés sur n'importe quelle plate-forme matérielle prise en charge. Contactez-nous pour discuter de vos besoins en annotations d’ensembles de données.