Benchmarks de Aprendizaje de Robots
Evaluación estandarizada para la manipulación de robots — RLBench, LIBERO, CALVIN y más. Tasas de éxito, finalización de tareas, métricas de evaluación.
Pista de Benchmark de Simulación
Conjuntos de tareas para evaluación reproducible basada en simulación.
ColecciónEvaluación de Robots Reales
Benchmarks centrados en el despliegue incorporado y la robustez.
ColecciónTareas Condicionadas por Lenguaje
Benchmarks que enfatizan el anclaje de instrucciones y la composición de tareas.
Categorías Populares
Etiquetas Populares
Referencias para Manipulación
RLBench
Más de 100 tareas de manipulación en PyRep. Ampliamente utilizado para la evaluación de VLA. BridgeVLA 88.2%, InternVLA 95%+ en subconjuntos.
Ver referencia → SimulaciónLIBERO
Referencia de aprendizaje continuo. 130 tareas, conjuntos espaciales/objetos/objetivos. RoboSuite. 95.9% SOTA (InternVLA).
Ver referencia → SimulaciónCALVIN
Composición de Acciones a partir de Lenguaje y Visión. Horizonte largo, condicionado por lenguaje. RoboFlamingo fuerte base.
Ver referencia → robots realesGoogle Robot Benchmark
Manipulación en el mundo real. Más de 700 tareas. WidowX, varias encarnaciones. Tasa de éxito, evaluación multi-tarea.
Ver referencia → robots realesCOLOSSEUM
Referencia de robot real a gran escala. Tareas y entornos diversos. BridgeVLA 64%.
Ver referencia →Modelos y Conjuntos de Datos Sugeridos
Métricas Comparables
Las referencias se agrupan para verificaciones de rendimiento comparables.
Cobertura real versus sí
Evaluar tanto configuraciones controladas como orientadas a la implementación.
Mapeo de Modelos
Cada ruta de referencia se vincula a familias de modelos compatibles.
Soporte de Ejecución
Soporte para captura de datos y operaciones de evaluación cuando sea necesario.