إعداد كاميرا الروبوت لجمع البيانات: المعصم، والنفقات العامة، والستيريو
يعد وضع الكاميرا أحد أهم القرارات وأكثرها تحديدًا في كثير من الأحيان في جمع بيانات الروبوت. يجب أن تتطابق الملاحظات التي تراها سياستك أثناء التدريب مع ما تراه أثناء النشر - والخطأ في إعداد الكاميرا يعني جمع البيانات التي لا يمكنها تدريب سياسة موثوقة.
استراتيجية وضع الكاميرا
المبدأ الأول لوضع الكاميرا الروبوتية هو: يجب أن تكون الكاميرات المستخدمة لجمع البيانات متطابقة في موضع التركيب مع الكاميرات المستخدمة لنشر السياسة. لا يمكن التعافي من عدم التطابق هذا - فالسياسة التي يتم تدريبها على مشاهدات كاميرا المعصم لا يمكن تعميمها على رؤية الكاميرا العلوية، والعكس صحيح. حدد تكوين كاميرا النشر الخاصة بك قبل تجميع حلقة واحدة من بيانات التدريب.
التكوينات الأكثر شيوعًا في أبحاث التلاعب هي: المعصم فقط (كاميرا واحدة مثبتة على معصم الروبوت، تتطلع إلى مساحة عمل التلاعب)؛ علوية فقط (كاميرا واحدة أو اثنتين مثبتتين على منصة علوية ثابتة)؛ وعرض متعدد (كاميرا المعصم بالإضافة إلى كاميرا خارجية واحدة أو كاميرتين توفر سياقًا عالميًا لمساحة العمل). تتفوق تكوينات العرض المتعدد باستمرار على العرض الفردي في أداء السياسة، على حساب البنية التحتية للتسجيل الأكثر تعقيدًا.
كاميرات المعصم: الإيجابيات والسلبيات وأفضل الممارسات
توفر كاميرات المعصم رؤية من منظور الشخص الأول لإجراءات التلاعب - حيث يرى الروبوت تقريبًا ما يفعله عند المستجيب النهائي. تعتبر وجهة النظر هذه مفيدة للغاية لمهام الإمساك والإدخال الدقيقة حيث يجب إدراك العلاقة بين القابض والجسم بدقة. تتبع كاميرات المعصم أيضًا المقبض تلقائيًا عبر مساحة العمل، مما يضمن وجود الكائن المستهدف دائمًا في الإطار أثناء التلاعب.
يتمثل القيد الرئيسي لكاميرات المعصم في أنها لا ترى مساحة العمل العالمية، إذ لا يستطيع الروبوت رؤية الأشياء البعيدة عن موضعها الحالي دون تحريك الذراع. وهذا يحد من فعاليتها في المهام التي تتطلب الفهم على مستوى المشهد أو التنسيق اليدوي. بالنسبة للأنظمة ثنائية اليد، يجب أن يحمل كل ذراع كاميرا معصم خاصة به. المواصفات الموصى بها: دقة 1080 بكسل أو أعلى، 60+ إطارًا في الثانية، مغلاق شامل (ليس مصراع دوار) لتجنب ضبابية الحركة أثناء الحركات السريعة، وعدسة واسعة الزاوية (مجال رؤية 90-110 درجة) للحفاظ على رؤية نقطة اتصال الإمساك من مسافة قريبة.
الكاميرات العلوية: التكوين والمقايضات
توفر الكاميرات العلوية الثابتة عروضًا ثابتة ومتسقة لمساحة العمل تلتقط مشهد المعالجة الكامل. فهي أقل حساسية لحركة الذراع وتوفر سياقًا أفضل للمهام التي تتطلب خطوات متسلسلة متعددة عبر مناطق مساحة العمل المختلفة. من السهل تركيب الكاميرات العلوية باستمرار عبر محطات الروبوت المتعددة، وهو أمر مهم لحملات جمع البيانات واسعة النطاق.
يتم تقليل القيد من التفاصيل عند نقطة اتصال التلاعب. لا يمكن للكاميرا العلوية التي يبلغ ارتفاعها 80 سم والتي تنظر لأسفل إلى مساحة عمل الطاولة أن تراقب بشكل موثوق هندسة تلامس كائن القابض على الأشياء الصغيرة. ولهذا السبب يتم عادةً إقران الكاميرات العلوية بكاميرات المعصم في إعدادات جمع البيانات عالية الأداء - يوفر العرض العلوي سياق المهمة وتحديد المواقع التقريبي، بينما يوفر عرض المعصم تفاصيل معالجة دقيقة.
الدقة ومعدل الإطارات والتزامن
لجمع بيانات المعالجة، تعد دقة 480 بكسل - 720 بكسل لكل كاميرا بمعدل 30 إطارًا في الثانية كافية لمعظم سياسات التعلم المقلدة في عام 2026. تعمل الدقة الأعلى (1080 بكسل) على تحسين الأداء في المهام التي تتطلب تمييزًا مكانيًا دقيقًا. تقدم معدلات الإطارات التي تقل عن 30 إطارًا في الثانية اسم مستعارًا مؤقتًا يقلل من تعلم السياسات في المهام السريعة. توفر معدلات الإطارات التي تزيد عن 60 إطارًا في الثانية عوائد متناقصة لمعظم مهام المعالجة وتزيد بشكل كبير من متطلبات التخزين.
تعد مزامنة الكاميرات المتعددة أمرًا بالغ الأهمية ويتم إهمالها كثيرًا. إذا لم تتم مزامنة الكاميرات مع الأجهزة، فيجب تنفيذ محاذاة الطابع الزمني بعناية أثناء تحميل البيانات. حتى 33 مللي ثانية من الإزاحة بين الكاميرات (إطار واحد بمعدل 30 إطارًا في الثانية) يمكن أن تؤدي إلى عدم استقرار التدريب للمهام التي يجب أن تكون فيها مناظر المعصم والعرض العلوي متسقة مؤقتًا. تدعم سلسلة Intel RealSense D435 وD455 مزامنة الأجهزة عبر كابل مزامنة، وهي الخيار المفضل لدى SVRC لإعدادات الكاميرات المتعددة المتزامنة.
كاميرات العمق
توفر كاميرات العمق قياسات المسافة لكل بكسل بالإضافة إلى صور RGB، مما يتيح فهم المشهد ثلاثي الأبعاد دون إعادة بناء الاستريو بشكل واضح. تعد كاميرات Intel RealSense وMicrosoft Azure Kinect وZED أكثر أجهزة استشعار العمق استخدامًا في جمع بيانات الروبوت. تعتبر معلومات العمق ذات قيمة للمهام التي يكون فيها ارتفاع الكائن أو شكله أو موضعه ثلاثي الأبعاد مهمًا للتخطيط الفهمي، وللسياسات التي تستخدم مدخلات السحابة النقطية بدلاً من مدخلات الصور النقية.
المقايضة: تضيف كاميرات العمق الوزن والتكلفة وحمل المعالجة. يتم تحقيق العديد من نتائج التعلم المقلدة الحديثة باستخدام كاميرات RGB النقية، مما يشير إلى أن العمق ليس ضروريًا دائمًا. استخدم العمق عندما تستفيد بنية السياسة الخاصة بك بشكل واضح من الإدخال ثلاثي الأبعاد، عندما تتضمن المهام تباينًا كبيرًا في العمق (تكديس كائنات بارتفاعات مختلفة)، أو عندما تحتاج إلى أداء قوي عبر ظروف الإضاءة المتغيرة (العمق أكثر ثباتًا في الإضاءة من RGB).
المعايرة ومعيار الكاميرات المتعددة SVRC
يجب معايرة كل كاميرا - المعايرة الداخلية (البعد البؤري، معاملات التشوه) والمعايرة الخارجية (الموضع والاتجاه بالنسبة إلى قاعدة الروبوت) قبل البدء في جمع البيانات. استخدم هدف رقعة الشطرنج الفعلي للمعايرة وأعد المعايرة بعد أي حركة أو تعديل للكاميرا. تخزين معلمات المعايرة كبيانات وصفية مع كل مجموعة بيانات.
يستخدم معيار جمع البيانات الخاص بـ SVRC تكوينًا ثابتًا لثلاث كاميرات: كاميرا معصم واحدة لكل ذراع بالإضافة إلى كاميرا علوية مُعايرة لكل محطة. تعد حوامل الكاميرا الفعلية جزءًا من تصميم محطة العمل الموحد لدينا، مما يضمن وضعها بشكل متسق في جميع أنحاء منشأتنا. يتم تسجيل كافة معلمات المعايرة تلقائيًا وإدراجها في عمليات تصدير مجموعة البيانات. بالنسبة للفرق التي تقوم بإعداد البنية التحتية الخاصة بها لجمع البيانات، تقدم SVRC استشارات بشأن إعداد الكاميرا ويمكنها توفير مجموعات الكاميرا التي تمت معايرتها مسبقًا - اتصل بنا أو انظر لدينا صفحة خدمات البيانات للحصول على التفاصيل.