정의
로봇 공학에서 기초 모델은 특정 작업으로 전송할 수 있는 일반적인 표현을 제공하는 광범위한 데이터세트(인터넷 이미지, 텍스트 또는 교차 구현 로봇 데이터)에 대해 사전 훈련된 대규모 신경망을 의미합니다. RT-2, OpenVLA 및 π₀와 같은 VLA(Vision-Language-Action 모델)가 그 예입니다. 이 모델은 로봇 동작을 생성하기 위해 언어 지침과 시각적 관찰을 받아들입니다. 주요 이점은 사전 학습된 표현이 이미 유용한 시각적 및 의미론적 개념을 포착하므로 새로운 작업에 대한 데이터 요구 사항이 줄어든다는 것입니다.
로봇 팀에 중요한 이유
실제 로봇 시스템을 구축하는 팀에게는 기본 모델을 이해하는 것이 필수적입니다. 데모 데이터를 수집하든, 시뮬레이션에서 정책을 교육하든, 프로덕션에 배포하든 이 개념은 작업 흐름과 시스템 설계에 직접적인 영향을 미칩니다.