Figure AI의 새로운 로봇을 위한 AI 모델 Helix

Helix: A Vision-Language-Action Model for Generalist Humanoid Control

Figure was founded with the ambition to change the world.

www.figure.ai

Figure.ai는 2025년 2월 20일에 Helix라는 새로운 비전-언어-동작(VLA) 모델을 발표했습니다. Helix는 지각, 언어 이해, 학습된 제어를 통합하여 로봇 공학의 여러 오랜 과제를 해결하는 데 목적이 있습니다.

Helix의 주요 특징은 다음과 같습니다:

상체 전체 제어: Helix는 손목, 몸통, 머리, 개별 손가락을 포함한 인간형 로봇의 상체를 고속으로 연속 제어할 수 있는 최초의 VLA 모델입니다.
다중 로봇 협업: Helix는 두 대의 로봇이 동시에 작동하여 이전에 본 적 없는 물체를 사용하여 공동의 장기 조작 작업을 해결할 수 있게 합니다.
모든 물체 집기: Helix를 탑재한 Figure 로봇은 자연어 지시에 따라 이전에 본 적 없는 수천 개의 작은 가정용 물체를 집을 수 있습니다.
단일 신경망: Helix는 이전 접근 방식과 달리, 특정 작업에 대한 추가 미세 조정 없이 단일 신경망 가중치를 사용하여 물체 집기 및 배치, 서랍 및 냉장고 사용, 로봇 간 상호 작용 등 모든 동작을 학습합니다.
상업적 준비 완료: Helix는 저전력 소비의 온보드 임베디드 GPU에서 완전히 실행되므로 즉시 상업적 배포가 가능합니다.

Helix는 두 개 VLA 기반의 상호 보완적인 시스템으로 구성되어 있습니다:

시스템 2(S2): 초당 7-9Hz로 동작하는 인터넷 사전 학습된 VLM으로, 장면 이해와 언어 이해를 담당하여 다양한 객체와 상황에 대한 일반화를 가능하게 합니다.
시스템 1(S1): S2가 생성한 잠재 의미 표현을 초당 200Hz의 속도로 정밀한 연속 로봇 동작으로 변환하는 빠른 반응형 비주모터 정책입니다.

이러한 구조를 통해 S2는 고수준의 목표를 천천히 생각하고, S1은 실시간으로 동작을 빠르게 실행하고 조정할 수 있습니다. 예를 들어, 협업 작업 중 S1은 파트너 로봇의 움직임 변화에 빠르게 적응하면서 S2의 의미적 목표를 유지합니다.

Helix는 가정 환경과 같이 복잡하고 다양한 물체가 존재하는 상황에서 로봇이 새로운 동작을 즉시 생성할 수 있도록 설계되었습니다. 이는 로봇 공학의 확장 가능성을 크게 향상시키며, 새로운 기술을 수백 번의 시연 없이도 자연어로 지정하여 즉시 획득할 수 있게 합니다.

로봇 영상을 그래도 참 자주 보는 것 같은데, 로봇 두대가 빠르진 않아도 협업하는 모습은 소름이 돋는 장면입니다.

로봇이 어느 시일에 어느 지점까지 대체할지 참 기대가 되네요.

로봇에 집중하는 구글과 엔비디아 (0)	2025.04.01
사티아 나델라 인터뷰: AI, 양자 컴퓨팅, 그리고 미래 기술 전망 (2)	2025.02.21
Large World Model의 대표 회사는 어디가 있을까? : Fei Fei Li 교수의 World Labs 그리고 Google DeepMind의 Genie2 (0)	2025.02.03
NVIDIA의 Large World Model, Cosmos의 등장 (2)	2025.01.21
아바타를 만드는 AI 기술 : Talking Face Generation 기술의 종류 5가지를 알아보자 (0)	2022.06.10

탈공대를 지향합니다