본문 바로가기

AI/AI읽어주는 남자

로봇에 집중하는 구글과 엔비디아

구글 딥마인드의 제미나이 로보틱스: 가장 발전된 VLA

Gemini Robotics

 

Gemini Robotics

 

deepmind.google

Gemini Robotics: Bringing AI to the physical world

Introducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical world.

 

Introducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical w

Introducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical world.

deepmind.google

 

제미나이 로보틱스

  • 제미나이2.0을 기반으로 구축된 시각-언어-행동(VLA) 모델로, 로봇을 직접 제어하기 위해 물리적 행동을 새로운 출력 형태로 추가
  • 다양한 상황에 적응하는 범용성(Generality) / 지시나 환경 변화를 신속하게 이해하고 반응하는 상호작용성(Interactivity) / 사람처럼 손과 손가락을 섬세하게 사용하는 숙련도(Dexterity)
  • 범용성 : 다양한 상황에서 동작하며, 학습되지 않은 상황(unseen)에서도 동작이 가능함 (ex: 공을 농구골대에 넣기 등)
  • 상호작용성 : 제미나이 2.0을 기반으로 일상적인 대화체의 명령을 이해하고 다양한 언어로 답변 가능. 이를 통해 이전 모델보다 광범위한 자연어 명령을 이해하고, 입력에 따라 행동 조정. 또한 주변 환경을 지속적으로 모니터링하여 환경이나 명령의 변화를 감지하고 즉시 행동을 수정.
  • 숙련도 : 종이접기, 지퍼백에 간식 넣기처럼 섬세한 운동 능력과 정밀한 조작을 요구하는 다단계 작업을 진행 가능.

제미나이 로보틱스-ER(Embodied Reasoning)

  • 뛰어난 공간 이해 능력을 갖춘 시각-언어 모델(VLM)
  • 인지, 상태 추정, 공간 이해, 계획 및 코드 생성에 이르기까지 로봇 제어에 필요한 모든 추론 단계를 즉시 수행
  • 이러한 추론 능력을 통해 기존 제미나이 대비 2.0대비 2-3배 높은 성공률 달성
  • 복잡한 작업의 경우 인간의 몇가지 시연 패턴을 학습할수도 있음

기타

  • 로봇 모델은 주로 양팔 로봇 플랫폼인 ALOHA2의 데이터 기반으로 학습되었지만, 로봇 기업 앱트로닉에 투자하여 휴머노이드인 아폴로(Apollo)로봇과 같은 더욱 복잡한 구현에도 특화 가능.


엔비디아 최근의 GTC에서 발표한 로봇 관련 소식

"세계 최초의 오픈 휴머노이드 로봇, 최신 AI 칩 등 공개" 엔비디아 젠슨황 기조연설 하이라이트 (12분 ver)

https://www.youtube.com/watch?v=m1CH-mgpdYg

로봇의 두뇌 역할을 하는 범용 파운데이션 모델인 ‘아이작 그루트 N1’

  • 휴머노이드 로봇이 다양한 작업을 수행할 수 있도록 사전 훈련된 상태로 제공, 특정 목적에 맞게 fine-tuning도 가능
  • 훈련 방식은 인간의 시연 데이터를 학습하거나, 시뮬레이션 환경에서 데이터를 생성하는 방식으로 진행하며, 그루트 N1 훈련 데이터 및 작업 평가 시나리오를 오픈소스로 공개(HF, Github)
  • 1X 테크놀로지스의 ‘네오 감마’는 N1 기반으로 추가 훈련을 받은 후 자율적으로 정리 작업을 수행하는 모습을 시연

1X & NVIDIA Research Collaboration

  • Figure AI의 헬릭스처럼 이중 시스템 아키텍처가 적용 - 시스템 1은 직관적이고 빠른 의사 결정을 담당하며, 시스템 2는 신중한 분석과 계획을 수행(실제로 Figure AI는 엔비디아 GPU를 사용)
  • 물체 이동, 양손 협업, 자재 취급, 포장, 검사 등 작업 수행 가능하며, 다단계 작업도 처리 가능

합성 데이터 생성을 위한 ‘아이작 그루트 블루프린트’

  • 휴머노이드 로봇의 경우 인간의 시연을 통해 데이터를 얻어야 하는데, 이러한 한계를 해결하기 위해 나온 것이 블루프린트
  • 엔비디아는 이를 통해 78만개의 합성 궤적을 생성했고, 이는 6500시간에 해당하는 인간 시연 데이터를 단 11시간만에 만들어낸 것 과 같다고 함

오픈 소스 물리 엔진 ‘뉴턴’

  • 디즈니 리서치 및 구글 딥마인드와 협력해 로봇이 복잡합 작업을 보다 정밀하게 수행할 수 있도록 지원하는 물리 엔진 - 로봇의 관성, 마찰, 물체 영속성을 정밀하게 시뮬레이션
  • 이 뉴턴이 적용된 로봇 ‘블루’도 함께 선보임(’스타워즈’에서 영감을 받았다고 함)
  • 올해 하반기 출시 예정

기타

  • 딥마인드 출신 연구원 피트 플로렌스가 설립한 로봇 스타트업 ‘제너럴리스트 AI’에 엔비디아가 투자
  • 보스턴 다이나믹스가 휴머노이드 로봇에 차세대 AI 기능 구현을 위해 엔비디아 협력 강화한다고 함
    • 이미 아이작 그루트 플랫폼을 사용하고 있고, 아틀라스 로봇 개발에 엔비디아 젯슨 토르 컴퓨팅 플랫폼을 활용 중

 

위와 같이 엔비디아는 로봇/자율주행 분야에서 플랫폼을 거머쥐기위해 끊임없이 개발하고 투자하는 것을 알 수 있다.