본문 바로가기

AI/AI읽어주는 남자

Large World Model의 대표 회사는 어디가 있을까? : Fei Fei Li 교수의 World Labs 그리고 Google DeepMind의 Genie2

지난번 포스팅에서는 NVIDIA의 LWM 기반의 Physical AI 플랫폼인 Cosmos에 대해 알아보았다.

 

오늘은 그 외에 또 어떤 유수의 회사들이 Large World Model을 위해 개발하고있는지 알아볼 것이다.

 

World Labs를 설명하기 앞서, 창립자인 Fei Fei Li에 대해 간략히 설명하자면,

 

스탠포드 교수이자 ImageNet 프로젝트의 창시자로서 AI업계에서 이름을 떨쳤다.

 

그런 그녀가 2024년 4월 'Spatial Intelligence'를 표방하며 세운 회사가 바로 World Labs이다.

https://www.worldlabs.ai/

 

World Labs

World Labs is a spatial intelligence AI company building Large World Models (LWMs) to perceive, generate, and interact with the 3D world.

www.worldlabs.ai

https://www.worldlabs.ai/blog

 

Generating Worlds

Today we're sharing our first step towards spatial intelligence: an AI system that generates 3D worlds from a single image.

www.worldlabs.ai

 

위 두번째 링크를 들어가면, 상세한 데모들이 나와있다.

 

이미지 한장을 이용하여 3D 세계를 손쉽게 만들 수 있는 것을 특징으로 내세우고 있는데,

 

Cosmos에서는 자율주행, 로봇과 같은 현실세계의 scene을 주 타겟으로 내세웠다면 World Labs는 게임과 같은 가상세계를 좀더 메인으로 관심을 두고 있는 것으로 보인다.

 

25년도에 첫번째 제품을 출시한다고 하며, 데모에서처럼 브라우저 기반 상호 작용 가능한 3D 월드 생성 모델이 기대가 된다.

 

그 외의 모델 적용 예시로는

  • 3D 캐릭터를 위한 환경 생성 : 게임 캐릭터를 위한 맵을 쉽게 만든다
  • 애니메이션을 위한 일관성있는 배경 생성 : 3D 환경을 만들고 Stable Diffusion 등을 이용하여 Style Transfer하면 애니메이션 등에도 유용하게 써먹을 수 있음. 기존에는 스튜디오에서 3D 환경을 빌드하거나 구매한 다음 스크린샷을 찍어 transfer 하던 행위에 대한 비용과 시간을 아낀다.
  • 정교한 카메라 컨트롤 : 기존 비디오 생성에서는 시간적으로 더 길고 더 복잡한 카메라 조작이 한계이다. 키프레임을 삽입하는 새로운 3D 환경 생성 방식에 Runway 등의 video to video 기술을 합치면 원하는 장면의 카메라 컨트롤 또한 자연스러워진다.

 

이와 유사하게 나온 것이 구글 딥마인드의 Genie2.

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

 

Genie 2: A large-scale foundation world model

Generating unlimited diverse training environments for future general agents

deepmind.google

작년 2월에 나온 Genie의 후속 기술로서 12월에 공개되었다.

 

이것도 역시 게임과 같은 가상세계를 만들 수 있는 것으로 보이며 데모에서는 텍스트 프롬프트를 통해 만들 수 있는 것으로 보인다.

 

World labs의 데모와 마찬가지로 키를 이용하여 직접 탐사할 수 있는 형태의 3D 공간으로 보인다.

 

위 링크의 설명에 따르면 딥마인드의 SIMA라는 에이전트모델과 연동하여 General AI를 만드는 연구도 하고 있다고 한다.

 

SIMA는 LAM(Large Action Model)로 볼 수도 있으니 LWM <-> LWM의 웅장한 만남은 구글이 첫 발을 내딛는 것처럼 보이기도 하고..

 

아직 초기 연구이니만큼 계속 관심을 갖고 지켜볼 필요가 있다.