본문 바로가기

nvidia

(4)

NVIDIA의 Large World Model, Cosmos의 등장 CES 2025에서 NVIDIA의 World 모델인 Cosmos가 등장했다.https://youtu.be/9Uch931cDx8 Physical AI라고 칭하는 이 모델은 현실세계의 물리법칙에 맞춰서 동작하는 합성 데이터를 생성할 수 있고,이러한 기술을 통해 로봇, 자율주행 등의 시뮬레이션에 유용할거라고 한다.실제로 Cosmos를 최초로 도입한 기업의 리스트에 우버, Figure AI, 애자일 로봇 등이 있다.https://blogs.nvidia.co.kr/blog/nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development/ ‘NVIDIA Cosmos WFM 플랫폼’, 물리 AI의 세계로 안내하다 -..

Semantic Image Synthesis with Spatially-Adaptive Normalization (CVPR '19) 일명 SPADE라고 불리는 Pix2Pix SOTA 기법에 대한 논문이다. 이전에 리뷰했던 Pix2Pix 논문의 고도화 버전이며, NVIDIA의 논문에다가 저자들도 다소 겹치고, 1저자가 한국인이라는게 눈에 띈다. 주된 어플리케이션은 Semantic layout -> Photorealistic Image으로 변환하는 것이다. Semantic segmentation의 라벨만으로 그럴듯한 자연 영상을 생성해준다는 것으로 이해하면 쉽다. SPADE(Spatially-adaptive denormalization) 기존기법들은 semantic layout을 직접 입력으로 이용했는데, 이는 기존의 'normalization layer'에 의해 semantic information이 날라가기 때문에 suboptimal..

Video to Video Synthesis (NVIDIA, NeurIPS 2018) : 내 전신 동영상만 있으면 어떤 춤이든 출 수 있다 아바타 생성을 다루면서 제일 많이 돌려봤던 기법인 Video to Video Synthesis. 정작 블로그에 제대로 정리한 적은 없어서 간략하게나마 정리해본다고 이렇게 남기게 됐다. 정리하면서 다시 읽어봐도 상당히 거대한 모듈의 결합이고, loss function도 복잡하여 이해하는데 애를 먹었다. 그래도 제대로 Motion Transfer쪽에서 오픈소스화되어 나온 첫 모델이라 생각하고, 학습도 그리 어렵지 않다. 재미로라도 관심있는 분들은(+ 충분히 GPU 자원이 있는) 돌려보는 것을 추천한다. 목적 - 입력 동영상의 인물이 타겟 동영상의 인물의 동작을 모사하는 동영상을 생성 대표 논문 - Video to Video Synthesis, NeurlIPS 2018, NVIDIA (https://githu..

Training Generative Adversarial Networks with Limited data (NeurlIPS 2020) 현재 진행 중(2020.12.7~2020.12.12)인 머신러닝 3대 학회 중 하나인 NeurlIPS 2020에 NVIDIA가 Augmentation에 대해 새로운 패러다임을 제시하면서 또 하나의 이슈를 만들었다. 논문 제목에서 알 수 있듯이 적은 양의 데이터로도 GAN을 학습할 수 있는 기법이고, 그 기법의 이름은 적응형 판별기 증강(Adaptive Discriminator Augmentation, ADA)이다. 원래도 Augmentation이란 한정된 데이터를 늘리기 위해 rotation. flip, crop 등의 방법을 이용하는 방법인데, 이것을 독창적인 방법으로 적용해봤다고 한다. 이 논문에 대한 요약은 다음과 같다. Augmentation의 종류를 6개 카테고리로 나눠서 해당 카테고리의 augm..

이전 1 다음

티스토리툴바