본문 바로가기

AI/Paper Review

(12)
Qwen2.5에 대해서 최근에 VLM에 대해 현업에서 여기저기 검토할 일이 많아졌다.상용 타겟을 하다보니 가벼운 모델에 특히 관심이 많은데, 원래는 Moondream 2B 모델을 갖고 이거저거 실험을 했었다.근데 성능이 제한적이라고 느껴져서,이에 대한 대안을 찾았고 아직 답을 내린 것은 아니지만 좀더 많은 파라미터를 가진 좋은 툴로 쓰기에 Qwen2.5가 좋아보인다고 어느 정도 답을 내렸다. 꽤 간단해보이는 Qwen2.5의 구조도.비전 인코더로 ViT를 사용했고, LLM으로 Qwen2.5 LLM을 사용했다.이런거보면 근래의 비전 인코더는 ViT가 통일한 것처럼 보이기도 하는데, 대안 모델이 언제쯤 나올까?학습은  pretraining -> SFT -> DPO 순이라고 하는데,DPO( Direct Preference Optimi..
LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces fromVideo using Pose and Lighting Normalization 요즘 눈여겨 보는 분야인 Talking Face Generation. 그리고 역시 컴비쪽 논문은 최신 CVPR 논문부터 찾게 된다. 그래서 발견한 보물같은 논문인 LipSync3D라는 논문에 대해 리뷰해보려고 한다. 저자(연구기관) : Avisek Lahiri 등 (Google Research / Indian Institute of Technology Kharagpur) 개요 : 오디오 데이터에 align된 3D 얼굴 랜드마크와 2D 텍스쳐를 생성하여 Talking Face 생성 1) 학습용 비디오로부터 오디오 채널을 추출한 후 frequency 도메인의 spectrogram(STFT)으로 변환 2) 학습용 비디오의 한 프레임을 reference 프레임으로 선택하고, reference coordinate..
CVPR 2021 3D Pose Estimation Papers Review : 2D-to-3D Lifting 기법들의 향연.. 그리고 데이터 부족 문제를 해결하려고 노력하다 2D to 3D Lifting 기법이 대다수이다 (Graph SH, CanonPose, ContextPose) HPE는 크게 Human Pose & Shape Estimation (Mesh Estimation)과 Keypoint Estimation으로 나뉜다 Keypoint Estimation은 직접 RGB영상에서 3D Pose 정보를 추출하는 one stage 기법과 2D Pose 정보로부터 3D Pose 정보를 추출하는 two stage 기법으로 나뉜다 이번 CVPR 2021의 Keypoint Estimation 논문 중에는 2D-3D Pose Lifting 기법이 대다수였고, one-stage 기법은 거의 없던 것으로 확인했다 2D-3D Pose Lifting 기법은 onse stage 기법에 비해..
VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera (SIGGRAPH 2017) 실시간성을 갖춘 3D Pose Estimation을 찾다가 baseline으로 가장 많이 인용된 논문 중 하나인 VNect를 읽어보았다. 실제로 사용을 해보니 공개 caffe 기반 모델이 있다는 점은 분명 장점이지만, 파이썬으로 구현된 공식open-source가 없다는 점, 공식 코드는 윈도우 기반에 C++ 기반이라는 등의 한계가 있다. 그래도 네이버에서 이걸 모바일화시킬 정도면 의미있는 모델인 거 같긴 한데, 3D Pose 초보인 내가 갖다 쓰기엔 영 불편한 면이 없지 않아 있다. 아무튼 논문의 동기, 구조 등을 확실히 잘 써놓은 훌륭한 논문이라고 생각이 든다. Intro - MS Kinect, AR/VR 같은 서비스들이 등장하면서 정확하면서 빠른 3D Pose Estimation 기술에 대한 니즈가 ..
Semantic Image Synthesis with Spatially-Adaptive Normalization (CVPR '19) 일명 SPADE라고 불리는 Pix2Pix SOTA 기법에 대한 논문이다. 이전에 리뷰했던 Pix2Pix 논문의 고도화 버전이며, NVIDIA의 논문에다가 저자들도 다소 겹치고, 1저자가 한국인이라는게 눈에 띈다. 주된 어플리케이션은 Semantic layout -> Photorealistic Image으로 변환하는 것이다. Semantic segmentation의 라벨만으로 그럴듯한 자연 영상을 생성해준다는 것으로 이해하면 쉽다. SPADE(Spatially-adaptive denormalization) 기존기법들은 semantic layout을 직접 입력으로 이용했는데, 이는 기존의 'normalization layer'에 의해 semantic information이 날라가기 때문에 suboptimal..
Liquid Warping GAN with attention : A Unified Framework for Human Image Synthesis : 내 사진 1장만으로 BTS 춤을 추는 내 아바타를 만들 수 있다면? 이번에 소개할 논문은 Motion Transfer 분야의 SOTA 기법인 Liquid Warping GAN with attention : A Unified Framework for Human Image Synthesis이다. 샹하이 공대에서 쓴 논문이며, 현재 CV 분야 최고의 저널 중 하나인 IEEE TPAMI 리뷰를 받고 있다고 한다. 개인적으로 상당히 많이 돌려본 코드의 논문이며 현재 관련 기법 중에서는 제일 생성 성능이 깔끔하고 좋다고 보여진다.(주관적) 코드에 여러가지 feature도 꾸준히 업데이트되고 있으니 관심 있는 분들은 한번 직접 돌려보는 것을 추천한다. (윈도우에서도 돌아감. 대신 해상도에 비례해서 GPU 필요) 이름에서 보듯이 Liquid Warping GAN이라는 기존 기법이 있었..
Video to Video Synthesis (NVIDIA, NeurIPS 2018) : 내 전신 동영상만 있으면 어떤 춤이든 출 수 있다 아바타 생성을 다루면서 제일 많이 돌려봤던 기법인 Video to Video Synthesis. 정작 블로그에 제대로 정리한 적은 없어서 간략하게나마 정리해본다고 이렇게 남기게 됐다. 정리하면서 다시 읽어봐도 상당히 거대한 모듈의 결합이고, loss function도 복잡하여 이해하는데 애를 먹었다. 그래도 제대로 Motion Transfer쪽에서 오픈소스화되어 나온 첫 모델이라 생각하고, 학습도 그리 어렵지 않다. 재미로라도 관심있는 분들은(+ 충분히 GPU 자원이 있는) 돌려보는 것을 추천한다. 목적 - 입력 동영상의 인물이 타겟 동영상의 인물의 동작을 모사하는 동영상을 생성 대표 논문 - Video to Video Synthesis, NeurlIPS 2018, NVIDIA (https://githu..
Image-to-Image Translation with Conditional Adversarial Networks Video synthesis 세미나를 준비하며 역사적으로 거슬러 올라가다 보니 안짚고 넘어갈 수 없었던 Pix2Pix 논문. 읽어야지 읽어야지 하다가 드디어 손에 잡고 읽어봤다. 결과가 명확하기 때문에 논문도 쉽게 잘 쓰였고, 정리도 정말 쉬웠던 논문이였다. 저자 - 다른 사람은 잘 모르겠으나 Tinghui zhou는 everybody dance now의 저자 중 한명으로 알고 있고, 실제로 컨택도 해봤다.(하다가 끊기긴 했다만..) Application - Labels to street scene - Aerial to Map - Labels to Facade - BW to Color - Day to Night - Edges to Photo - 논문상의 application 외에도 Kaggle의 실제 이..