AI아나운서, AI윤석열 등 AI를 이용하여 아바타를 만드는 기술에 대한 관심도가 최근에 부쩍 높아진 것을 느끼고 있는데요.
그래서 현재 연구개발분야이기도 한 AI 휴먼 생성 기술의 종류 중 하나인 Talking Face Generation가 무엇인지 그리고 기술의 종류를 어떻게 나눌 수 있을지에 대해 글을 한번써보려고 합니다.
Talking Face Generation이란?
영상과 음성 등의 멀티모달 데이터를 입력으로 말하는 얼굴 동영상을 생성하는 기술로,
전처리로 여러가지 인식 기술도 필요하기 때문에 컴퓨터비전 분야와 음성/자연어 분야 등에 대한 폭넓은 이해가 필요한 기술입니다.
국내에서는 딥브레인, 마인즈랩 두곳이 상용화 서비스를 시작했고 그 품질 또한 상당히 훌륭합니다.
최근에 스마트테크코리아라는 전시회에 가서 보니 CNAI, 클레온, CJ올리브네트웍스도 비슷한 서비스를 준비하고 있나보네요.
Talking Face Generation 기술의 분류
저는 주관적으로 Talking Face Generation 기술을 다음 5가지로 분류해보았습니다.
- 이미지에 마스킹을 이용하는 방법
- 얼굴의 랜드마크를 이용한 방법
- Text 데이터를 이용하는 방법
- 감정 정보를 이용하는 방법
- 하나의 이미지 입력 기반의 방법
모든 기법들이 이 다섯가지로 깔끔하게 나뉘지 않을 수도 있지만 대체로는 이 다섯가지 중 하나에는 들어갈 것 같습니다.
그래서 하나씩 살펴보면,
1. 이미지에 마스킹을 이용하는 방법
대표기법으로는 Wav2lip, ATVGNet 등이 있습니다.
얼굴의 하관을 마스킹하여 그 부분에 대해서만 생성하는(inpainting) 기법들로, 해당 영역에 대해서는 안정적인 결과를 보여줍니다.
단점이라면, 2D 기반에 정해진 템플릿에서만 학습을 하기 때문에 생성 얼굴의 구도를 바꿀 수 없어서 자유도가 떨어진다는 점이 있습니다.
2. 얼굴의 랜드마크를 이용한 방법
대표기법으로는 AD-NeRF, Lipsync-3D, Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis 등이 있습니다.
이러한 기법들은 얼굴의 특징점들을 2D or 3D 위치 형태로 검출하여 데이터 전처리로 사용하는 경우가 많습니다.
2D 도메인에서는 dlib을 많이 사용하고 3D 도메인에서는 3DMM을 이용하여 (R, t)를 구하여 사용하는 경우 등이 있습니다.
직접적으로나 간접적으로나 얼굴의 랜드마크는 대부분 논문에서 사용하는 것으로 보이고, 최신 논문들에서는 3D 정보를 이용해서 보다 정교한 얼굴 생성을 하려고 노력하는 것으로 보이네요.
3. Text 데이터를 이용하는 방법
대표기법으로는 Text2Video, Obamanet, AnyoneNet 등이 있습니다.
오디오 대신 텍스트 데이터를 입력으로 이에 따른 얼굴을 생성하는 기법들로,
텍스트데이터를 TTS(음성 합성) 또는 feature space로 전달하여 얼굴 생성 학습에 활용하기도 합니다.
어플리케이션에 따라 텍스트 입력이 필요한 경우 유용할 것으로 보입니다.
4. 감정 정보를 이용하는 방법
대표기법으로는 Speech driven talking face generation from a single image and an emotion condition 등이 있습니다.
아무래도 감정이라는 정보가 아직 딥러닝에서 사용하기에 정량적으로나 객관적으로나 어려운 정보라서 그런지 논문이 많지는 않네요.
감정에 따라 사람의 얼굴 표현이 달라진다는 전제로 감정에 따라 말하는 얼굴에 대해 각기 다르게 생성하도록 학습합니다.
동화책 읽기 등 감정에 따른 다양한 표현이 필요한 컨텐츠에서 유용하게 사용될 수 있는 기법으로 앞으로의 발전이 기대됩니다.
5. 하나의 이미지 입력 기반의 방법
대표기법으로 Audio2Head, 3D Talking Face with personalized pose dynamics 등이 있습니다.
위에서 설명드린 기법들은 대부분 학습에 동영상 단위의 데이터가 필요한 경우가 많은데요.
이런 single image 입력 기반의 기법에서는 reference 이미지를 한장만 입력으로 넣어 one-shot learning을 통해 말하는 얼굴을 생성합니다.
데이터가 제한적인 분야이기 때문에 이미지 한장만 있어도 된다는 것은 큰 장점인데요.
반면에 그만큼 생성 퀄리티가 좋지 않다는 것 또한 단점으로 볼 수 있습니다.
하지만 여전히 가능성만큼은 가장 큰 분야라고 볼 수 있겠네요.
오늘은 이렇게 Talking Face Generation 기술의 분류에 대해서 알아봤습니다.
상용화 사례도 많아지고 있고, 관련 논문도 계속해서 나오고 있는 핫한 분야인데요.
앞으로도 관련 논문, 기술 현황 등에 대해서 재밌게 풀어볼 수 있도록 노력해보고자 합니다.
'AI > AI읽어주는 남자' 카테고리의 다른 글
로봇에 집중하는 구글과 엔비디아 (0) | 2025.04.01 |
---|---|
Figure AI의 새로운 로봇을 위한 AI 모델 Helix (0) | 2025.02.25 |
사티아 나델라 인터뷰: AI, 양자 컴퓨팅, 그리고 미래 기술 전망 (2) | 2025.02.21 |
Large World Model의 대표 회사는 어디가 있을까? : Fei Fei Li 교수의 World Labs 그리고 Google DeepMind의 Genie2 (0) | 2025.02.03 |
NVIDIA의 Large World Model, Cosmos의 등장 (2) | 2025.01.21 |