사운드-리디자인(Sound-Redesign) 작업에 AI 활용하기

이번에는 곡 작업이 아닌 사운드 리디자인 작업 과정에 대해 이야기해 보려고 한다. 필자가 강의하고 있는 다른 과목에서는 중간, 기말 과정에 게임 트레일러 영상 사운드를 리디자인하는 과제를 진행하고 있다. 쉽게 영화 작업에서의 기준으로 표현하자면, 포스트프로덕션 과정에 해당한다고 보면 된다.

포스트프로덕션에서 쓰이는 프로그램과 용어

nj image1

영화나 영상은 크게 다음과 같은 작업 과정으로 구분된다.

  • 프리프로덕션(Pre-Production) : 촬영을 위해 필요한 작업들을 미리 준비하는 단계
  • 프로덕션(Production) : 실제 촬영 단계
  • 포스트프로덕션(Post-Production) : 촬영을 끝마친 후 추가로 필요한 작업들을 진행하는 단계. 예를 들어 편집 관련이나 특수효과, CG 작업, 사운드 작업 등을 의미한다.

영상 사운드 작업은 포스트프로덕션 항목에 해당한다. 영상에 필요한 다이얼로그(Dialogue), 에프엑스(EFX), 폴리(Foley), 앰비언스(Ambience), 뮤직(Music) 등을 녹음, 생성, 믹싱하는 역할이다.

필자의 수업에서는 프로툴즈(Pro Tools), 사운드 포지(SoundForge), 베가스 프로(Vegas Pro)를 사용한다. 프로툴즈는 대사 녹음 및 음악 작업에, 사운드 포지는 대사의 노이즈를 제거하고 EFX를 생성 및 편집하는 작업에 사용된다. 베가스 프로는 최종 사운드를 편집 및 믹싱하는데 쓰인다.

포스트프로덕션 사운드 작업에서 사용되는 용어들은 아래와 같다.

  • 다이얼로그(Dialogue) : 영상에서 나오는 등장인물의 대사
  • 에프엑스(EFX) : 효과음
  • 폴리(Foley) : 사람이 사물을 활용하여 녹음한 효과음
  • 앰비언스(Ambience) : 화면상의 공간 효과음
  • 뮤직(Music) : 삽입되는 음악
  • 포스트 믹싱(Post Mixing) : 위의 다섯 항목의 볼륨 밸런스를 조정하는 작업
njimage3
필자가 강의하는 학과에서는 자체적으로 녹음실을 보유하고 있어 영상을 보면서 ADR(Automated Dialogue Replacement), 즉 후시 녹음까지 가능하도록 세팅되어 있고 간단한 왈라(Walla) 작업 및 폴리(Foley) 사운드 작업도 가능하다.
nj image2

사운드-리디자인 작업 과정

필자의 수업에서 진행하는 사운드-리디자인(Sound-Redesign) 작업의 과정은 다음과 같다.

  1. 먼저 당해년도 발매되는 게임 트레일러 영상들 중에서 중간, 기말에 활용할 두 작품을 선정한다.
  2. 먼저 영상에 삽입되어 있는 대사를 듣고 대본을 작성한다.
  3. 대본을 가지고 녹음실에서 대사 녹음을 한다.
  4. 사운드 포지를 활용하여 녹음된 대사의 노이즈를 제거한다.
  5. 베가스 프로에서 대사 파일을 불러와 영상과 싱크 작업을 한다.
  6. 사운드 라이브러리를 활용하여 이펙트 사운드 작업을 한다.
  7. 폴리는 녹음실에서 여러 사물을 활용하여 직접 녹음을 진행한다.
  8. 음악은 프로툴즈의 미디 시퀀싱 기능을 활용하여 작업하거나 편집한다.
  9. 최종 사운드 편집 및 포스트 믹싱은 베가스 프로에서 진행한다.

AI를 활용하기

지금까지는 이 모든 작업들이 사람에 의해서 진행되어 왔지만, 요즘 가장 핫한 이슈인 AI를 사운드 파트에 활용하는 시도도 수업에서 진행하고 있다.

위의 일반적인 사운드 리디자인 과정에서 AI는 크게 대사 녹음, 음악에서 활용될 수 있다.

대사 녹음

먼저 AI를 활용해 음성 분리를 해주는 '가우디오 스튜디오'(과거 무료였으나 현재는 유료로 바뀜)에서 영상 전체 사운드 중 대사 부분만 분리해 내는 작업을 진행한다. 이를 활용하면 쉽게 대본 정리를 할 수 있다.

다음 단계로 실제 대사를 직접 녹음하는 방식이 아닌, 텍스트를 목소리로 바꾸어주는 무료 프로그램 'Soundly'를 활용해 대사를 생성한다. 목소리는 프로그램에 미리 세팅되어 있는 성우 프리셋에서 남, 여를 선택하여 진행한다.

실제 영상 속의 대사와 비교하면 액팅 부분은 유사한 느낌을 내기는 어려우나, 나레이션(Narration)은 괜찮은 느낌의 작업물을 생성해 준다. 실제 녹음의 경우 주로 대사가 틀리는 문제 때문에 많은 시간이 소모되는데, 이에 반해서 AI는 이점을 가지고 있다. 또한 본인의 목소리 샘플로 AI를 교육 시킨 후, 텍스트 음성을 만들어내는 기술도 있으니 이를 활용해 보는 것도 가능하다.

음악

일반적으로는 영상에 어울리는 음악을 작곡하거나, 기존 음악 라이브러리를 편집하는 방식으로 음악을 넣는다. 여기서는 'Udio'라는 무료 AI 사이트를 활용하여 자동 음악 작업을 진행해 보았다.

원하는 음악을 얻으려면 자세한 곡 설명이 필요하지만, 그래도 빠른 시간 안에 어느 정도 괜찮은 작업물을 얻을 수 있다. 음악을 작곡해 본 경험이 없는 작업자들의 경우 큰 도움을 받을 수 있을 것으로 보인다.

다만 짧은 구간의 음악만 생성할 수 있다는 문제와, 다양한 악기 편곡이 필요한 경우가 있기에 아직은 더 보완할 점이 있어 보인다. 하지만 지금 정도의 AI 발전 속도라면 아주 빠른 시간 안에 이 문제들이 해결될 수도 있을 것이다.

현시점에서 보자면, 무료 AI 프로그램 및 사이트들도 점차 유료화될 것으로 보인다, 따라서 사운드 파트의 AI 활용 가속화 여부는 비용과 산출물의 퀄리티에 달려 있다고 볼 수 있을 것이다.