사용자에게 자율성을 부여하는 생성형 AI 작곡 서비스 MixAudio 리뷰

AI가 음악에 많은 영향을 미쳤지만, (물론 음악뿐만이 아니다) 가장 큰 영향을 준 분야는 작곡이다. 그동안 '작곡'만큼은 인간의 창의적인 전유물이라고 여겨졌지만, AI가 그조차 흔들리게 하고 있다.

대부분 생성형 AI 작곡 서비스는 다음과 같은 특징을 갖고 있다. 첫째로, 아무런 음악적 지식이 없어도 음악을 만들 수 있게 한다. (주로 텍스트 프롬프트를 활용한다.) 두 번째는 인터넷 연결만 가능하면 웹브라우저로 어디서든 AI로 음악을 생성할 수 있어서 하드웨어, 소프트웨어의 제약이 줄어든다는 것이다.

즉 AI 작곡은 음악을 만들기 위한 여러 가지 제약(지식, 시간, 장비 등)을 없애고 있다. AI는 기존 뮤지션들을 위협하는 존재이기도 하지만, 한편으로는 음원 제작의 효율성을 극대화시킬 수 있는 잠재력도 갖고 있다.

해외의 AI 작곡 서비스는 대표적으로 Suno, Udio, Stability Audio, Soundful 등이 있다. 그리고 구글, 메타, 마이크로소프트도 자체적으로 AI 음악 도구 개발에 힘쓰고 있다.

국내 AI 음악 기술 전문 회사 '뉴튠'은 현재 MixAudio라는 AI 작곡 서비스를 제공하고 있다. 기본적인 프롬프트 입력 방식의 AI 음악 생성을 비롯해, 다양한 힙합 아티스트들과 협력한 리믹스 기능도 눈에 띈다.

이 리뷰는 MixAudio로부터 서비스 이용권을 제공받아 진행됐습니다. (이 링크에는 제휴 코드가 없으며 광고성 리뷰가 아님을 밝힙니다.)

텍스트, 이미지, 오디오로 BGM 생성

MixAudio는 텍스트는 물론 이미지와 오디오를 인식해 음악을 생성할 수 있는 '멀티 모달 방식'이다. 직접 그림이나 음악 파일을 업로드할 수도 있고, 인터넷 주소나 유튜브 URL을 입력할 수도 있다.

텍스트, 이미지, 오디오를 인식해 AI로 BGM을 생성할 수 있는 MixAudio

Suno에도 오디오 업로드 기능은 있지만, 60초 이내의 오리지널 작품을 올릴 수 있게 한다. 반면, MixAudio는 기성곡의 유튜브 주소를 입력하는 것도 가능하다. Udio도 오디오 업로드가 가능하지만 스탠다드 요금제부터 가능한 반면, MixAudio는 모든 플랜에서 기본적으로 멀티 모달 방식을 지원한다.

이미지나 오디오 프롬프트를 제공하면 AI가 자동으로 해당 사진이나 음원 데이터를 분석해서 텍스트로 변환한다. 화면에서 사용자가 업로드한 데이터를 텍스트로 서술한 것을 통해 AI가 어떻게 이미지와 오디오를 인식하고 음악을 생성해 냈는지 확인할 수 있다.

대개 이런 방식의 텍스트 프롬프트 방식은 최대한 자세하게 설명할수록 적합한 결과물을 얻을 수 있다. 또한 AI 모델에 따라 적합한 설명 방식과 언어의 차이도 있다.

이런 점에서 제공된 이미지와 오디오를 분석, AI가 직접 자신에게 맞는 설명으로 표현하는 방식은 미숙한 텍스트 입력 방식보다 더 자연스러운 결과를 만들 수 있었다.

텍스트의 경우에도 '프롬프트 지니어스'라는 기능을 사용하면 자동으로 MixAudio가 음악을 잘 생성해 낼 수 있는 서술형 문장을 제공해 준다.

혹은 텍스트, 이미지, 오디오를 결합할 수도 있다. 영감을 받은 이미지에 약간의 설명을 덧붙이고, 레퍼런스가 되는 오디오를 업로드해 AI에게 더 상세한 주문을 할 수도 있다.

생성된 음악을 편집하는 것도 가능

MixAudio에서 또 다른 돋보이는 점은 AI가 생성한 음악을 일부 편집하는 것이 가능하다는 것이다.

'편집하기' 버튼을 누르면 DAW처럼 타임라인과 트랙 리스트를 볼 수 있다. 타임라인에서 송폼을 선택해 듣거나, 순서를 바꾸고 삭제하는 등의 편곡이 가능하다.

악기 트랙은 RHYTHM, BASS, MID-RANGE, HIGH-RANGE, EFFECTS, MELODY, AMBIENCE 총 7개가 있다. 이 중 필요한 트랙을 뮤트하거나 추가, 재생성, 교체하는 것이 가능하다.

개별 악기 스템 편집은 Suno나 Udio에도 없는 기능이다. Soundful의 경우 상위 요금제에서 최종 랜더링 및 다운로드 시 Stem 분리가 가능한 옵션이 있는 정도다. 이에 반해 MixAudio는 무료 플랜에서도 기본으로 스템 편집이 가능하다. (2024년 8월 기준 Suno와 Udio에 스템 다운로드 기능이 추가됐습니다.)

따라서 사용자가 AI 생성물을 자신의 취향에 맞게 커스터마이징하는 것이 가능하다. 다만 DAW만큼 자세한 편집은 불가능하며 특정 구간, 악기만 새롭게 생성해 붙이는 것과 볼륨 밸런스 정도만 맞춰볼 수 있다.

다수 힙합 뮤지션들이 참여한 AI 리믹스

'AI 리믹스' 탭에 들어가면 친숙한 아티스트들의 명단을 볼 수 있다. 넉살, 도끼, 신스, 윤비, 피타입, MC META, 차붐, 자메즈, 딥플로우 등 다양한 뮤지션들이 제공한 음원을 들어볼 수 있다.

여기서 사용자는 기존에 올라와 있는 음악과 자신의 AI 프롬프트를 결합시켜 새로운 음악을 생성할 수 있다. 필자의 기억에 초창기 MixAudio 어플에서 이 음악들을 다른 장르로 리믹스하는 기능이 있었는데, 이제는 AI 프롬프트를 이용해 새로운 AI 음악을 생성할 수 있게 됐다.

다만 AI 리믹스 기능은 흥미롭지만 현재로서는 다소 실험적인 단계로 보인다. '리믹스'라는 이름에서 알 수 있듯, 아티스트들의 곡을 AI가 분석해 완전히 새로운 것을 만들어 내는 것은 아니다.

하지만 AI 리믹스에서도 AI BGM처럼 텍스트, 이미지, 오디오 프롬프트를 사용해 다양한 방식으로 사용자의 영감을 취합할 수 있다는 점은 큰 잠재력이다. 또한, MixAudio에서 지속적으로 협업 아티스트들을 모집하고 있다고 하니 향후 발전이 기대되는 기능이다.

24시간 새로운 음악 생성하는 AI 라디오

AI 기술의 강점은 적은 시간과 노력으로 더 많은 결과를 만들 수 있다는 것이다. AI 라디오 탭에서는 끊이지 않고 반복해서 재생되는 BGM을 무한대로 생성할 수 있다.

이미 MixAudio에는 '황혼의 그림자' '옛 마을 속삭임' '먼지 쌓인 책들' '빗소리 릴듬' '도심 정글' 처럼 특정 분위기를 연상시키는 다양한 '라디오 채널'들이 준비되어 있어 AI 라디오 기능을 체험해 볼 수 있다. 또는 직접 프롬프트를 입력해 AI 라디오를 생성하면 사용자 요구에 맞춘 세션 리스트가 무한정으로 생성되며 끊임없이 재생된다.

Suno, Udio와 비교

많은 부분 MixAudio는 Suno, Udio와 유사한 기능과 인터페이스를 갖고 있다. 하지만 제공하는 결과의 종류나 추구하는 방향에서 차이점도 있었다.

MixAudio는 Suno, Udio와 달리 보컬 멜로디를 생성하지 않는다. 메뉴 이름부터 'AI BGM'인 점을 보아, 인스트루먼트 트랙 생성에 초점을 둔다는 것을 볼 수 있다.

물론 '편집하기'에서 MELODY를 생성하면 AI 리믹스에 제공되어 있는 뮤지션들의 보컬 멜로디를 생성할 수 있다. 하지만 완전히 새로운 형태의 멜로디를 작곡해 내는 것이 아니라, 보컬 구간들을 재조합, 변형하는 방식이다.

Suno와 Udio는 실제와 차이는 있어도, AI치고는 놀라운 수준의 보컬 라인을 생성한다. 또한 AI가 생성한 트랙은 그 자체로 완성된 수준이라고 느껴질 만한 송폼 편성, 믹싱, 마스터링된 음원을 생성한다.

반면, MixAudio는 사용자에게 가변성을 더 많이 보장한다. Suno와 Udio가 음원 생성에 조금 시간이 소요되는 것에 반해, MixAudio는 수초 내로 4개의 음원을 생성한다. 이렇게 빠른 속도 덕분에 악기 트랙별 편집 및 재생성도 수월하며, MixAudio도 이 점을 강점으로 내세우는 듯하다.

아래 예시는 MixAudio에서 뉴진스의 'How Sweet' 유튜브 URL을 입력했을 때 분석된 텍스트 프롬프트로 MixAudio, Suno, Udio에서 생성한 음원들이다.

A catchy and upbeat dance-pop anthem with a tropical twist, blending elements of 8-bit, easy-hop, dubstep, and pop rock, creating a fun and energetic track perfect for summer parties, sports events, or corporate advertising.

MixAudio

Suno

Udio

사용자의 자율성과 AI의 경계

AI 작곡이 처음 등장하고, 날로 기술이 발전해 가면서 많은 뮤지션들이 경악했다. 자신이 만든 곡의 가사를 그대로 프롬프트에 넣어 만든 AI 음악이 실제 시중에 발매된 음원들과 비슷한 퀄리티의 사운드로 재탄생하는 것을 보고, '자괴감이 든다' '걱정된다'는 반응이 나오기도 한다.

생성형 AI는 인간의 문화를 학습한 데이터를 기반으로 작곡한다. 학습의 원천이 된 인간의 문화를 뛰어넘는 새로운 산출물을 만들어낼 수 있다는 것이 'AI 혁명'이지만, 아직까지 AI 작곡은 기존 음악의 장르, 분위기, 사운드 디자인을 모방하는 수준에 그치고 있다.

따라서 AI에게는 오로지 사람보다 '더 빠르게, 많이' 음악을 만들 수 있다는 장점밖에 없다. 물론 이것만으로도 기존의 음악 생태계에 타격을 주겠지만, '작곡'이라는 행위에 위기가 왔다고 말하기엔 섣부르다.

왜냐하면 기존의 문화 규범과 선입견에서 벗어나는 것은 대중에게 어색한 것으로 치부되는 경향이 있어서, AI가 생성한 '멋진' 음악은 대중 문화의 기준에서 벗어나기 어렵기 때문이다. 따라서 대중을 대상으로 음악을 생성하는 AI는 대중 문화 즉, 사람의 취향에 종속되는 경향을 보인다.

처음 MixAudio를 사용했을 때 일부 결과에서는 어색함이 느껴지기도 했다. 어떤 코드는 화성 진행이 어색하거나, 불협화음 텐션을 만들기도 했다. 악기에 따라 독주 트랙에서는 볼륨이 너무 작은 문제도 있었다. 마스터링 결과가 들쭉날쭉한 것은 호불호가 있을 수 있는데, 이 또한 편집 기능에서 약간의 오디오 엔지니어링도 가능하다면 좋지 않을까하는 기대감이 있다.

이는 MixAudio가 추구하는 AI의 방향성이라고 본다. 그만큼 MixAudio에는 사용자가 접근할 수 있는 여지가 많다. 화성 진행이 어색하다면 텍스트 프롬프트에 '단순한 코드 진행'이라는 설명을 붙일 수 있다. 마음에 들지 않는 악기는 추가 편집으로 소리를 조금 줄이거나, 다른 트랙을 새로 생성해 볼 수도 있다.

따라서 MixAudio는 인간의 영역을 인간에게 일정 부분 남겨두고 있다고 할 수 있다. AI 리믹스 또한 현재 미완성 단계로 보이지만, 인간과 AI의 관계라는 점에서 중요한 대목이다. MixAudio는 앞으로 AI 도구가 일상화될 우리 세대에게 많은 점을 시사한다.

글 박찬울