컨텐츠 바로가기

04.19 (금)

[토요리뷰]나와 닮은 AI 목소리가 '뚝딱'…"소름 돋지만 신기해"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

KT가 지난해 11월 출시한 '마이 AI 보이스' 체험기

문장 30개만 녹음하면 AI 목소리 생성…외국어도 지원



(서울=뉴스1) 윤지원 기자 = "안녕하세요 뉴스1 윤지원 기자입니다. 지금 나오는 목소리는 KT의 마이 AI 보이스 서비스를 활용해 생성된 저의 AI 목소리입니다."

실제와 똑닮은 목소리가 흘러나와 화면에 입력된 문장을 읽었다. 이는 사람의 목소리가 아니다. 정확히는 사람의 목소리로 만들어진 인공지능(AI) 목소리다.

지난해 11월 출시된 KT의 '마이 AI 보이스'를 활용해 AI 목소리를 직접 만들어봤다. 마이 AI 보이스는 나만의 AI 목소리를 언제 어디서나 쉽게 제작할 수 있는 웹 기반 서비스다.

마이 AI 보이스 서비스에 앞서 KT는 지난해 7월 AI 음성 합성 콘텐츠를 제작할 수 있는 'AI 보이스 스튜디오' 서비스를 출시했다. KT는 이를 위해 AI 기반 음성 합성 분야 스타트업 '휴멜로'와 협업했다.

스튜디오에서는 110개의 AI 목소리를 활용해 음성 콘텐츠를 제작할 수 있다. 10대 미만 여아부터 60대 남성 등 목소리의 종류는 다채롭다. 한국인뿐만 아니라 영어, 중국어, 일본어, 스페인어 등의 외국어 목소리도 있다.

AI 목소리에 감정을 입혀 콘텐츠를 만들 수도 있는데 즐거움, 침착함, 중립, 슬픔, 화남 등 총 5가지 감정을 쓸 수 있다. 이와 별도로 이용자가 낭독한 감정을 AI 목소리에 입히는'감정 더빙' 기능도 있다.

뉴스1

KT의 '마이 AI 보이스'는 30개 예시 문장을 녹음하면 자신의 목소리와 닮은 인공지능(AI) 보이스를 만들어준다.(KT 마이 AI 보이스 화면 갈무리)

<이미지를 클릭하시면 크게 보실 수 있습니다>


◇30개 문장만 녹음하면 AI 보이스 생성…요금제 4가지

마이 AI 보이스는 30개 예시 문장만 녹음하면 실제 목소리와 닮은 AI 보이스를 만들 수 있다. AI 전문가가 아닌 일반인도 쉽게 자신의 육성으로 AI 목소리를 제작할 수 있다는 점에서 기술적 장벽이 낮다.

AI 보이스를 만드는 과정은 간단하다. 우선 공식 홈페이지에 접속해 가입한 후 요금제를 선택한다. 요금제는 △프리(무료) △라이트(1만2000원) △수퍼(4만8000원) △수퍼 플러스(12만원) 등 총 4가지다. 요금은 월단위로 과금된다.

요금제별로 음성 콘텐츠를 만들 수 있는 글자 수가 제한돼 있는데 적게는 월 4000자, 많게는 36만자까지 있다. 남은 글자 수는 이월되지 않는다. 글자 수는 4000자를 추가 충전할 수 있는데 이 경우 4000원을 추가로 내야 한다.

프리 요금제 같은 경우 나머지와 달리 감정 더빙 기능과 마이 AI 보이스 기능은 사용할 수 없다.

홈페이지 상단에 있는 '스튜디오'에 들어가면 기본 화면으로 '대시보드'가 뜬다. 이곳엔 요금제 종류, 생성된 마이 AI 보이스의 개수, 생성된 오디오 콘텐츠 목록, 사용한 글자 수 등에 대한 정보가 나와 있다.

스튜디오에서 대시보드 아래에 있는 AI 보이스 항목으로 이동하면 마이 AI 보이스를 만들 수 있다. 일상대화, 방언, 동화책 등의 스크립트 10가지의 스크립트 중 하나를 선택해 30개 문장을 녹음하면 된다.

KT에서는 일관된 톤의 목소리로 읽고 주변 소음이 없는 공간에서 녹음할 것을 권고한다. 값비싼 마이크 혹은 녹음 부스 등의 전문 공간 없이 일반 이어폰과 가정집 방안에서 녹음해도 무방하다.

예시 문장으로는 '저는 가끔 공원 셔틀을 이용합니다' 등의 문어체 문장부터 '대박이다. 정말 감사합니다, 좋은 하루 되세요', '조용히 좀 해, 창피하니까' 등의 구어체 문장까지 다채롭다.

뉴스1

KT의 '마이 AI 보이스'는 30개 예시 문장을 녹음하면 자신의 목소리와 닮은 인공지능(AI) 보이스를 만들어준다.(KT 마이 AI 보이스 화면 갈무리)

<이미지를 클릭하시면 크게 보실 수 있습니다>


◇그 어떤 문장도 '척척'…외국어도 거뜬

AI 목소리가 생성에는 하루에서 이틀이 소요된다. 이후 원하는 문장을 직접 입력하면 AI 목소리가 이를 음성으로 출력한다. 한문장씩 입력해야 하는데 한문장당 최대 120자까지 가능하다.

실제로 출력되는 음성은 발음, 말투, 어조 등이 실제 목소리와 매우 유사했다. 숫자나 알파벳 등은 한글로 직접 풀어 썼을 때 발음이 더 정확해졌다. '간장 공장 공장장' 등 어려운 문장도 실제 사람보다 정확한 발음으로 읽어냈다.

녹음하지 않은 문장도 똑닮은 목소리로 읽어 소름이 돋았지만 그만큼 AI 기술의 진보를 체감할 수 있었다.

한국어뿐만 아니라 영어, 일본어, 중국어, 스페인어 등도 적용된다. 예컨대 영어로 문장을 입력하면 영어로 말하는 자신의 AI 목소리를 들을 수 있다.

이때 별도로 영문 녹음을 거치지 않아도 된다. 처음에 한국어로 녹음했던 30개 문장 샘플만으로도 외국어 목소리가 생성되는 셈이다.

실제로 직접 스페인어 문장을 입력했더니 스페인어로 음성이 나왔다. 비원어민 관점에서는 어조, 발음 등이 꽤 자연스럽게 느껴지는 수준이었다. KT는 향후 지원 외국어를 확대할 예정이다.

이렇게 제작된 AI 목소리는 AI 보이스 스튜디오 회원 가입 기간 동안 계속 보관해 활용할 수 있다. 다운로드 받은 음성 콘텐츠는 유료 결제를 종료해도 계속 사용할 수 있다.

이같은 AI 음성 기술은 오디오북 등 전자책 시장에서 주로 활용되고 있다. KT는 1인 크리에이터 등도 집중 공략하고 있으며 향후 영화, 드라마 등 더빙 시장에서도 기술이 활발히 이용될 것으로 전망했다.

KT 관계자는 "현지에서 배우와 비슷한 성우를 섭외하고 녹음하면 비용이 많이 든다"며 "더빙도 AI로 할 수 있는 길이 조만간 열리지 않을까 싶다"고 말했다.

g1@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포 금지.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.